阿里千问最强模型重磅亮相：性能媲美 GPT-5.2、Gemini 3 Pro-科技先锋的专栏

阿里千问最强模型重磅亮相：性能媲美 GPT-5.2、Gemini 3 Pro

2026-01-28 00:40:09栏目：默认栏目 IP属地：IP未知

1 月 26 日消息，阿里正式发布千问旗舰推理模型 Qwen3-Max-Thinking，创下数项权威评测全球新纪录，性能媲美 GPT-5.2、Gemini 3 Pro，成为迄今为止最接近国际顶尖模型的国内最强 AI 大模型。

通过总参数、强化学习、推理计算的极致规模扩展，千问新模型实现了性能的大幅飞跃，刷新科学知识（GPQA Diamond）、数学推理（IMO-AnswerBench）、代码编程（LiveCodeBench）等多项关键性能基准测试的全球纪录。

Qwen3-Max-Thinking 是目前阿里规模最大、能力最强的千问推理模型，其总参数量超万亿（1T），预训练数据量高达 36T Tokens。。

在涵盖事实知识、复杂推理、指令遵循、人类偏好对齐、Agent 能力等 19 个公认的大模型基准测试中，千问旗舰推理模型刷新了数项最佳表现（SOTA）纪录，整体性能可媲美 GPT-5.2-Thinking-xhigh、Claude Opus 4.5 和 Gemini 3 Pro。

在关键的模型推理能力提升中，千问新模型采用了一种全新的测试时扩展（Test-time Scaling）机制，推理性能提升的同时还更经济。

业界普遍的推理时计算，只会简单增加并行推理路径，重复推导已知结论，造成冗余推理效率低下；而千问采用的这一新机制，可对此前推理的结果进行「经验提取」式的提炼，并据此进行多轮自我迭代，在相同的上下文中实现更高效的推理计算，获得更智能的推理结果。

基于这一推理技术创新，千问推理性能和推理效率大为提升，比如在启用工具的「人类最后的测试」HLE 中，千问得分 58.3，大幅超过 GPT-5.2-Thinking 的 45.5、Gemini 3 Pro 的 45.8，录得当前所有模型的最高分。（来源：快科技）