阿里开源千问3,参数量为DeepSeek-R1三分之一
风雨中行走
发表于 2025-4-29 10:32:12
2512
0
0
千问3是国内首个“混合推理模型”,将“快思考”与“慢思考”集成进同一个模型,对简单需求可低算力“秒回”答案,对复杂问题可多步骤“深度思考”,节省算力消耗。
阿里巴巴表示,千问3系列支持119种语言,并基于近36万亿个token(标记)进行训练,使用的数据量是千问2.5的两倍。
千问3系列包括两个专家混合(MoE)模型和另外六个模型。阿里巴巴开源了两个MoE模型的权重:拥有2350多亿总参数和220多亿激活参数的Qwen3-235B-A22B,以及拥有约300亿总参数和30亿激活参数的小型MoE 模型Qwen3-30B-A3B。
阿里巴巴表示,Qwen3-235B-A22B在代码、数学、通用能力等基准测试中,可媲美DeepSeek-R1、o1、o3-mini、Grok-3和Gemini-2.5-Pro等顶级模型。
此外,六个Dense模型也已开源,包括Qwen3-32B、Qwen3-14B、Qwen3-8B、Qwen3-4B、Qwen3-1.7B和Qwen3-0.6B,均在Apache 2.0许可下开源。
阿里巴巴表示,千问3代表了该公司在通往通用人工智能(AGI)和超级人工智能(ASI)旅程中的一个重要里程碑。未来,阿里计划从多个维度提升模型,包括优化模型架构和训练方法,以实现扩展数据规模、增加模型大小、延长上下文长度、拓宽模态范围等关键指标。
阿里巴巴集团CEO吴泳铭在今年2月的业绩会上表示,阿里集团在AI战略里面的首要目标是AGI(通用人工智能)的实现,可能远远超过现在可见的任何一个应用场景。
阿里巴巴预判如果实现AGI,人工智能相关产业大概率将会是全球最大的产业,有可能影响或者替代现在50%左右的GDP构成。
目前,包括谷歌在内的多家科技巨头推出了开源模型。今年3月,谷歌开源多模态大模型Gemma 3正式发布。这款仅需单块H100 GPU即可运行的27B参数模型,不仅性能对标谷歌闭源大模型Gemini 1.5 Pro,更以“低成本、高性能”的标签重新定义了行业标准。这一举措被业界视为谷歌在开源AI领域的一次重大战略升级。
今年3月底,OpenAI 宣布计划在今年发布自GPT-2以来的首个“开源”语言模型。据媒体报道,OpenAI的开源模型将采用“输入文本,输出文本”的模式,并可能允许开发者自由开启或关闭其“推理”功能。
LogoMoney.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
猜你喜欢
-
近日,中美贸易局势明显缓和。众多外贸企业纷纷惊呼“美国订单来了”。 北京时间5月12日下午3点,《中美日内瓦经贸会谈联合声明》发布,中美双方各取消91%的关税,暂停实施24%的对等关税90天。 北京时 ...
- yulai
- 昨天 11:17
- 支持
- 反对
- 收藏
-
5月13日,爱奇艺网络电影公众号发布消息称,爱奇艺电影分账合作新增院线新片分账合作通道,适用范围包括从上映首日至上线首播窗口期不超过90天的院线新片。 合作规则显示,院线新片可以采用会员分账模式在 ...
- yagesmlj
- 前天 10:22
- 支持
- 反对
- 收藏
-
北京商报讯(记者刘晓梦)5月13日,通用汽车宣布,任命自动驾驶卡车公司Aurora联合创始人兼首席产品官斯特林·安德森为全球产品执行副总裁和首席产品官。 安德森将于今年6月2日加入通用汽车,并向通用汽车总 ...
- siyoyo
- 3 天前
- 支持
- 反对
- 收藏
-
每经AI快讯,5月13日,英伟达涨超5%。
- siyoyo
- 前天 06:13
- 支持
- 反对
- 收藏