通義千問開源320億パラメータモデルはすでに7種類の大言語モデルの全開源を実現した

安民告示发表于 2024-4-7 17:04:51

4864 0 0

阿里雲通義千問開源320億パラメータモデルQwen 1.5-32 Bは、性能、効率とメモリ占有のバランスを最大限に考慮し、企業と開発者により高い性価格比のモデル選択を提供することができる。現在、通義千問は7種類の大言語モデルをオープンし、国内外のオープンソースコミュニティで累計ダウンロード数は300万を突破した。
通義千問はこれまで5億、18億、40億、70億、140億、720億パラメータの6つの大言語モデルを開発し、いずれも1.5バージョンにアップグレードした。そのうち、いくつかの小サイズモデルは端側に簡単に配置でき、720億パラメータモデルは業界をリードする性能を持ち、HuggingFaceなどのモデルランキングに何度も登場した。今回オープンソースの320億パラメータモデルは、性能、効率、メモリ占有の間でより理想的なバランスを実現する。例えば、14 Bモデルよりも32 Bの方がスマートボディのシーンで能力が強い、72 Bに比べて32 Bの推論コストは低い。通義千問チームは、32 Bオープンソースモデルが下流アプリケーションにより良いソリューションを提供することを望んでいる。
基礎能力の面では、通義千問320億パラメータモデルはMMLU、GSM 8 K、HumanEval、BBHなど多くの評価の中で優れており、性能は通義千問720億パラメータモデルに近く、他の300億級パラメータモデルをはるかに上回っている。
Chatモデルでは、Qwen 1.5-32 B-ChatモデルはMT-Bench評価得点が8点を超え、Qwen 1.5-72 B-Chatとの差は相対的に小さい。
多言語能力については、通義千問チームがアラビア語、スペイン語、フランス語、日本語、韓国語などを含む12言語を選び、試験、理解、数学、翻訳など多くの分野で評価した。Qwen 1.5-32 Bの多言語能力は通義千問720億パラメータモデルにわずかに劣っている。

通義千問開源320億パラメータモデルはすでに7種類の大言語モデルの全開源を実現した

浏览过的版块