オープンソースコミュニティ分水嶺:Meta大モデルLlama 3の発表パラメータは最高または4000億に達する
SOGO
发表于 2024-4-19 16:12:26
238
0
0
AI(人工知能)のオープンソース大モデル分野での会社の地位を維持するため、ソーシャル大手Metaは傘下の最新オープンソースモデルを発売した。
Metaは現地時間4月18日、傘下の最新ビッグモデルLlama 3を公式サイトで発表した。現在、Llama 3は80億(8 B)と700億(70 B)の2つの小パラメータバージョンをオープンしており、コンテキストウィンドウは8 kである。Metaによると、より高品質なトレーニングデータと命令微調整を使用することで、Llama 3は前世代Llama 2よりも「大幅に向上した」という。
将来的には、Metaは4000億を超えるパラメータを持つLlama 3のより大きなパラメータ・バージョンを発売する。MetaもLlama 3のために、より長いコンテキストウィンドウやLlama 3の研究論文を含むマルチモーダルなどの新機能を発表する。
Metaは公告の中で、「Llama 3を通じて、現在最も優れた専有モデルに匹敵するオープンソースモデルの構築に力を入れている。開発者のフィードバックを処理し、Llama 3の全体的な実用性を向上させるとともに、LLM(大言語モデル)の使用と配置を担当する上でリードする役割を続けたい」と書いている。
18日当日、Meta株価(Nasdaq:META)は1株当たり501.80ドルで1.54%上昇し、時価総額は1兆2800億ドルだった。
「現在市場で最も優れたオープンソースの大モデル」
Metaによると、Llama 3はすでにさまざまな業界ベンチマークテストで最先端の性能を示しており、改良された推論能力を含む新機能を提供しており、現在市場で最も優れたオープンソースの大モデルとなっている。
アーキテクチャレベルでは、Llama 3は128 K token用語集を含む分詞器を用いた標準的なデコードオンリー(decoder-only)式Transformerアーキテクチャを選択した。Llama 3はMetaが自作した2つの24 K GPUクラスタで予備訓練を行い、15 Tを超える公開データを使用した。そのうち5%は非英語データで、30以上の言語をカバーし、訓練データ量は前世代Llama 2の7倍、含まれるコード数はLlama 2の4倍である。
Metaの試験結果によると、Llama 3 8 BモデルはMMLU、GPQA、HumanEvalなど多くの性能基準でGemma 7 BとMistral 7 B Instructを上回っており、70 Bモデルは有名な閉源モデルClaude 3の中間バージョンSonnetを超えており、グーグルのGemini Pro 1.5に比べて3勝2敗となっている。
Llama 3は複数の性能基準で優れている。出典:Meta公式サイト
通常のデータセットに加えて、Metaは実際のシーンにおけるLlama 3の性能の最適化にも力を入れており、そのために高品質の人工試験セットを開発した。このテストセットには1800件のデータが含まれており、提案を求める、クローズドな質問への回答、頭脳嵐、コーディング、作文など12の重要な用例をカバーし、開発チームに秘密にしている。
このテストセットでは、結果的にLlama 3の成績はLlama 2を大幅に上回り、Claude 3 Sonnet、Mistral Medium、GPT-3.5などの有名モデルにも勝った。
Llama 3は人工試験集で優れた成績を収めた。出典:Meta公式サイト
一方、Llama 3の400 B+モデルはまだ訓練中であるが、MetaもClaude 3の最強バージョンOpusをターゲットにすることを目的としたテスト結果の一部を示しているようだ。しかし、MetaはLlama 3のより大きなパラメータモデルとGPT-4同等規格の選手の比較成果を公表していない。
訓練中のLlama 3の400 B+モデル。出典:Meta公式サイト
Llama 3モデルは、開発者にアマゾンAWS、Databricks、グーグルクラウド、Hugging Face、Kaggle、IBM WatsonX、アマゾンAzure、英偉達NIM、Snowflakeで提供され、AMD、AWS、デル、インテル、英偉達、クアルコムが提供するハードウェアプラットフォームのサポートを受ける予定です。Llama 3を責任を持って開発するために、Metaはまた、Llama Guard 2、Code Shield、CyberSec Eval 2を含む新しい信頼とセキュリティツールを提供します。
同時に、MetaはLlama 3ベースの公式WebバージョンMeta AIをリリースした。現在、このプラットフォームはまだ初期段階であり、対話と絵画の2つの機能しかありません。ユーザはダイアログ機能を使用して登録する必要はなく、ペイント機能を使用するにはユーザがログインアカウントを登録する必要があります。
オープンソースコミュニティに活力を注ぐ
MetaのAI道路は従来からオープンソースと密接につながっており、Llama 3が発売されると、オープンソースコミュニティから熱烈な歓迎を受けた。
Llama 3の8 kコンテキストウィンドウが小さすぎるというツッコミもいくつかあったが、Meta側は、すぐにLlama 3のコンテキストウィンドウを拡張すると述べている。電子メールベンチャー企業Otherside AIのCEOで共同創業者のマット・シューマー(Matt Shumer)氏も楽観的で、「GPT-4レベルのモデルはオープンソースで無料でアクセスできる新世界に入っている」と述べた。
英偉達高級研究科学者の範麟熙(Jim Fan)氏によると、間もなく発売されるより大きなパラメータLlama 3モデルはオープンソースコミュニティの「分水嶺」を示し、多くの学術研究とベンチャー企業の意思決定方式を変えることができ、「生態系全体における活力が急増すると予想される」という。
しかし、注目すべきは、MetaはLlama 3のトレーニングデータを公表せず、すべてが公開データから来ていると主張していることだ。厳密な意味では、いわゆる「オープンソース」ソフトウェアは、開発と配布の過程で、ソフトウェア製品のソースコード、トレーニングデータなどを含む内容を一般に完全に公開しなければならない。これまで、データ会社Databricksが発表してきた「最強オープンソース大モデル」DBRXには、通常のコンピュータをはるかに上回る標準構成があるほか、この問題もあった。
Llama 3の発売はMeta自己研究チップが進歩した後に続いている。先週、Metaは独自開発チップMTIAの最新版を発表した。MTIAはMetaがAI訓練と推理作業に特化して設計したカスタムチップシリーズである。昨年5月に発表されたMeta初代AI推理加速器MTIA v 1と比べて、最新バージョンのチップはMeta傘下のソーシャルソフトウェアのランキングと推薦システムのために設計され、性能が大幅に向上した。分析によると、Metaの目標は、インテルなどのチップメーカーへの依存を減らすことだという。
Logomoney.com 情報発信プラットフォームであり、情報保存空間サービスのみを提供しています。
本文はLogomoney.comの立場を代表するものではなく、提案を構成するものではありません、慎重に対応してください。
本文はLogomoney.comの立場を代表するものではなく、提案を構成するものではありません、慎重に対応してください。
あなたが好きだと思う
- 奇富科技:デジタル金融安全レベルと金融大モデルの着地応用の向上に助力する
- OpenAIオンライン満血版o 1大モデルおよび月額200ドルのChatGPT Pro
- オープンソース証券:AIが教育業界の急速な発展をリード
- OpenAIにまたキング爆弾が!AIビデオ生成モデルSoraを正式にリリース
- 新東方は「遅ればせながら」、教育大モデル時代が来たのか。
- グーグル、最強モデルを放出OpenAIの重心をAIエージェントに狙撃
- OpenAIに挑戦、グーグルが新アクション!生成型AIを大幅に更新し、ビデオモデルVEO 2と最新版Imagen 3をリリース
- ますます真偽の見分けがつかない?グーグル、次世代ビデオ生成モデルVeo 2を発表
- 蔚来第3ブランドホタル初モデル2025年4月発売
- マイクロソフトは365 Copilot製品に非OpenAIモデルを追加することに力を入れているという