英偉達の最新研究成果!ロボットナビゲーションを開発地図なしでリアルタイムに感知できる可能性が高い
套顿各爱了
发表于 2024-12-11 17:15:55
1332
0
0
カリフォルニア大学の研究者と英偉達氏はこのほど、新たな視覚言語モデル「NaVILA」を発表した。注目すべきは、NaVILAモデルがロボットナビゲーションに新しい提案を提供していることです。
NaVILAモデルに関する論文
視覚言語モデル(VLM)は多モード生成式AIモデルであり、テキスト、画像、ビデオ提示を推理することができる。大言語モデル(LLM)と視覚エンコーダを結合することで、LLMに「見る」能力を持たせる。
従来のロボット行動は、あらかじめ描かれた地図や複雑なセンサシステムに依存することが多い。NaVILAモデルは事前の地図を必要とせず、ロボットは人間の自然言語指令を「聞き取る」だけで、リアルタイムの視覚画像とレーザーレーダー情報を結合し、リアルタイムに環境中の経路、障害物、動的目標を感知することで、指定された位置に自律的にナビゲートすることができる。
地図への依存から抜け出すだけでなく、NaVILAはさらにナビゲーション技術をホイール式から足型ロボットに拡張し、ロボットにより多くの複雑なシーンに対応してもらい、障害や適応経路計画を乗り越える能力を持たせたいと考えています。
論文では、カリフォルニア大学の研究者が宇樹Go 2ロボット犬とG 1人型ロボットを用いて実測を行った。チーム統計の実測結果によると、家庭、アウトドア、ワークスペースなどの実際の環境では、NaVILAのナビゲーション成功率は88%に達し、複雑なタスクでの成功率も75%に達した。
Go 2ロボット犬は行動命令を受けます:左に少し曲がって、肖像ポスターに向かって歩くと、開いたドアが見えます
G 1人型ロボットは、すぐに左に曲がって直進し、マットを踏んでゴミ箱に近づくまで前進を続けます。
NaVILAモデルの特徴は、
正確性と効率の最適化:NVILAモデルはトレーニングコストの4.5倍削減し、微調整に必要なメモリは3.4倍削減した。プリフィルと復号の遅延がほぼ2倍に減少しました(これらのデータは別の大型視覚モデルLLaVa OneVisionと比較されています)。
高解像度入力:NVILAモデルは、写真とビデオのサイズを小さくすることで入力を最適化するのではなく、詳細が失われないように高解像度画像とビデオの複数のフレームを使用します。
圧縮技術:英偉達氏は、視覚言語モデルを訓練するコストは非常に高く、同時に、このようなモデルを微調整するのにもメモリが非常にかかり、7 Bパラメータのモデルには64 GBを超えるGPUメモリが必要だと指摘した。そのため、英偉達は「先拡張後圧縮」という技術を採用し、視覚情報をより少ないトークンに圧縮することで、入力データのサイズを減らし、画素をグループ化して、重要な情報を保持し、モデルの正確性と効率をバランスさせる。
マルチモーダル推論能力:NVILAモデルは1枚の画像またはビデオに基づいて複数のクエリに答えることができ、強力なマルチモーダル推論能力を持っている。
ビデオベンチマークテストでは、NVILAのパフォーマンスはGPT-4 o Miniを上回り、GPT-4 o、Sonnet 3.5、Gemini 1.5 Proとの比較でも優れています。NVILAはまた、Llama 3.2との比較で微弱な勝利を収めた。
英偉達氏によると、このモデルはまだHugging Faceプラットフォームにリリースされておらず、モデルの再現性を促進するためにコードとモデルをすぐにリリースすることを約束している。
Logomoney.com 情報発信プラットフォームであり、情報保存空間サービスのみを提供しています。
本文はLogomoney.comの立場を代表するものではなく、提案を構成するものではありません、慎重に対応してください。
本文はLogomoney.comの立場を代表するものではなく、提案を構成するものではありません、慎重に対応してください。