英伟达最新研究成果!开辟机器人导航更多可能 无需地图可实时感知
我心如烟卸
发表于 2024-12-11 17:15:51
203
0
0
NaVILA模型的相关论文
视觉语言模型(VLM)是一种多模态生成式AI模型,能够对文本、图像和视频提示进行推理。它通过将大语言模型(LLM)与视觉编码器相结合,使LLM具有“看”的能力。
传统的机器人行动往往依赖于预先绘制的地图和复杂的传感器系统。而NaVILA模型不需要预先的地图,机器人只需“听懂”人类的自然语言指令,结合实时的视觉图像和激光雷达信息,实时感知环境中的路径、障碍物和动态目标,就可以自主导航到指定位置。
不仅摆脱了对地图的依赖,NaVILA还进一步将导航技术从轮式扩展到了足式机器人,希望让机器人应付更多复杂场景,使其具备跨越障碍和自适应路径规划的能力。
在论文中,加州大学研究人员使用宇树Go2机器狗和G1人形机器人进行了实测。根据团队统计的实测结论,在家庭、户外和工作区等真实环境中,NaVILA的导航成功率高达88%,在复杂任务中的成功率也达到了75%。
Go2机器狗接受行动指令:向左转一点,朝着肖像海报走,你会看到一扇敞开的门
G1人形机器人接受行动指令:立即左转并直行,踩上垫子继续前进,直到接近垃圾桶时停下来
据介绍,NaVILA模型的特点在于:
优化准确性与效率:NVILA模型在训练成本上降低了4.5倍,微调所需内存减少了3.4倍。在预填充和解码的延迟上几乎降低了2倍(这些数据是与另一个大型视觉模型LLaVa OneVision进行比较得出的)。
高分辨率输入:NVILA模型并不通过降低照片和视频的大小来优化输入,而是使用高分辨率图像和视频中的多个帧,以确保不丢失任何细节。
压缩技术:英伟达指出,训练视觉语言模型的成本非常高,同时,微调这样的模型也非常耗费内存,7B参数的模型需要超过64GB的GPU内存。因此英伟达采用了一种名为“先扩展后压缩”的技术,通过将视觉信息压缩为更少的token,来减少输入数据的大小,并将像素进行分组,以保留重要信息,平衡模型的准确性与效率。
多模态推理能力:NVILA模型能够根据一张图片或一段视频回答多个查询,具有强大的多模态推理能力。
在视频基准测试中,NVILA的表现超过了GPT-4o Mini,并且在与GPT-4o、Sonnet 3.5和Gemini 1.5 Pro的比较中也表现出色。NVILA还在与Llama 3.2的对比中取得了微弱胜利。
英伟达表示,目前尚未将该模型发布到Hugging Face平台上,其承诺会很快发布代码和模型,以促进模型的可复现性。
LogoMoney.com 系信息发布平台,仅提供信息存储空间服务。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
声明:该文观点仅代表作者本人,本文不代表LogoMoney.com立场,且不构成建议,请谨慎对待。
猜你喜欢
- 纳指收跌超3% 英伟达重挫逾6%
- 鲍威尔“鹰派”讲话带崩美股,纳指跌超3%,英伟达再度大跌
- 大摩下调英伟达营收预期:H20限售令影响或超预期!
- 霸王茶姬美股首日上市 盘中一度涨近50%!道指跌超1% 英伟达跌近3%!事关降息 特朗普发声
- 黄仁勋今年二度到访:中国是英伟达非常重要的市场 希望继续与中国合作
- 龚正会见英伟达总裁兼首席执行官黄仁勋
- 美股成交额前20:特斯拉、亚马逊、英伟达涨超3% 奈飞股价创新高
- 重申英伟达“增持”评级!大摩强调AI增长放缓论调十分可笑
- 美股巨震,英伟达大跌!特朗普关税下,有美企老板称还不如一把火烧了库存!美国富人巨额资金正流向瑞士
- 英伟达突传重磅!亚马逊、苹果、Meta和微软将在本周发布季度报告
-
美国总统特朗普近日在接受媒体采访时表示,他第二个任期不仅治理美国,也治理全世界。 特朗普于4月24日接受了《大西洋》(The Atlantic)月刊采访,这段专访于4月28日发布。 “第一次当总统时,我要做两 ...
- lfancn
- 昨天 12:10
- 支持
- 反对
- 回复
- 收藏
-
4月29日凌晨,阿里巴巴开源新一代通义千问模型Qwen3(千问3),参数量为DeepSeek-R1的三分之一,成本大幅下降。据称,该模型性能全面超越R1、OpenAI-o1等领先模型,登顶全球最强开源模型。 千问3是国内首个“ ...
- 风雨中行走
- 前天 10:32
- 支持
- 反对
- 回复
- 收藏
-
东风有限回应武汉工厂关停事宜 据第一财经,4月29日,东风汽车有限公司证实,该公司武汉工厂目前正常运行,后续也不会关停。东风有限称,该公司将在东风与日产母公司的支持下平稳有序发展,持续加速向新能源 ...
- king19831101
- 昨天 09:56
- 支持
- 反对
- 回复
- 收藏
-
新京报讯(记者张洁)4月28日,新京报记者从叮咚买菜获悉,其旗下自有黑猪肉品牌“黑钻世家”正式投资源头养殖公司,计划未来一年内投苗3万头特色黑猪,并同步加速“黑钻世家”专卖店布局,今年目标从现有5家增 ...
- beyondclj
- 前天 10:03
- 支持
- 反对
- 回复
- 收藏