发布日期:2024-10-18 17:14 点击次数:130
让自动驾驶系统稳健新环境和不同地区的俗例和律例是自动驾驶界限恒久面对的挑战。NVIDIA Research 团队建议的自动驾驶智能体 LLaDA 未必诳骗 LLM 生成稳健不同环境的驾驶战术和提醒,为驾驶员和自动驾驶汽车提供多话语和地区交通看成的及时引诱,匡助他们更简短地在目生的地方导航。此外,LLaDA 还能匡助自动驾驶汽车从头规划出与当地环境愈加匹配的畅通轨迹,疗养自动驾驶汽车的畅通规划战术。联系论文遵守收录于 CVPR 2024 。
关联词,LLaDA 无法结束场景的自动识别,且对场景形容的质地有着较高条件。尽管 GPT-4V 未必提供这种形容,但是却不够准确。为此,NVIDIA Research 建议一个更始的自动化视频字幕生成框架 Wolf。Wolf 遴荐巨匠羼杂设施,诳骗视觉话语模子(VLMs)的互补上风,未必普及自动驾驶智能体的场景蚁合智商。
开心影视此外,LLaDA 时常是与用户凯旋交互,并主要处理文本信息。比拟之下,自动驾驶系统则需要提供具体的位置和轨迹规划信息。基于这些各异,NVIDIA Research 团队专为自动驾驶界限瞎想出一种多模态大型话语模子(MM-LLM)TOKEN。TOKEN 通过将复杂的交通环境滚动为对象级别的学问单位,增强了自动驾驶车辆在面对长尾事件时的规划智商。该模子还联接了端到端驾驶模子的上风,贬责了数据稀缺和绚丽化遵守低下的问题。联系论文收录于 CoRL 2024 。
在上述布景下,智猩猩与 NVIDIA 操办推出「智猩猩公开课 NVIDIA 自动驾驶智能体专场」,并将于10月22日以视频直播形态进行。公开课邀请到 LLaDA 论文第一作家、VIDIA Research 自动驾驶地方商议科学家李柏依进行主讲,主题为《探索基于多模态LLM 的自动驾驶智能体》。
李柏依博士当先会要点栽培 LLaDA 怎样诳骗 LLM 生成稳健不同环境的驾驶战术和提醒;之后会解读怎样使用 Wolf 框架生成字幕普及智能体的场景蚁合智商。接下来麻豆 苏畅,李柏依博士会栽培怎样基于 TOKEN 剖析复杂交通场景普及智能体在长尾事件的规划智商,临了会共享在自动驾驶智能体上的未来商议地方,并进行瞻望。