橙皮书|座舱交互:ChatGPT 改变不了的智能座舱,多模可以
人与车的关系,离不开「交互」两个字。无论是传统汽车时代的机械按键,还是智能汽车时代的触控屏幕、语音交互,寻找到更安全、高效、舒适的交互方式,一直是行业的共同追求;什么样的交互方式是更合适的,也是行业永恒探讨的命题。
在之前的橙皮书中,我们探讨了语音交互在过去一年里的成长和未来的趋势。语音交互趋于务实的背后,是座舱系统逐渐去适应人、迎合人自然交互习惯的过程。不只是语音交互,以语音交互为基础的多模态交互能力,监测座舱内实时信息并给出应对的 DMS/OMS 功能,未来座舱与驾驶之间的融合联动,以及它们背后赋能的 AI 技术等等,这些能力各自提升的同时,也共同构成了座舱系统整体从被动交互向主动交互的转型。
在转向主动交互过程中,用户可以以更自然的方式与系统沟通,甚至更模糊的指令和意图能够被系统理解,系统也尝试根据用户和座舱内的状态提供更细致化的服务。
为了更好地印证我们的观察,这次我们与地平线智能交互团队聊了聊,来共同探讨一下座舱交互如何提供更细颗粒度的主动服务?
DMS/OMS:
「麻烦制造机」的进化之路
如果说座舱内总有一些智能化配置被视作「炫技」的话,那 DMS/OMS 功能绝对是实用性功能的代表。
利用座舱内的摄像头,通过利用座舱内的摄像头追踪驾驶员瞥向指定屏幕的视线,随即自动亮屏或唤醒车载助手;通过 Face ID 实现账号登陆,驾驶员进入座舱后自动调节座椅位置角度;通过对驾驶员面部微表情和眼动的监测,在驾驶员分心或出现疲劳时,适时发出预警与提醒;利用摄像头识别抽烟、睡觉等情况,实现智能调解车窗状态,空气内外循环、降低音量等场景化服务。
高效、安全、舒适,人们对于座舱内的三大基本需求,DMS/OMS 功能可以说都涵盖了。
前不久,高工智能汽车监测数据显示,2022 年前 11 个月乘用车 DMS 标配搭载 99.95 万辆,同比增长 111.8%;在 DMS 感知方案供应商方面,地平线(芯片+感知)、商汤、虹软排名市场份额前三位。有机构预测,到 2026 年 DMS 的渗透率将达到 35%,DMS/OMS 上车的趋势不可挡。
(图片来源:高工智能汽车)
尽管如此,在一年前的《2021 年智能座舱橙皮书》中,我们对于当时的 DMS/OMS 功能给出了一个并不算积极的评价:「麻烦制造机」。
这是因为在此前的座舱评测中,由于 DMS/OMS 在疲劳监测、分心预警、烟雾预警等场景下的误触发、误提醒,的确带来麻烦,让彼时的我们实在无法给出更高的评价。去年年中,小眼睛被系统判定为「开车睡觉」的乌龙事件,也让更多人意识到 DMS/OMS 功能面临的问题:人物生理特征的差异、动作习惯的差异,甚至需求的差异,决定了 DMS/OMS 在实际应用层面需要解决的问题很多。
如何提供更精准、恰当的服务,避免误触发、误提醒造成困扰,是 DMS/OMS 这个「麻烦制造机」在自我救赎的道路上提升的关键。
一方面,需要梳理出常见功能场景,通过对场景的判断来过滤可能出现的误报。
另一方面,需要对技术标准设置合理、科学的指标。一个人是否处于疲劳状态?处于怎样的疲劳状态?这并不是简单的「Yes or No」的问题,因此,单一、机械化地设定触发阈值,难免出现误触发、误提醒的情况。如何将触发精细化、精准化,是提升 DMS/OMS 性能的关键。
过去一年里,不少新车型搭载了 DMS/OMS 功能。以奇瑞瑞虎 8 PRO 为例,搭载了 AI 情感超级交互系统,根据人脸识别、视线追踪第一时间察觉驾驶员的肢体语言,判断疲劳等级和分神状态,并
智能推送聊天、音乐音量、空调温度等场景模式,帮助驾驶员缓解疲劳。
为了探究如何精准把控触发阈值,我们专门采访到了为奇瑞瑞虎 8 PRO 相关产品和研发人员,以及这套 DMS 系统供应商地平线的研发人员,为了让触发标准更精确、更合理,避免误触发,奇瑞瑞虎 8 PRO 以及地平线的 DMS 团队将驾驶员的状态监测进行了精细的划分:
以分心场景为例,为了将触发阈值更精确,分心提醒的视线落点被细化成了十四个区域;这十四个区域又根据对驾驶行为的影响被划分成了危险区、警告区等不同等级;视线停留在不同等级的区域内不同的时间,驾驶分心带来的危险性自然不同。
同时,驾驶人的分心、疲劳情况又进一步被划分为轻度、中度、重度……
不同等级下生理对于外界刺激的反应、不同时间间隔预警的效果等等,这些差异都能让 DMS/OMS 提供更精准、细致化的服务。
未来,随着座舱内传感器数量和性能的提升,以及座舱集成度的提升,座舱 DMS/OMS 功能需要的不止是摄像头、毫米波雷达等单一传感器提供的指标,更是多维度的感知信息,通过多维度信息融合来提供更可靠的决策输入;而 DMS/OMS 本身也成为座舱内多模态交互的一部分。
对于下一阶段的 DMS/OMS 供应商来说,需要提供的也不止是单一的软件算法能力,更是软硬件整合能力,以及背后芯片、AI 感知能力。
当然,DMS/OMS 本身存在的意义,是为用户带来安全、高效、便捷的服务,在能力提升的同时,区分出哪些是用户真正需要的服务,哪些是不必要的打扰;以及避免座舱内摄像头给用户造成的隐私恐惧,依然是这项功能进化之路上需要解决的问题。
多模态交互:
多维度信息的融合,让交互更类人
看着窗户时说「大一点」,车窗能自动打开;眼睛盯着空调时说同样的话,指令就变成了空调开大一点;视线锁定窗外环境,然后说「我想知道这栋楼的用途」,智能助手会自动帮你查询并告知你结果…..
这是以往我们在概念车中看到的场景,利用座舱内语音、视觉、手势识别等多种交互方式融合而成的多模态交互技术,满足了大家对于未来科技感的想象。
在过去几年的智能座舱中,我们已经能看到除了物理按键、旋钮、触控等传统交互形式外,语音交互、手势交互、面部识别等多种交互方式并存的情况,并且已经成为行业主流。
不过相比于以往多种交互方式「单打独斗」、各自为战的情况,多模态交互的本质,在于将不同交互形式间联动起来,通过不同交互形式下多维度信息对于感知能力的互补,让系统能够以更接近自然人的状态去理解、执行人的意图,甚至能够猜测出人未说出口的意图。
在过去一年中,我们已经能看到这种多模态交互尝试的初级形态。
比如在理想 L9 中,采用了 3D Tof + 语音交互融合的方式,手指向遮阳帘,同时说「打开这个」,遮阳帘可以自动打开。对于一个按键就能打开遮阳帘的操作,这种场景似乎并没有太多的吸引力,但这背后是语音与手势交互融合的能力,这种能力为座舱交互创造了更多的可能性,比如在提升交互准确率方面。
在极狐阿尔法 S HI 版的座舱内,语音识别与唇动识别结合到一起,通过视觉+语音的多模态融合,能够在嘈杂、密集的座舱环境下提升语音识别的准确率;采用类似的视觉+语音融合方案来提升识别准确率的,还有基于地平线征程 2、征程 3 打造的座舱方案 Horizon Halo,通过视觉、语音等多种传感器数据融合,来实现主动交互。
以 2022 年在座舱中出现的全时免唤醒功能为例,这个功能下语音助手会持续收音,任何时候都不需要通过唤醒词作为对话的起点,让语音交互更接近人与人之间的自然对话。
为了达到这个效果,对于语音交互技术架构和语音基础能力的优化是必不可少的;而为了进一步降低误唤醒率,提高识别率,引入视觉感知,将语音与视觉感知、手势识别融合,能为系统提供更多的信息冗余。
采用了 Halo 3.0 方案的奇瑞瑞虎 8 PRO 作为首款全场景多模交互方案的车型,在全时免唤醒功能上就采用了多模态交互技术。
根据这套方案的供应商地平线智能交互研发人员向 GeekCar 透露,为了实现多模态语音交互的全时免唤醒能力,采用了传统语音识别链路优化+视觉处理技术前融合的方式,将座舱内视频数据和语音数据进行前融合,以视觉作为重要的依赖项来重构语音技术。要实现这个效果,需要将语音数据与视觉数据在时间序列同步,处理 10 亿级别的图片数量,这个数据量是面部识别的 100 倍。
要处理如此海量的数据,需要提供足够的算力、
尽可能降低延时的边缘计算能力、对模型不断优化的AI技术。这就需要,类似地平线这样的供应商,提供由芯片+算法+工具链构成的一整套解决方案,以及对软硬件联合调优的能力。
相应地,融合后得到的效果更加精准,在高噪声场景下,多模态语音交互的错误率相对降低了 50%,来保证在极限工况下从不可用到可用的提升;特别是针对意图模糊的指令时,给出的反馈更接近自然人的反应。
当然,与 DMS/OMS 类似,多模态交互存在对意义并不是为了营造科幻感。我们常常在一些智能座舱中看到「为了设计」而出现的设计,在多模态交互的尝试中也不例外。把一键操作、一句话操作拆分成需要调动了用户的语音+手势+肢体动作+表情的多模态交互,并没有为用户的任务量做减法,反而做了加法,最终只能沦为好奇心驱使下的昙花一现,甚至为多模态交互这项技术本身在用户群体带来负面影响。
相应地,只有能够被用户真正需要、能够满足刚需的多模态交互,才会被用户尝试、接受、信任,最终融入智能座舱整体。
总结:座舱交互的未来
未来座舱内的交互会是什么样子?一千人心中可能有一千个答案。不过人与车、环境的关系不变,座舱交互系统减轻人类在驾驶时的信息处理量、逐渐适应人的趋势不变。毕竟「懒」是推动科技进步的第一原动力。
如今我们已经能看到座舱交互能更好地理解用户发出的指令,借助多维感知系统感知到的座舱内环境、状态,综合给出判断;未来,在此基础上,还会加上座舱外的环境,整车行驶状态,甚至系统对于过往用户状态和所发生行为的「记忆」,根据更多维度信息的融合,对用户的意图做出判断,甚至给出主动无感的服务。
当然这背后需要一系列技能来支撑:更强大的 AI 算力、更高性能的感知硬件、深度神经网络对于算法的优化、模型的迭代优化来处理边界问题,硬件规格的提升,甚至车内车外信息的联动,能够让多模态交互融合更多维度的感知信息……
它们共同让座舱交互逐渐走向真实的类人智能。
本文作者:米其林
不要忘记关注「极客汽车」的微信视频号哟!