Kardome Mobility 利用人工智能技术帮助汽车原始设备制造商打造新一代语音界面
语音识别准确性不足是阻碍语音助手适应性的主要障碍。此外,要提供最佳的语音用户体验,还必须应对语言覆盖范围、用户期望、安全性、成本以及部署和集成的复杂性等挑战。Kardome 为移动领域开发了一种软件解决方案,可显著改善现有的车载语音识别系统,以应对这些多重挑战。

自然语言处理和机器学习的整合带来了更无缝、更直观的车载语音交互体验,使语音助手成为现代汽车技术的重要组成部分。
然而,尽管语音助手有很多优点,但仍有一些挑战需要解决。语音识别准确性不足是阻碍语音助手适应性的主要障碍,这在嘈杂拥挤的汽车环境中尤其具有挑战性。此外,要提供最佳的语音用户体验,还必须应对语言覆盖范围、用户期望、安全性、成本以及部署和集成的复杂性等挑战。
在典型的汽车环境中,这些障碍变得更加突出,因为汽车通常是一个狭小、嘈杂的空间,常常挤满了人。必须增强车载语音助手的 "听力能力",以确保足够的语音识别准确性。
由于缺乏能为车载语音助手提供人类听力水平的技术解决方案,一些汽车制造商在每个汽车座椅附近部署了麦克风。这种麦克风网络的材料清单(BOM)、安装和维护成本都很昂贵。因此,在大多数车辆中,只有驾驶员可以使用头顶车厢中的单个麦克风阵列访问语音助手。
Kardome 为移动领域开发了一种软件解决方案,可大幅改进现有的车载语音识别系统,以应对这些多重挑战。
Kardome Mobility 是唯一一款通过头顶行李舱中的单个麦克风阵列捕捉三排座椅上最多六个扬声器的软件解决方案。 它能隔离所需的语音,减少背景噪音和回声,并能通过语音生物识别技术识别说话的人。
研究车载语音技术有效采集语音所面临的挑战
车辆声学复杂性
汽车通常是一个喧闹的环境。在低速和光滑的路面上,发动机的声音是噪声的主要来源,而在高速行驶时,风噪声则变得更加突出。在城市中行驶时,最主要的噪音来自路面噪音,即轮胎与路面之间的摩擦声。虽然电动汽车的发动机噪音较小,但路噪和风噪仍然对语音识别系统构成巨大挑战。
此外,随着共享出行和自动驾驶成为趋势,汽车往往不止由一个人驾驶。这意味着对话噪音、扬声器之间的干扰以及扬声器设备产生的噪音也是问题所在。
制造商必须解决背景噪音和车内多人交谈的问题,以提供最佳的语音用户体验。Voice.bot发布的《车载语音助手消费者采用报告》显示,60%的 驾驶员表示语音助手的质量是他们决策过程中的一个因素,13%的驾驶员认为这是一个重要因素。
此外,不仅仅是驾驶员和前排乘客希望获得语音辅助,车内所有乘客都希望获得完美的语音访问。随着自动驾驶汽车使用的增加,汽车驾驶员和乘客对准确语音交互的需求将变得更加重要。
复杂的整合与成本
依靠波束成形技术,原始设备制造商必须在车顶衬垫上部署麦克风阵列,每个乘客一个,以实现可靠的语音用户界面。每个麦克风阵列都采用波束成形算法,将声音捕捉引向目标扬声器 ,同时试图减弱驾驶噪音和干扰扬声器。
部署多个麦克风以提高可靠性的成本很高。由于麦克风网络需要根据每辆车的内饰进行定制,因此其 BOM 安装和维护费用昂贵,设计成本也很高。
此外,部署多个麦克风阵列会造成设计上的限制,影响汽车的美观。例如,带有玻璃顶棚的汽车无法在座椅上方安装麦克风。
为什么汽车制造商要避免只在头顶车厢中使用单个麦克风阵列,而是采用波束成形技术将语音捕捉导向车内所有座位?答案很简单:行不通。
波束成形涉及使用一组称为 "到达方向 "的一维参数对声景进行建模。然而,在汽车等任何封闭环境中,声波都会通过直接路径传播,并在车窗和车板上反弹,最终从数百个不同方向到达麦克风阵列。
波束成形只能聚焦于单一路径,导致对实际声音环境的呈现不正确。因此,如果说话者距离麦克风超过 50 厘米,波束成形技术就无法有效捕捉语音。
卡尔多姆的创新
Kardome 的创新技术包括点形成技术。这种专有的多维声景分析方法通过提取环境中每个声源与麦克风阵列之间的相对位置,对空间回声等空间线索进行解码。
Spot-forming 是一种能够推断声景中每个声源产生的整个反射模式的技术。它不需要声源(人的说话声)采取任何行动。声源和设备之间的环境几何形状和相对位置决定了反射模式。因此,点阵技术是一种基于位置的技术,可以根据扬声器在空间中的位置对其进行分类。
Spot-forming 克服了波束成形固有的建模缺陷,并能准确解码封闭环境中的多维声景。Kardome 的解决方案在汽车中具有实际优势,因为头顶车厢中的单个麦克风阵列可以对车内的每个乘员进行声学放大。

卡德梅移动电话
基于点形成框架,Kardome 为汽车行业开发了一套完整的边缘音频堆栈,名为 Kardome Mobility。

Kardome Mobility 包括以下功能:
- 基于 Spot-forming 的音频前端 (AFE):Spot-forming 的 3D 模型利用混响来分离来自不同位置的声音(语音)。AFE 包括多通道声学回声消除、降噪、声源(扬声器)分离以及识别车内语音来源的能力。
- 唤醒词: 专有的边缘识别模式,只有在听到特定触发词(如 "Alexa "或 "Hey Siri")时才会开始聆听。
- 语音生物识别技术:基于个人声音识别/认证用户的专有边缘模型。
Kardome Mobility 软件包是一个使用定点成形技术的综合语音堆栈。专有的语音生物识别和唤醒词人工智能模型在其基础上使用,这些模型的设计和训练都是为了在点阵框架下工作。
即使在最具挑战性的声音环境中,Kardome 的空间听力软件也能让机器准确识别说话者的声音、位置和语音内容。通过将语音人工智能模块集成到 AFE 培训过程中,与独立开发 AFE 和语音人工智能的零散系统相比,Kardome 的方法具有更出色的性能。
Kardome Mobility 支持以下车载使用案例:
- 交流
- 免提电话
- 车载通信,仅限播报模式
- 语音人工智能(AI)
- 唤醒单词识别
- 语音识别
- 自动语音识别:通过与第三方 ASR 引擎的接口。
AFE 模块在两种情况下工作:为语音人工智能模块和通信模块(如免提电话 (HFT))提供输入。在语音人工智能中,AFE 分离目标扬声器以提高语音识别率,而第二种机制则优化输出端的语音质量。系统会自动切换这些参数,以最大限度地提高两种情况下的性能。
下图是使用由八个 MEMS 麦克风组成的麦克风阵列的 AFE 模块框图。这样的系统最多可通过头顶行李舱中的单个麦克风阵列为三排座椅提供六个声音捕捉点。

我们在本研究中总结了 AFE 在语音 AI 应用和 HFT 方面的性能: https://bit.ly/speechrecognitionstudy
与硬件无缝集成
Kardome Mobility 是一个集成到信息娱乐系统固件中的软件解决方案。
原始设备制造商可以在主应用处理器(AP)上将软件作为 Linux 库或 Android 应用程序来实施。此外,Kardome Mobility 还可以使用集成到 AP 芯片中的专用 DSP(如高通的 Hexagon DSP 和三星的 HiFi DSP)或外部专用芯片来实现。应用时,Kardome Mobility 软件必须能够访问音频输出参考信号,以实施声学回声消除器。
Kardome Mobility 可与任何由四个或更多麦克风组成的麦克风阵列配合使用。使用的传声器元件通常是简单的 MEMS 传声器。Kardome Mobility 的典型麦克风阵列由 8 个 MEMS 麦克风组成,总尺寸为 20 x 50 x 5 毫米。此外,如前所述,原始设备制造商通常喜欢将麦克风阵列安装在头顶车厢内,并使用A2B 音频总线将其与中央信息娱乐系统连接起来。
总结:Kardome Mobility 的车载语音技术革命
Kardome Mobility 引领着车载语音技术的变革。它的点阵式语音人工智能技术消除了传统语音系统的局限性,为每位乘客提供个性化的语音界面。Kardome 的创新方法确保了语音识别的精确性和准确性,为实现真正互联的个性化驾驶体验铺平了道路。
点击此处了解有关 Kardome Mobility 的更多信息: https://bit.ly/Kardome-Mobility