语音控制是增强现实(AR)眼镜的一项重要功能,可让用户免提与数字世界进行交互。然而,所使用的音频技术的能力对其可用性至关重要,因此也是广泛采用的关键。

音频前端在 AR 眼镜中的关键作用

语音控制是增强现实(AR)眼镜的一项重要功能,可让用户免提与数字世界进行交互。然而,所使用的音频技术的能力对其可用性至关重要,因此也是广泛采用的关键。

丹尼尔-谢弗
丹尼尔-谢弗
北美业务发展副总裁

目录

语音控制是 AR 眼镜的一项重要功能,可让用户免提与数字世界进行交互。 

语音控制的 AR 眼镜包括Magic Leap 2(用于应急响应培训和企业实时混合现实协作平台)和Vuzix(用于医疗、制造和仓储行业)。虽然苹果公司的 AR 眼镜还要等几年才能上市,但它已经发布了混合现实头戴式设备Vision Pro,该设备使用眼睛、手和语音进行控制。

虽然这些公司已经在其 AR 眼镜中集成了语音识别功能,但所使用的音频技术能力对于眼镜的可用性以及广泛采用至关重要。 

智能 AR 眼镜的音频前端可捕捉和处理用户的语音。它能过滤背景噪音,并将信号传输到语音识别或通信模块。通过精确的语音控制,用户可以免提操作眼镜、拨打电话和进行视频录制。

波束成形--在 AR 眼镜中使用语音时的限制因素

迄今为止,AR 眼镜和其他语音用户界面利用基于波束成形的技术来减少环境噪声并隔离说话者的声音。波束成形器根据信号到达麦克风阵列的方向来分离信号。高通、恩智浦、联发科和 DSP 等公司都提供波束成形解决方案。

然而,波束成形存在一些固有的局限性。首先,麦克风之间的距离越近(阵列孔径),性能就越低,而在 AR 眼镜中,阵列孔径以镜框的宽度或长度为界。根据经验,波束成形可为阵列中的 N 个麦克风提供 ~N^2dB 的降噪效果,而不会增加失真。 

波束成形技术的另一个局限是无法有效处理回声或噪音与所需语音来自同一方向的情况。此外,一些解决方案(如高通公司的 Fluence)还受限于可支持的麦克风数量,就它们而言,最多只能支持三个麦克风。

用于 AR 眼镜的 Kardome 空间听力
软件

考虑到这些挑战,Kardome 利用基于三维神经网络的模型开发了一种独特的点形成技术,利用混响来分离不同位置的声音(语音)。

Kardome 的 Spatial Hearing 软件是基于我们的专利 spotformer 的整体语音堆栈。与基于波束成形的解决方案相比,它能为 AR 眼镜和其他设备提供更出色的降噪功能,提供声源分离和音频缩放功能,提高语音识别的准确性,促进唤醒词功能,并实现高度准确的生物识别,所有这些都直接在眼镜的处理器上完成,无需连接。这些功能释放了 AR 眼镜在增强语音用户体验和功能方面的潜力。

语音人工智能--从波束成形中突围

Kardome 基于人工智能的方法提高了在不断变化、嘈杂和混响环境中的语音识别性能。Kardome 的语音人工智能通过不断分析和适应所有环境噪音源的声学特征来实现这一目标,即所谓的 "定点成形"。 

我们可以将 Spotforming 视为在所需音源周围创建一个虚拟气泡。Kardome 的 Spatial Hearing 软件可以捕捉来自直接和多路径的声音,从而将音频聚焦到所需声源在空间中的位置。

因此,输出信噪比(SNR)显著提高。Kardome 可显著提高性能,并将干扰信号衰减高达 ~35 𝑑𝐵,而不会增加明显的失真。

Kardome 的人工智能点阵技术还能大幅提高信噪比小于 10 𝑑𝐵的语音识别性能。值得一提的是,即使在 SNR ≅-15 𝑑𝐵这一极具挑战性的场景中,在嘈杂环境中应用 Kardome 也能实现无功能 ASR 与无缝用户体验之间的差别。

用于 AR 眼镜的 Kardome 语音人工智能
的三大优势 

语音通信

AR 眼镜必须同时支持几种语音用例:免提电话可用于拨打电话,与语音识别引擎对话可与 AR 眼镜的界面进行交互,录制视频时可排除无关的声音和噪音。  

根据经验法则,人耳更喜欢较好的降噪效果,即使要付出更明显的语音失真代价。相比之下,自动语音识别系统通常更喜欢无失真语音,即使仍有一些背景噪音。 

要对每种音频进行优化,需要在音频前端进行不同的系统设置,并能同时运行,尤其是在设备始终在监听的情况下。

Kardome 可将干扰信号降低到 35 𝑑𝐵,从而解决不必要的噪音和声音干扰设备用户界面的问题。Kardome 的核心技术包括语音分离、回声消除和降噪,可在任何具有挑战性的声学环境中通过 AR 眼镜实现无失真语音识别。

安全

任何使用语音技术的设备都必须防止意外访问其界面。要做到这一点,有两种互补的方法。第一种是衰减外部语音,这样不使用 AR 眼镜的人就不能成为有效的音源。第二种是使用语音生物识别技术来准确识别授权用户。

然而,在第一种情况下,由于外部声音可能来自任何方向,因此很难通过波束成形来减少外部噪音。在第二种情况下,语音生物识别技术必须在几秒钟内准确识别说话者。

即使在嘈杂的环境中,Kardome 的技术也能提供高度准确的语音生物识别。最近的一项研究表明,Kardome 的空间声纹生物识别技术在任何声学环境下,对于短至 1 秒钟的语音,准确率都能达到 95%。

录制视频

AR 眼镜的另一个用途是录制和分享用户看到的视频,用于远程协助和培训等。当用户专注于某一特定区域时,例如试图诊断问题时,让音频聚焦于用户所看的地方,无论是机器还是人的说话声,都会很有帮助。这种功能被称为音频缩放,需要音频前端在眼镜的焦点和来自眼镜的噪音之间进行同步。 

音频变焦在音源清晰的情况下效果最佳,例如单个扬声器。多人交谈会使分离单个声音变得困难。这种情况会导致语音处理泄漏。

Kardome 的 Audio Zoom 采用专利的空间听力技术,可锁定所需的发言者的声音,消除背景噪音和其他人的谈话,为视频录制提供清晰的伴音。

总结

总之,智能 AR 眼镜中的音频前端在确保语音用户获得积极、高效的体验方面发挥着至关重要的作用。音频前端可以无差错地处理语音、衰减不重要的声音并专注于重要的声音,从而使智能 AR 眼镜更具功能性、安全性和用户友好性。

Kardome 的空间听觉技术克服了制造商面临的技术挑战,为 AR 眼镜提供了更好的音频体验,并为用户界面、录音、安全和语音通信带来了诸多好处。

随着 AR 眼镜的使用案例越来越多,对强大音频前端的需求也将随之增加。Kardome 的空间听觉技术能够很好地满足这一需求。


与专家对话,了解有关 Kardome AR 眼镜语音人工智能的更多信息