Kardome通过基于位置的语音聚类为语音助手解锁新机会
Kardome基于位置的语音聚类技术的视频演示,该技术在汽车中使用亚马逊的Alexa为几位乘客提供个性化的结果。
使用Kardome个性化语音助手体验的视频演示
在语音应用中实施深度学习和人工智能(AI)技术的辉煌成就,推动了语音用户界面(VUI)和语音助手在我们日常生活中的渗透。
虚拟助理为释放新型体验创造了机会。从厨房到汽车,再到商场和机场,支持语音的设备将进入每一个可以想象的环境。
然而,许多这些环境的声学复杂性造成了对改善自动语音识别(ASR)性能的需求。
目前,在有听觉竞争的情况下,ASRs的表现很差,因为说话者要被听到和理解。
解决听觉竞争挑战的一个广泛的方法是波束成形,它将麦克风引向语音源的特定方向。
不幸的是,在室内或任何封闭的环境中,声音不仅通过视线传播,而且还击中环境中的每一个反射面,并将声音反弹到设备上。
这种现象通常被称为混响或多径。
基于波束成形的语音源分离在混响环境中表现不佳,如汽车、办公室、客厅或其他室内或封闭环境。
Kardome的技术通过将劣势转化为优势来解决这个问题。也就是说,Kardome利用多路径模式来区分语音源。我们通过聆听单一方向和所有方向的立体声来实现这一方法。
下面的视频比较了亚马逊的虚拟助手Alexa在汽车上的表现和Kardome基于位置的语音聚类。我们在ARM Cortex A7上实现了该系统,它使用了大约20%的可用CPU功率。
我们展示了基于位置的语音分离方法如何通过让Alexa利用个人账户、偏好和历史记录对每个人做出单独的反应,为车内的多名乘客提供个性化的用户体验。
我们的演示基于Kardome的定位、源分离和降噪算法。
两位乘客向Alexa提出不同的问题。Kardome将每个请求归于特定的用户,而Alexa则做出相应的反应。
对于这个具体的演示,我们将Alexa配置为用西班牙语回应后排乘客的询问,而司机的询问则让Alexa用英语回应。它用语言个性化作为Kardome独特应用的一个例子。
观看视频。
了解更多关于Kardome的VUI技术。预约演示