当前语音识别技术的问题
技术

当前语音识别技术的问题

为了赢得信任并继续加速消费者和企业对语音技术的采用,ASR系统工程师和语音设备制造商必须尽可能提供绝对最好的ASR性能。

Dani Cherkassky博士
Dani Cherkassky博士
首席执行官,联合创始人

目录

自动语音识别(ASR)引擎已经有三十多年的历史了。该技术迅速从笨重、昂贵、缓慢的听写应用变成了我们的汽车、家庭、教室和工作中人工智能驱动的语音识别设备。

消费者和企业采用语音识别的爆炸性增长发生在2011年苹果推出支持Siri的iPhone 4S时。当时,全球语音和语音技术市场估计为6亿美元。2021年,该市场达到83亿美元,预测人员预计 到2027年将达到惊人的 222亿美元。

尽管预测语音和语音技术行业会有三倍的增长,但语音识别性能差的问题--系统无法在嘈杂的环境中、在干扰信号中执行,以及无法准确识别谁在说话--可能会减缓这种指数式增长。

消费者对ASR技术的挫败感

在2020年的一项全球调查中, 73%的用户说准确性是抑制语音技术应用的首要因素。

口音和方言相关问题是用户面临的第二个最令人沮丧的问题。终端用户的期望以及使用和整合的复杂性也是采用语音技术的主要障碍。 

普华永道的一项研究中的以下引文体现了目前对语音识别设备的挫败感和一个重要障碍:信任。

"助理有一半时间不能回答我的问题,但我应该相信它能帮助我处理涉及金钱的事情?"

-女性,26岁,普华永道

Voicebot.ai最近的一项研究显示,在过去的两年里,智能音箱的使用急剧下降。相反,消费者更多地使用他们的智能手机虚拟助手。 

这是否可以部分归因于客户对智能音箱的语音识别功能感到失望?智能手机会更容易理解用户,这可能是由于用户把手机拿得更近或使用耳塞,使用户的声音更接近语音识别系统。

糟糕的语音识别性能让消费者感到沮丧。由于背景噪音、多人交谈、信号中断和距离等原因,ASR系统不能准确地处理和理解人类语音。

理想的ASR系统在安静或混乱的环境中提供准确的语音识别。此外,完美的语音识别设备将知道谁在说话以及他们的位置,以便对语音命令提供准确和个性化的回应。

为了赢得信任并继续加速消费者和企业对语音技术的采用,ASR系统工程师和语音设备制造商必须尽可能提供绝对最好的ASR性能。

应对ASR的技术挑战

语音设备有可能彻底改变我们生活的许多方面,从家庭自动化到辅助性和认知性援助。

许多企业部署了语音界面,以改善客户体验并提高品牌参与度。随着语音识别和语音合成变得更加准确和容易使用,语音界面也可能越来越多地被用于客户服务和支持或其他目的,如简化卫生和金融部门。 

在IT行业,语音并不新鲜。但是,支持语音的智能手机的日益普及和可用性,加上对更自然的人机互动的需求不断增长,使其成为许多软件公司的首要任务。

多年来,与语音识别相关的技术挑战已经众所周知,并由许多公司加以解决。只要我们解决这些挑战,语音设备的市场将继续增长。

研究显示Kardome在具有挑战性的声音环境中提供了95%的语音识别准确率

随之而来的研究表明,Kardome的语音用户界面技术在最嘈杂的声音环境中胜过了传统的语音识别算法。

该研究通过研究ASR在各种环境中的表现,从最安静到最嘈杂的环境,来衡量醒目词错误拒绝率(FRR)和反应准确率(RAR)。 

我们使用放置在典型的嘈杂客厅环境中的智能音箱测试了FRR和RAR,背景噪音包括风扇、空调或儿童玩耍。此外,我们还将智能音箱放在一个响亮的智能电视旁边进行了测试。

下载该研究报告 

喜欢这个读物吗?

了解最新的视频业务新闻、战略和见解,并直接发送到您的收件箱中!

今天就开始吧

给你的用户
一个声音

Kardome的VUI技术可以与任何支持语音的平台或智能设备整合。

多扬声器隔离

消除背景噪音

准确的语音识别