2020年语音识别技术的挑战,未来的可能性

2020年语音识别技术的挑战,未来的可能性

2020年,语音识别行业面临许多挑战。我们期待着2021年及以后,所有行业的VUI都能得到改善。

劳拉-塔特
劳拉-塔特
CMO
技术

目录

至少可以说,对我们全球所有的人来说,这是具有挑战性的一年。COVID-19颠覆了我们的生活,从根本上改变了我们的工作、沟通和社交的方式。这些变化引起了对语音技术服务的急剧需求,这些服务可以在不太理想的环境中提供清晰、可理解的语音识别。当我们继续与这一流行病作斗争时,我们也在努力实现最佳的语音技术以满足工作、教育和社会需求。

本文探讨了对语音识别设备需求的增加如何突出了已经存在的语音技术挑战,以及克服这些问题所需的条件。我们还展望了未来,探讨了2021年及以后语音技术进步的可能性。

有背景噪音的音频/视频会议

大流行病和随之而来的呆在家里的命令加剧了消费者使用语音用户界面(VUI)设备所面临的现有困难。 

父母在家里用Zoom电话工作,而他们的孩子试图使用单独的音频会议设备学习,所有的人都试图说话并被理解,这可能被许多人称为2020年的头号语音技术挑战。 

无论是来自同一个家庭还是周围的环境,多个扬声器和噪音的背景喧嚣阻碍了视频或音频会议期间的沟通能力,或者在汽车上、手机上或与数字语音助理交谈时。

准确的语音识别和语音增强技术对于提供可靠的语音用户交互体验是必要的。那些制造支持语音的设备并整合补充其现有技术的VUI技术的公司将在所有采用语音技术的行业获得优势。

语音识别和语音助理设备

尽管在大流行病肆虐之后,语音助手的采用率激增,但用户的挫败感一直是一个问题,尤其是智能手机上的数字助手。在普华永道进行的一项研究中62%的受访者表示对缺乏理解、可靠性和准确性感到沮丧。 

然而,儿童在使用语音和声音识别技术时可能会遇到最大的困难,特别是在家庭学习环境中。

语音识别设备在设计时没有考虑到儿童。儿童的声音、语言和 经常不稳定的行为比成人复杂得多。语音识别设备需要考虑到儿童的语言模式、语言结构和声调(随着年龄的增长会有很大的变化)等变量,更不用说句法、语法和发音等问题。虽然成人可以通过更清楚地说话、改变语气和措辞来修改请求,但儿童,尤其是年幼的儿童,更经常收到数字语音助理的错误信息或不正确的回应。 

将这些挑战与在家上学时的背景噪音问题结合起来,孩子们会放弃用语音设备进行交流的尝试。更糟糕的是,如果孩子在正确的情况下被一台不理解预期信息的机器告知他们是错误的,就会损害信心。反之,也会有同样的危害。当孩子被告知错误的答案是正确的时候,给出一个错误的肯定,可能会有社会情感上的伤害。

语音用户界面设计者所面临的挑战是开发语音识别技术,以学习和适应儿童的说话方式。

缺乏信任和隐私问题

这场大流行造成了2020年网上购物的激增,而且这种增长预计将持续到未来很长一段时间。自3月以来,零售商的电子商务销售额增加了30%至40%。然而,缺乏信任是网上购物进一步增长的一个重要抑制因素。根据普华永道的数据,四分之一的消费者表示他们现在或将来都不会考虑使用语音助手来购物。而46%的受访者表示,他们不相信语音助手能正确处理他们的订单。对使用语音助手进行在线支付的不信任也使人们不敢使用这些设备。

隐私问题也是采用语音设备的一个决定性因素。虽然一些教师重视在课堂上使用VUI设备的好处,但许多学区由于担心遵守《儿童在线隐私保护法》而拒绝实施语音技术。 

语音技术在其他领域也面临着隐私问题,例如在银行和金融领域保持数据安全,或者仅仅是不让某些信息被不应该听到的人听到。 

语音技术公司需要解决这些问题,以便在这些市场上进一步发展。提供精确的语音采集和缓和语音识别系统处理的信息流的VUI设计可以提供帮助。

无触摸屏幕

冠状病毒大大影响了我们对日常生活中接触到的东西的认识,包括屏幕。从杂货店到银行的自动取款机,从机场的信息亭到电梯的按钮,卫生问题走到了最前面。 

虽然其中一些领域实施了语音控制技术,但许多领域还需要与时俱进。而那些已经采用语音识别和控制的,在嘈杂的环境中可能能力有限。 

"未来是清晰而简单的。你身边不再有按钮。遥控器、键盘、电灯开关、触摸屏,都将成为历史。

VUI已经成为语音转文字技术(那些负责对发音指令进行解码的组件)可靠性差的受害者。能够减少背景噪音并同时提供清晰语音识别的语音增强技术对于所有向公众提供交互式屏幕的行业都是必要的。 

语音识别技术的未来

虽然语音增强技术对于使用Zoom等平台、向数字助理听写或使用在线语音转录服务至关重要,特别是在这次大流行期间,但在许多其他领域,语音识别已经有了巨大的改进。

以人为本的方法

可能解决语音用户界面和语音识别能力方面的许多挑战的是将技术设计得更加以人为本。

在最高层面上,界面应该变得不那么严格或不那么 "机器驱动",而是以人为本,这样人类就可以与机器自然地互动,而不需要使用严格的毫不动摇的语言规律。

这种以人为本的方法可以解决儿童与语音识别设备互动的问题。此外,谷歌和亚马逊等公司正在开发更深层次的对话技巧和技术,以辨别人们声音中的情绪。这种类型的技术也可以解决语音识别中的意外变量问题。

没有更多的按钮

"未来是清晰而简单的,"Kardome的联合创始人兼研发总监Alon Slapak说。 "你身边不再有按钮。遥控器、键盘、电灯开关、触摸屏,都将成为历史。看看你的智能手机,回忆一下你在十年前使用的按钮和键盘。你的触摸将被赐予你的亲人"。

消除比现代MEMS麦克风更昂贵的开关、杆子、按钮和触摸屏,无疑是语音技术的一个具有成本效益的进步,可以对许多私人和公共商业部门产生有利影响。 

机器学习和人工智能

机器学习、人工智能(AI)以及为AI提供的数据是推动语音识别改进的重要因素。 

机器学习是语音技术的关键,不断增长的数据提供了人工智能,使其以及采用人工智能的机器更加智能。语音方面的人工智能是为了从经验中学习,识别趋势,并提供答案。 

在最近的一个 语音讲座节目中,Tada实验室的首席执行官Leslie Pound预测,"与真实查询数据相连的语音 "是语音技术的未来。 

"将看到与数据的更多联系,"庞德说。"数据每年都在翻倍增长。数据来自我们的灯、我们的电话、我们的汽车。我们有这整个数据和数据库的基础设施,我们将看到人们越来越多地与该基础设施整合。"

个性化的体验,包括演讲者验证

我们还将看到与语音识别设备的更加个性化的互动。你已经可以定制数字语音助手,如Google Home,只对你的声音做出反应,并读出预先设定的项目清单,如新闻、天气、你的日程安排,以及根据设定的语音激活而精心挑选的播客。    

亚马逊的Alexa可以为家庭中的每个人提供个性化的回答。Alexa的语音识别能力随着时间的推移变得更加智能,使个性化回答的精确性更加准确。

越来越多的语音识别技能--在短短三年内从1万个跃升到10万个 以上--将继续扩大个性化的可能性。 

积极主动的语音助理

语音识别和个性化的下一个时代是语音助手预测你可能想要什么的能力。在Alexa首席科学家Rohit Prasad的Alexa对话演示中,Alexa帮助计划一个晚上的活动,而不是等待晚上每个部分的新请求。用户只需要开始对话,例如要求预订电影票。Alexa会接管并跟进,询问你是否要预订晚餐或叫一辆Uber。 

这种主动与用户接触的能力需要硬件和软件,使语音识别设备能够倾听和记录用户日常生活中的大量数据。此外,通过每周数十亿次的用户互动学习,Alexa知道哪些技能是经常一起使用的,使其能够预测并将技能智能地打包在一起推荐。

全方位的语音识别集成

虽然未来似乎已经到来,但语音智能设备的增长仍在继续,从智能电视、手表、扬声器、汽车语音助手等等。 

汽车行业进一步整合语音识别设备的时机也已经成熟。智能扬声器、语音助手和声控导航都能提供更省力、更安全的驾驶体验。凯捷研究机构预计,到2022年,消费者在汽车中使用语音助手的比例将达到95%。

这一天很快就会到来,人们可以用自己的声音打开窗户,启动汽车,打开空调,而智能汽车助手会识别每个说话者--司机或乘客--以及他在车内的位置,并提供个性化的回应。

这样的技术正在与Kardome进行合作。位于以色列特拉维夫的雷诺-日产-三菱(RNM)创新实验室 目前正在评估Kardome的汽车应用智能音频解决方案。

左起:Alik Gorenshtein雷诺-日产-三菱创新实验室TLV的数据和人工智能负责人,Kardome研发总监Alon Slapak和CEO Dani Cherkassky。这家VUI技术公司正在与雷诺-日产-三菱的创新实验室测试其智能音频解决方案。

精致的麦克风阵列的帮助下,与虚拟助手合作的语音智能电视将发挥更大的作用 

游戏行业整合语音技术的时机已经成熟。根据Adobe公司的一项调查,63%的智能音箱拥有者在他们的客厅里有一个。这种使用情况为游戏行业和语音技术世界创造了一个重要的机会,为朋友和家人建立一个语音化的体验。已经有公司在提供语音控制的桌面游戏。Netflix 与Doppio Games合作,开发了一款多人语音控制游戏 "3%的挑战",该游戏基于其流行的科幻剧《3%》。HBO、乐高、Pretzel Lab和其他公司也已经开发了声控游戏。

塔达实验室的庞德认为语音识别技术会扩展到几个关键领域。

  • 会议中的发言权
  • 语音与真实数据相连
  • 商业智能的声音
  • 建设中的声音

预计将在更广泛的基础上整合语音识别的其他领域是医疗保健和金融业。

总结

2020年推动了语音识别技术行业在许多领域迅速解决和改进VUI。然而,许多领域仍然需要改进。 背景噪音、多扬声器环境、智能转录语音命令和其他问题抑制了许多设备和用户的语音交互体验。今年VUI开发者所面临的挑战只会对语音技术的未来有所启发。

了解Kardome如何改善语音交互体验。 预约演示

了解最新的视频业务新闻、战略和见解,并直接发送到您的收件箱中!

今天就开始吧

给你的用户
一个声音

Kardome的VUI技术可以与任何支持语音的平台或智能设备整合。

多扬声器隔离

消除背景噪音

准确的语音识别