我们在实现无缝语音交互体验的道路上的主要障碍
是什么阻碍了我们用语音与机器进行无缝沟通?
关于人机通信的未来,已经有很多文章。雷-库兹韦尔在他的《奇点临近》一书中称,下一个合乎逻辑的步骤是让人类有能力直接从我们的头脑中与机器沟通--从手控到声控,再到心控。
但在我们达到理想的精神控制通信阶段之前,虽然听起来很诡异,但人类首先需要解决一些小障碍,这与前一个阶段有关--语音控制。
像大多数技术一样,创新源于需求,当某项技术的采用率相对较高时,创新就会增加。以汽车行业为例,该行业的创新技术不断涌现,如果人类还在使用马匹作为交通工具把他们从一个点带到另一个点,你会认为特斯拉今天已经存在了吗?假设不会,同样的情况也适用于语音控制,它遭受了不好的评价,导致了相对低的采用率。
语音技术有一个 "玻璃天花板"。
那么,是什么阻碍了我们更普遍地使用语音控制通信?为什么我们不经常使用我们的语音助手,而只是在有限的情况下,为同样的特定目的(如询问我们的信息娱乐系统的时间或给某人打电话)这样做?是什么给语音控制技术带来了 "玻璃天花板",减缓了采用率,使我们无法通过语音达到更广泛的交流?
这个问题的答案很简单--信任。虽然信任有几种含义,但我将专注于我认为最重要的一点--他们根本听不清楚我们的话。当你试图在典型的声学条件下对语音用户界面说话时,整体体验是有些令人沮丧的,我们还没有达到可以信任语音用户界面能够正确地 "完成他们的工作 "并按照我们的期望行事。
这里有一个快速的问题--当你开着车窗或开着收音机的时候,你会让Alexa或Siri给别人打电话吗?最有可能的是,在你尝试这样做之前,你会凭直觉努力保持一个安静的环境,然后才会对你的语音助手说话。现在这是 "摩擦",而摩擦会影响信任,而信任会影响需求。
为了实现语音命令解决方案的广泛采用率,人类需要能够在各种环境中舒适地与语音用户界面进行交流,并相信机器会完全按照它的要求去做。这不失为一个先决条件。
你能说得更具体些吗?
语音识别过程中最初始和最重要的组成部分之一是 "音频前端",它负责向自动语音识别(ASR)引擎提供高质量信号。截至目前,ASR将说话者的语音信号正确转换为文本的能力,受到采集语音的空间内声学条件的高度影响。中断的环境和干扰的语音信号越低,转换的结果就越好。
今天,大多数公司正试图使用相同的老式音频前端波束成形基础设施来解决这一障碍,该基础设施在典型的条件下无法为ASR提供高质量的语音信号,因为所需的语音被环境噪声和竞争者的扬声器所破坏。
一个类似人类的例子...
人类能够在嘈杂的咖啡馆里进行对话,这要归功于我们能够将由背景噪音和几个竞争者组成的复杂声学场景归纳为几个简化的场景,每个场景由一个语音组成。在聚类后,我们的大脑可以专注于其中一个场景而忽略其他场景。音频前端技术应该以类似的方式执行,它应该将获得的混合语音信号聚类为单独的语音组件,并为ASR提供单独关注每个单独语音组件的能力。
这样的聚类功能可以通过应用更复杂的声源分离算法来实现,而简化的波束成形器则不能准确地模拟声学场景,因此无法达到预期效果。
难怪我们在寻找 "突破口 "和引领人类进入无缝语音指令时代方面徘徊不前(拜托,伙计们,难道你们不想只用想象力来订购比萨吗......),为了赢得这一挑战,需要采取深刻的变革,因为我们不能指望用几十年前的技术来克服这一挑战。
不要误会我的意思,这并不是说整个语音识别过程的其他组成部分,如STI、NLP等,对于成功和无缝的人类体验并不重要,而是试着把它看成最基本的基础,其他一切都依赖于此。简单地说,如果基础薄弱,其他一切都会崩溃。
总结一下
促进无缝的语音控制体验,不考虑扬声器周围的声学条件,应该是当今语音技术公司的主要关注点。
一旦实现,人类将体验到语音控制应用的指数级草案,并将受益于它所提供的惊人的价值主张,也许会引领人们走向下一个挑战,如果你知道我的意思......