Google人工智能推出自动字幕技术,减少现实世界中的对话障碍

来源:环球网科技 | 2019-04-24 17:04:07 |

4月23日消息,Google人工智能研究团队的高级产品经理Sagar Savla向包括环球科技在内的媒体介绍了一款基于Android系统的应用程序—— Live Transcribe,即通过将自动字幕技术融入日常会话,从而减少现实世界中的对话障碍。

据Sagar Salva介绍称,Live Transcribe是其团队的最新工作成果,它是一款运用自动语音识别技术将现实世界中的实时对话转录为手机屏幕上可阅读的文本的安卓应用程序。Live Transcribe能实现实时的连续转录,支持70多种语言,还可以进行快速切换的双语模式。

据世界卫生组织统计,目前全球有4.66亿人患耳聋或听力障碍,到2050年,这个数字预计将增加到9亿人。

值得一提的是,以往耳聋和听障人士多依赖于人工转录服务,这些服务的费用十分昂贵,并且需要提前很久预约,因此难以在日常对话中频繁使用。Live Transcribe能够让人们只需使用手机的麦克风便可随时随地进行语音转录。

Sagar对记者表示:“该应用的自动语音识别系统分为三个部分。第一个部分是声学模型,主要辨别单词中的不同音节;第二个部分是发音模型,将辨别出来的不同音节组成实际的单词;第三部分是语言模型,会根据识别出来的单词增加适当的标点符号停顿。”

据了解,为了使Live Transcribe尽可能直观,在模式上有几种可考虑的模式:计算机、平板电脑、智能手机乃至小型投影仪,最后决定专注于智能手机模式。

对此,Sagar解释道,“我们也曾考虑可穿戴设备,但这种设备造价相对较高,普及率也远不及手机。因此,我们最终还是选择了手机为主要平台,旨在帮助更多听觉有障碍的人群。”

据此前报道,从小失聪的Dimitri Kanevsky是Google的一名研究科学家,他在过去的30年里致力于研究语音识别和通信技术,希望通过他的工作塑造了他所依赖的无障碍技术。其中之一便是一种名为CART的服务,主要功能就是将一位虚拟字幕员加入到会谈中来聆听并创建此次对话的转录,然后将文字显示在计算机屏幕上。Dimitri团队里Chet Gnegy则发现了人们在使用CART时所面临的挑战:使用者必须携带多个设备,而这些设备价格昂贵,并且每次会谈之前都需要做大量的准备。这意味着Dimitri只能将CART应用于正式的商务会议或活动中而非日常对话。

这一研究启发了Chet与Accessibility团队的合作,他们希望开发一种工具,旨在减少Dimitri为日常对话所做的事前准备。 我们在想:如果我们使用基于云的自动语音识别在屏幕上显示字幕会如何?我们开发了一个程序雏形,许多Google员工都参与了这个项目。成果便是Live Transcribe这个应用程序,只需使用手机的麦克风,就可以获取现实生活中的语音并将其转换为实时字幕。

Live Transcribe可以使聋哑人或听障人士在日常交流中获得更大的独立性。这让Dimitri和他的亲人们更亲近了——他现在可以在没有其他家庭成员帮助的情况下轻松地和他6岁的双胞胎孙女交流了。我们从合作伙伴加劳德特大学(Gallaudet University)那里也听到了类似的反馈。加劳德特大学是一所针对聋哑人和听障人士的世界一流大学,他们帮助我们设计并验证Live Transcribe可以满足其使用需求。

Live Transcribe提供70多种语言和方言的转录服务。 它还可以通过键入式键盘为不能或不想说话的用户提供双向对话服务,并与外部麦克风连接以提高转录准确性。 在使用Live Transcribe时,请在“辅助功能设置”中启用它,然后按下导航栏上的辅助功能按钮进行实时转录。

关键词: Google 人工智能 自动字幕技术