曾经讳莫如深的语音识别技术正成为智能设备上的下一个竞争热点

嗨,我是罗伯特

来源:2009年5月20号刊 第10期 总第181期  |  作者:《环球企业家》朱旭冬  |  阅读:

是人类永不满足的欲望驱使着技术的不断更新,还是不断更新的技术纵容了人们永不满足的欲望?这或许将是一个永远萦绕于科技创新者脑中的终极问题。

比如总是试图扮演着这样角色的苹果公司,在人机交互的历史中,它一直不断挑逗着人们新的需求:当人们还在用命令行的方式操作电脑时,它完善并推广了图形操作界面,使用户彻底摆脱了复杂路径名称的记忆负担;当人们还需要在音乐播放器冗长的列表中一首一首寻找需要的歌曲时,它设计出了点击滚轮,可以在几秒钟内找到哪怕处在第100位的条目;当人们早已习惯了用触摸笔不厌其烦地点击手机屏幕的时候,它又发明了多点触控技术,只要将放在屏幕上的两根手指轻轻划开,手机上的图片就能放大。而现在,它踏上了新的征程。

对于刚刚在中国上市的苹果新一代iPod Shuffle音乐播放器,最引人注目的莫过于它“会说话”的功能。用户在听歌时仅需按一下播放键,电脑拟音就会说出当前歌曲的名称和演唱者,而如果按住播放键不放,它就会依次说出包括用户自己创建的不同播放列表的名称—无疑,依靠这种语音技术,其弥补了为缩小体积而放弃了图形界面的不足。

其实,早在2003年和2004年,苹果公司就分别申请了两项有关语音技术的专利—语音菜单系统与用于计算机设备的语音用户界面,它们都是通过语音指示来帮助用户使用计算机,而无需其视觉注意。虽然当时这两项功能还没有应用于苹果的MP3播放器或手机产品上,但已经被这些不知疲倦的革新者惯坏了的用户,却笃定这一天很快就会到来。

声音的界限

不过,如果MP3播放器以及人们更为熟悉的语音界面—电话自助服务,由于本身的功能属性,在声音方面的开拓还尚属顺理成章的话,那么亚马逊的新一代电子阅读器 Kindle 2则算得上更具颠覆性。其备受瞩目的一个新功能同样与声音有关:可以把本来需要用眼睛阅读的文字转换为语音读出来。颇为巧合的是,Kindle 2推出仅仅一个月后,iPod Shuffle就发布了。

这实际上透露出了一些玄机:虽然电子书领域不乏亚马逊、索尼这样的巨头,但高昂的价格和相对单一的功能使其仍然占据着非常小的市场份额—它们轻易就能被一部像iPhone这样的智能手机所代替。所以,要想真正成为一款永载史册的经典发明,电子书需要加入更多杀手级的应用。而或许与有声读物的融合,能使Kindle进入一个新的领域。“我敢肯定这种方式会有一个适合的盈利模式。”出版业顾问、有声读物商西蒙与舒斯特公司创始人塞思·格谢尔(Seth Gershel)如是说。

而走得更远的则是高端扫描仪生产商Plustek,其最新一款产品V100将扫描技术、光学字符识别技术、文本语音转换技术以及语音合成技术统统结合在了一起,使其能将扫描的文字直接转换成MP3语音格式,并通过任何播放软件为你阅读出来。很酷不是吗?但值得注意的是,其背后的驱动力或许与Kindle一样充满了无奈—要知道,在网络时代,留给扫描仪、打印机这样曾经的办公室必备设备的空间已经愈来愈小了。

通过语音进行人机互动的实践其实已经历了半个多世纪的探索,其中V100所运用到的语音识别技术,更是在上世纪五十年代就由彼时还属于AT&T公司的贝尔实验室进行了初步尝试。不过由于词汇量和不同语言的限制,以及环境与复杂语义对其可靠性造成的极大挑战,直到近十年它才逐步走向实用阶段—而即使如此,其门槛也颇高。正如国内语音技术市场占有率超过50%的捷通华声公司市场部负责人何蕊对本刊所说:“虽然在相对安静且说话者发音较为标准的情况下,语音识别的正确率已可达到95%以上,但一旦环境较为嘈杂,准确率就会大幅下降。”而从另一角度看,这正是开拓市场的机会。

然而,这里也蕴藏着风险。具有朗读功能的 Kindle 2一经推出就遭到了版权保护者的质疑。美国作家协会执行总裁保罗·艾肯(Paul Aiken)认为这一功能是不合法的,因为亚马逊仅获得了书本的文字版权,并没有声音版权。虽然拥有着最大有声读物出版商Audible的亚马逊据理力争,但最终还是对Kindle 2做出了改进,将这项功能的实施权力赋予给了图书作者。

在普通人、甚至一些专业人士的眼中,美国作家协会的抗议不免有些吹毛求疵:如果用户一个人听,绝对没有问题,只有声音开到很大,或者公开播放时才算侵犯了作者的权利。而别忘了,“侵权”(无论是版权还是隐私权)也正是最赚钱的领域之一—搜索网站一直为人所诟病的地方。那么不妨大胆推断,美国的作家们是否因为笃定了语音功能的前景,而试图分一杯羹?

事实上,搜索界的霸主谷歌已经成为了语音界面开发者行列中一个有力的竞争者。去年它发布了一款用于智能手机上的应用 Google Mobile Apps:用户可对着手机说出关键词,该软件会把其转化成文字,然后自动在谷歌中进行搜索并提供结果。而上个月,它还推出了 Google Voice,不仅在用户接到电话后会发出语音提示让用户选择挂断、转到答录机或者接听等功能,而且会把电话录音自动转换成文字。

用户界面设计资讯门户 UITimes 站长璩凯向本刊表示,由于音乐播放器、电话、手机等硬件特性,语音界面在这些地方的应用最为广泛。 而苹果的专利说明中也解释道:“(采用语音界面)一个原因是屏幕过小导致字体过小,造成了用户的阅读困难。另一个原因是,如果用户视力不好或者有眼疾,那么阅读就会更加不便。就算手机屏幕分辨率够高,当用户在从事需要用眼的活动时仍然无法同时顾及屏幕。”

这正揭示了语音界面的真谛:它完全可以彻底解放人们的双眼和双手,使用户不必再用眼睛浏览、用手输入,而专注于其它的事情—这与时下最热的移动互联网理念形成完美契合。

“语音界面是对于市场和功能细分化后界面功能的特性提升,无法代替整个人机操作系统,称其为语音的界面提示或许更合适。”专业用户界面设计团队 Eico Design 的创意总监张伟对本刊说。但即使这样,随着隐在电脑和更多便携式智能设备的出现,语音界面的更多潜力也会被充分激发,并如同与其同样大多应用在移动和车载设备上的GPS导航系统如今的情况一样,成为众多大小商家竞争的一个支点。