当旋律也可以搜索时,语音识别还远吗?
找乐
也许,你曾遭遇过如此情景:一首非常熟悉的旋律突然在脑中响起,但就在嘴边的歌名和演唱者却始终无法脱口而出,不只如此,你甚至连一句歌词都想不起来。这种情况下,功能强大的Google当然不能提供任何帮助,而你身边的朋友们也只会一边摇头,一边毫无同情心地嘲笑着你的五音不全。
是的,这时,你急需一个“救世主”——只要随意哼唱,答案就跃然眼前,即使提供给它的信息与音质有着种种残缺。
这并不是妄想,如果足够地执拗和大胆,“奇迹”就会发生。事实上,2002年,还在斯坦福大学读书的米歇尔·格拉博斯基(Michal Grabowski)就因为弹吉他时忘了歌曲名而与朋友们创造了这样一个“救世主”。
格拉博斯基与彼时正为斯坦福大学创业比赛而绞尽脑汁的室友詹姆斯·霍姆(James Hom),以及两名精通信号处理技术的电子工
六年的时间不可不谓漫长,不过考虑到包括Google、微软、IBM在内的众多IT巨头们长年来一直都没有停歇过在语音识别道路上进行商业探索的脚步,就不得不叹服格拉博斯基们的野心与成就——他们不仅实现了一种令目前的搜索巨擎们都感到迷惑的强大语音识别功能,还将Google十年前一手奠定的搜索方式进一步向外扩展。
登录midomi网站,点击首页最上方的语音搜索,然后对着麦克风随便哼唱10多秒,就会发现,无论是蔡依林、周杰伦这样的中文流行歌曲,还是David Bowie的《Ziggy Stardust》这样有些年头的老歌,甚至诸如挪威乐队Kings Of Convenience的《Toxic Girl》这样更小众的音乐,其页面都会在数秒之后出现该曲详尽的资料:不仅包括原唱,还有各种翻唱以及用户自己录制的版本。
而除了语音搜索功能外,它的文字搜索能力也不可小视。只要是大牌唱片公司发行的专辑基本囊括其中,从歌手、乐队的个人信息到专辑的试听、MV都可以搜寻到。今年7月10日,Melodis公司发布了其最终升级版,如今,人们可以迅速地通过演唱、哼唱、吹哨以及在iPhone上键入关键词等多种方式找到那首遗失在记忆中的片段。
如同Google当年依靠其一套神秘算法而迅速在搜索领域奠定了坚不可摧的统治地位一样,midomi的“秘密武器”则是一项名为多式联运自适应识别系统(Multimodal Adaptive Recognition System,简称MARS)的音乐搜寻技术。它首先会分析出一首曲子的音高、旋律、节奏、速度、语音内容等声音特性,并按照特性的优先性到数据库里进行比对,选择出最为匹配的一条或者多条曲目。而在数据库建立的时候,因为已将歌曲的模拟信号分解,经过数码化后存储,并为歌曲的一些特性建立了索引,所以当输入的时候将模拟不同的音乐特性转化为数码信号,再到数据库中进行搜索时,其准确性可以高达95%。
简而言之,如果用户唱歌词的话,这项技术会先分析语音内容,然后再比对音高和旋律等等歌曲特性。而如果用户是哼唱或吹口哨的话,这项技术就会忽视语音内容,转而对其他特性进行分析。
以往的研究者都希望能把音乐片断转换成音谱,因为它们更利于用电脑进行处理,但是这种转换的企图已经被证明难度极高。而MARS却绕开了这一繁琐过程,使得识别变得更加简单,但另一方面,这也意味着它必须要有庞大的音乐数据库作为对比语音的基础。
最初,四位创业者通过邀请朋友享受midomi上的“录音棚”作为网络卡拉OK,并发送了不计其数的Amazon礼品卡。在口碑营销的病毒式传播之后,他们欣喜地得到了大量用户捐助的约20万首歌曲。
midomi的雄心正如其CEO莫哈尔所说“建设世界上最全面的可搜索音乐数据库”。没错,达到这个目的最好办法,就是依赖用户。眼下,它已是一个集搜索、用户添加、交友和音乐商店于一身的专业社交类网站。用户根据自己的喜好加入不同的歌手和乐队“俱乐部”,在“俱乐部”里可以听到粉丝们录制的翻唱歌曲。不同音乐风格的爱好者,不同国家的人都可以在midomi里找到认同。而如果你的声音够好,或者足够活跃的话,说不定没多久就能成为这里的明星,同样拥有自己的粉丝。
这样的互动性已让midomi上的用户添加歌曲超过了33种语言,网站也有包括中文在内的10个语言版本。数据库中的歌曲更是涨到了200万,并且还在不断增加。而除了iPhone以外,诺基亚、三星和LG的一些型号如今也可以支持midomi的手机应用。
其实,由于用户的相对确定性,聚焦音乐等领域的垂直搜索网站早就被有关专家认为是未来网络世界的大势所趋。在我们早已熟悉的根据关键词来搜索音乐的网站中,既有像Last.fm和Pandora这样可以在线收听并推荐音乐的地方,也有像iTunes这样提供音乐搜索和下载的玩家,更有Allmusic这样提供详细音乐资料和试听的大型资料库。而靠语音识别技术来搜索的音乐网站里,也不乏SongTapper和Musipedia这样依靠敲击键盘频率或直接弹奏来搜索的有趣探索。
即使是兼容哼唱,midomi也并不是“开山鼻祖”。早在2006年,一家叫做Humming Search的网站就有过如此尝试。甚至在此之前,另一家叫做411-Song的网站也推出过针对手机的类似服务,不过由于适用性单一,并要收取一定费用,始终没有吸引太多用户。而Humming Search也由于技术的不成熟,没多久就消失了。确实,由于长期受到忽视加上技术的复杂性,语音搜索的发展仍远远落后于文字,然而面对Google也开始向各个专门的领域逐渐渗透,要想在其留下的日益狭小的夹缝中生长,“另辟捷径”似乎是唯一选择。
根据Alxea网站显示,中国网民是midomi的第一大用户群,占所有用户的20.7%。而音乐搜索对中国网民而言的确是非常重要的一项功能。不过,随着Google也在这一新市场玩起了音乐搜索和下载(详情参看《环球企业家》2008年8月20日《军备竞赛》一文),如果就此断言,目前在用户体验以及中文资料方面远非完美的midomi,已经在这片对使用习惯和黏度要求较高的行业里占据了一席之地,也许还为时过早。