当互联网越来越懂你的时候,无形的“机器人”时代其实已经来临

新算法

来源:《环球企业家》2011年4月20日刊 第8期 总第227期  |  作者:周昶帆  |  阅读:

还记得《终结者》、《黑客帝国》、《变形金刚》等好莱坞科幻大片中电光火石的场景吗?一些由金属机械构成或者直接以人形出现的机器人在打打杀杀,他们是由人类制造出来,但有着像人类一样的意识,能够思考、判断—除了感情之外,他们的理性和智商与人不相上下;他们中的一部分,甚至超出设计者的构想而意外地具备人性。

机器人以及人工智能常常是科幻片热衷的选材,但现实中相关技术的研发并非是为了战争,而是更多地扮演人类助手的角色,就像善良的瓦力一样。

超级电脑“沃森”同样在2月的一场电视直播的智力竞赛中战胜了人类对手,但人类并不需对此感到担忧。这个由IBM和美国德克萨斯大学花了四年时间开发出来的电脑系统,比1997年同样由IBM开发的、战胜国际象棋大师的“深蓝”进步很多。它可以直接理解人的语言(目前只包含英语),包括大部分模糊性、歧义性的言辞甚至讽刺、嘲笑,并能根据存储的信息进行快速、大量的计算分析,还可以判断自己即将给出的答案的胜率。这一过程已经不再是像深蓝一样所有行为只限定在国际象棋规则之中。参与沃森开发的IBM中国研究院资深经理潘越说,沃森应用的机器学习艺术,已经让它具备了一定的学习能力。这些进步,都让沃森更进一步接近于有意识的机器人。

计算能力超过深蓝1000倍的沃森,并不是一个炫耀技术而毫无用处的家伙。马里兰州大学医学院已经开始将其应用在医疗诊断系统之中。比如一个罕见病例,如果需要医学专家在众多资料中筛选过往信息需要漫长的时间,但沃森可以很快“阅读”完资料并给出判断。其中的难点在于,包括医疗等现实世界的问题并非能简单用是或否来回答,沃森可以自己判断给出答案是有九成把握还是只有五成。

相比计算机的计算速度,沃森的这一进步更多是得益于算法能力的提升。实际上,我们每天面对的电脑及互联网背后都是由无数计算机算法构成。比如当你搜索关键词“iPhone 4”的时候,百度的广告系统计算之后可能认为你需要购买手机而为你推荐一家电子商务公司,也可能认为你收入不错而呈现一款汽车的广告。比如在谷歌地图中,从A点到B点路程最短路线,与耗时最短路线可能并不一致,前者为简单计算,后者则依靠更为复杂的算法。一些开心网或新浪微博用户会惊讶于系统自动推荐的好友,往往是自己相熟或感兴趣的人,背后同样有着关于关系链条、个人资料、谈论话题等信息的分析计算。

没错,像瓦力一样具有感情的机器人还未出现,但像沃森这样的超级电脑已经开始为人类服务,越来越懂你的互联网已经每天就在你身边了。这是一个更加智能的时代,也是一个更加感受不到机器外形的时代,他们融进了生活和商业细微的毛孔中,你摸不到它们的金属外壳,看不到它们的线路,它们在原有基础上更加人性化,经过对比你会发现,原来人工智能一直在进化,更加懂用户的需求,不再像昨天那样机械和笨拙。

智力比拼

人工智能能否在某些方面超过它们的创造者人类本身?实际上对于人工智能的看法,学界一直存在着两种观点,一种是强人工智能观,认为机器会最终达到人类智能的水平;另一种是弱人工智能观,认为机器是在按照人类指令行动,人工智能与人自身的智力是本质不同的东西。后者目前获得绝大多数的支持,而前者的研究突破很少见,只能在电影院里通过科幻大片快速提前观看其影响。

相比人脑的物理局限,机器有强大的存储、运算能力,稳定性强,不受心理作用影响,但创造性差,按照程序设置执行既定的行为,凡是程序员教它了条件和反应,它就会相应执行。深蓝的胜利并不能全面说明人工智能真正超过了卡斯帕罗夫,深蓝获得荣誉得感谢IBM的研制者,因为他们向深蓝输入了百年来所有国际特级大师的开局和残局的下法。在下棋通用法则之外,那些具有个人智慧结晶的东西实际上赋予深蓝成为一个“专家系统”,它依靠强大的存储运算,以百位大师之力战胜卡斯帕罗夫。

人机对弈现在已经很普遍了,最新的成果是应用更为广泛的自然语言识别,沃森即为代表。沃森在《危险边缘》(Jeopardy!)中面对的两个人,都堪称是绝顶高手,一位是连赢74场的答题王,创下连赢场数最多纪录,一位是获奖金额最高纪录。

沃森的工作流程是,识别人类的语言,按照设定的算法搜寻资料、计算结果,再以人类的语言输出结果。比如提问:中国的首都是哪里?沃森会经过问题分析、信息检索和答案提取三个步骤来得出最终结果,比如他至少要通过模糊算法得知这是问一个国家,而不是问一个叫做“钟国”的人的问题。沃森通过摄像头扫描问题,用一些列算法将问题关键字拆解,之前它被输入了结构化(百科全书等)和非结构化(互联网网页)的知识源,在这些数据中搜索加工,最后将结果输出。潘越说,沃森实际上是一个平台上搭建了100多个程序和算法,最初算一道题耗时长达2小时,后来IBM研究团队发现很多程序可以并行,最终将它的答题时间缩短到了3秒钟。

[---分页标志符---]

载体无处不在

计算机带动的人工智能的应用,不仅仅体现在你所能看到的成型的机器和计算机上。各种并不成为电脑的计算机也在以巧妙的方式延展着人类的智能,这些也许你生活中每天都在用,但没有想到它们除了功能之外,也在以一种不可思议的悄无声息的方式改变生活和商业。

比如你的身份证、公交卡、门禁卡等可以读写记录信息的设备,就可以通过算法来推断出用户的一些行为。其中除了用户需要其记录的对用户有用的目标数据外(比如你的身份信息、公交余额、上班打卡时间),芯片在某些方面也积累了用户的行为数据。比如公交刷卡也会根据交易地点来分析出你的行进线路,门禁卡记录你离开办公室外出的频率等。

去年12月,在美国一个叫做Anthony Carleo的男子从 Bellagio赌场盗取了价值 150 万的筹码。他所盗取的筹码都带有RFID标签,实际上是一种芯片。这场盗窃案让外界知道,赌场用这些筹码可以很方便地跟踪钱的流向,实时监控每台赌桌的输赢情况,看庄家是否有算错交易数额。当然他们由点及面,也能通过数据挖掘出顾客的一举一动,比如顾客的输赢情况和消费习惯。比如当你刚心里想需要吃点什么东西的时候,会发现服务人员已经将餐食送至身边—在这个时候,筹码已经是机器人的载体。

同样记录顾客消费行为数据的实验也在我们身边进行。在Me&City上海试点门店内,RFID芯片被植入到吊牌中,顾客在选购衣服时随手的一个动作,都在创造价值。某件衣服被顾客拿起几次;拿起后立即放回,还是会试穿;试穿后决定购买,还是放弃……诸多信息都会被服务器记录下来,并经过梳理提供给设计、市场、门店等环节参考,以求洞悉顾客的喜好。

实际上,这样的硬件开发已不再具有太高门槛,运用效率的高低更多是在于算法的描述能否更加精准。比如购物潮流参谋或者交通付费的作用,更在于它也记录人们无意识产生的那些自己都不明确的动作并分析着其中的意义。人们通过人工智能来做一些人类智能可能根本不会注意到的小事情,将其积累运算,提炼价值。

尽管很难由此说计算机算法会超越人类的感知,但它的确会知道一些你自己尚未意识到的信息。当海量无意识行为的微数据长期积累汇集,那将是一座信息金矿,即使你自己也不如这些人工智能系统对你了解深刻。

改变生活

相比商用的超级电脑、内置芯片设备,个人电脑及互联网是更为普及的算法承载体。早期门户网站时代,信息是由网络编辑整理提供,用户看到的那些新闻都是网编基于对用户口味和新闻专业判断选择出来的。而门户之后以Google为代表的搜索则颠覆了这个信息提供模式。搜索是用户输入关键字来主动获取信息,在搜索框背后则凝聚了大量的程序和算法。

Google搜索引擎的爬虫机器人,实际上是一种搜集互联网海量信息的程序,爬虫到各种网站网页上将信息收集回来进行编码处理,根据算法将网页标上PageRank等级,分数值高的网页将会在关键字搜索结果中显示在优先的位置上。目前有250亿的网页可以被检索,可以想象,这将是一个多么庞大的信息网,利用搜索引擎,我们已经能在短时间内找到结果,是不是需要的答案则另外考虑。评价一个网页的好坏,不凭人的主观印象,而是将其数学化。算法正在以它特有的形式拆解和重组我们生活的世界。

当然,如何在这250亿的网页中挑选出最应该推荐给你的,依然是一个难题。如果你会抱怨搜索引擎给出的答案还是太过冗杂、不够准确,那有理由相信未来会产生更精准的算法。在未来,一个25岁、此前搜索过如何减肥的女性,与一个45岁、数天之内在谷歌地图中搜索过不同城市机场到酒店路线的男性,搜索“午餐吃什么”得到的结果会是不同的。

在社交网站中,通过记录、挖掘大量用户的数据,这样精准的推荐将更容易实现。在个性化推荐引擎的算法上,一部分是基于用户个人行为数据积累挖掘来向用户推荐,另一部分是基于一群用户的共同行为来向用户推荐。也许你没有注意到,个性化推荐引擎已经运用到很多互联网网站中,比如视频推荐、网络电台对音乐的推荐、购物推荐直到好友推荐等。

在亚马逊或者淘宝上,当你购买了某一商品,系统会根据相关性算法,向你推荐与该商品相关的其他商品。比如你曾经购买了很多本村上春树的作品,基于用户个人数据的算法会为你推荐村上春树其他的作品,而基于其他用户购买行为的社会化推荐则向你推荐村上龙的作品,也许是因为和你有同样喜好购买了前者作品的用户特别多,系统才会推测你喜欢后者的概率比较高,将其显示出来。

从机器到芯片到程序中的算法,人工智能正在从各个方面渗透到我们的生活中,过去你也许没有发现,但将来它们会以更加人性化的面貌出现,即使你面对它也不一定能认出它。而商业也将随之而改变。