对于硅谷的寻梦者而言,虚拟助手犹如希腊神话中的海妖塞壬,无数科技精英被她美妙的歌声所吸引,踏上追求人工智能的航程,却终究难逃折戟的命运。
1994 年,电话助手“Wildfire”问世,它能处理短信、来电并及时检索语音信箱。Wildfire 一度吸引了大量关注,但最终却没能火起来。几年后,微软办公助手 Clippy 诞生,本拟成为白领的办公助手,不料最后却入选时代杂志“最糟糕的 50 大发明”榜单。1998 年,General Magic 公司称其声控助手 Portico 可以连接手机和因特网,还可以完成读邮件、发短信工作。4 年后,该项目被迫关闭,公司申请破产。
2007 年秋天,伴随更快捷的无线传输,更成熟的语音识别技术,加之云计算的崛起,iPhone 的问世以及一系列新型网络服务的涌现,一个属于虚拟助手的时代终于到来。
迁往半月湾的 SRI 小组(Kittlaus 和 Cheyer 等人)预见到 iPhone 的触屏设计将成为新的行业趋势,因此,他们决定顺应时代潮流,设计一款针对 iPhone 的声控助手应用。
这支 SRI 小组有一项优势,那就是他们能利用 CALO 的技术。1980 年的国会法案规定, 创业公司可以经由分给 SRI 股份来使用 CALO 项目的核心技术。
起初,Cheyer 对于将 CALO 的研究变成商业项目的可行性还心存疑虑,但 Kitlaus “创新灵魂伴侣”的构想打动了他。终于,一家名为 Siri 的公司应运而生。Kittlaus 任 CEO,联合创始人 Gruber 和 Cheyer 分别任任技术总监和副总工程师。
之后,这个三人团队开始招募员工。他们要求每位应聘者阅读麻省理工学院教授 Michael Dertouzos 的著作《The Unfinished Revolution : How to Make Technology Work for Us - Instead of the Other Way Around by》,该书的主旨是“以人为中心的计算”以及“设备应当服务人类,而非人类服务设备”。如果应聘者不赞同 Dertouzos 的理论, Siri 就不会接纳他。
Siri 公司要求每位员工在其办公桌上放一张最能激励自己的人的照片。Cheyer 桌上照片中的人正是信奉“people first”准则的 Doug Engelbart。
2008 年,Siri 公司拿到了 850 万美元投资,而紧随其后的几个月,他们就取得了“惊人的突破性进展”,Siri 早期的投资人 Morgenthaler 说。另一位早期投资人,来自 Menlo Ventures 的 Shawn Carolan 也回忆到:“每一次开董事会,都有重大突破。”
开发团队为了让 Siri 能准确的理解、翻译和回答问题,对它进行了严格的人工智能训练。Siri 在收到一个提问请求后,会在远程数据中心处理信息,然后将提问者的语音发送至服务器,再经由语音识别软件将其转换成为文本。
之后,Siri 就需要对这段话进行理解了,也就是计算机专家所说的 ”自然语言处理“过程(详见百科词条)。人们提问的方式是多种多样的,比如“我想吃面包”,“附近有面包店吗?”,“要是能来点法国点心就好了”,这三句话讲的都是一个意思。对我们人类而言,这是显而易见的,但要让计算机也把这几句话理解成同一个意思,则需要一套非常复杂的算法。
传统的自然语言处理方法是对句子的各个部分进行分析。但 Siri 采用的则是 Cheyer 及其同事设计的新方法,即不再对语言概念进行建模,而是对真实世界的物体进行建模。比如对 Siri 说“我想看恐怖片”,它就会迅速将“恐怖片”一词解读为为电影的种类之一,然后为你推荐相应的电影,而不是像传统方法一样去分析这个句子的主谓宾。
Siri 可以把问题中的具体内容跟与内容相关的潜在行为相匹配,然后基于它对内容和真实世界概念的理解采取适当的行为。具体说来,当你让 Siri 推荐餐馆时,它会根据你的个人口味、所处位置以及用餐时间,为你推荐餐馆(包含评分、口味、位置、价位在内的相关信息)。
想象 Siri 是一家星级酒店的 concierge (礼宾员)。当你在嘈杂的酒店大厅中问他“closest coffee shop(附近的咖啡厅)”时,他很容易听成“closest call Felicia(呼叫附近的 Felicia)”。但礼宾员知道“closest”一般用来形容地点而非人物,因此他会推测你可能是想找个吃饭的地方,进而把你的问题理解成“想要一杯卡布奇诺”。Siri 也是一样,它被设计成不需要听清每一个词,也能根据句子的关键词来判断用户需求。此外,Siri 还支持文字输入提问,以避免嘈杂环境的干扰。
为了生成一张咖啡馆的清单,Siri 需要访问来自 40 多家网络服务的数据,这就好比 Siri 是一个大脑,而这些网络服务是大脑中的脑叶。以往的虚拟助手都被训练成某个特定领域的行家,但 Siri 则是个万事通,它唯一要做的就是接入许多互联网公司提供给第三方的 API 接口。
在 Siri 开发者最初的设想中,虚拟助手能处理无穷多样的任务。他们为 Siri 设计的架构允许其接入无限多个网络服务的 API,让他们来为 Siri 这款“do engine”添枝加叶 。
但他们同样也意识到,这款虚拟助手要想取得真正意义上的成功,光有聪明是不够的,它还得幽默、臭屁、有人情味儿。
Kittlaus 和 Saddler 还脑暴(头脑风暴,brainstorming)了许多用户可能会问到的各种古怪问题。他们甚至想过给 Siri 准备几个不同风格的语言包,让用户可以依照自己喜好对 Siri 进行改造,使 Siri 嘴巴更甜或是脸皮更厚。设计者希望 Siri 最终能够模仿用户的个性,比如你若对 Siri 说”今日这天儿也算风和日丽,妾身打算出宫游玩一番,却不曾想竟自怀念起蛋糕的美味来。” Siri 想必会这样回应:“前方第二个岔道口右转的一家点心店,里面的蛋糕是极好的。厚重的芝士配上浓郁的慕斯,是最好不过的了。你若愿多品几口,虽会体态丰腴,倒也不负恩泽。”(╮(╯▽╰)╭)
2010 年初,Siri 作为 iPhone 上的一款独立应用发布。三周之后,Kittlaus 接到一个陌生来电——一个他差点因为自己的 iPhone 屏幕故障而错过的来电。
来电的人正是史蒂夫·乔布斯。他想次日约见 Kittlaus。
在乔布斯位于 Palo Alto 的家中,Siri 公司的几位创始人和乔布斯对话了 3 个小时,探讨“do engine”的未来以及人机对话的方法——苹果有意收购这家年轻的公司。
“乔布斯和 Scott Forstall 对于语音识别的方法以及如何在 iPhone 上创建语音界面十分感兴趣。”Kittlaus 说,“乔布斯认为,我们所设计的这款简洁的会话界面将会打破该领域的规范。”
Verizon 也和苹果想到一块儿去了。2009 年秋,也就是苹果向 Siri 伸出橄榄枝的前几个月,Verizon 就已经为公司签署了一份协议,让 Siri 在新的一年里成为旗下所有 Android 手机的默认应用。而当苹果突然要来收购 Siri 的时候,开出的条件就是让 Siri 成为苹果设备的专有助手,并让 Siri 和 Verizon 之间的协议作废。可见,苹果当年险些错失 Siri,让它成为自己最大的劲敌 Google 的利器。
最初版本的 Siri 只发布了两个月,此后,Siri 的未来将由苹果接手。
“故事到这里就结束了。或者说,故事从这里才刚刚开始。”Kittlaus 说。