casper 发表于 2023-4-29 10:06:27

苹果Siri语音软件团队内幕曝光:挣扎、斗争、重组(图)

本帖最后由 casper 于 2023-4-29 10:08 编辑

appso


微软投资 OpenAI,推出新 Bing,Google 推出 Bard,Adobe 推出了 FireFly,亚马逊推出 Amazon Titan,随着 ChatGPT 的走红,硅谷大公司的 AI 工具或者助手,瞬间都迸发了出来。

https://www.wenxuecity.com/data/news/202304/29/bb91a339f56d5cffea8c01c1c4362682.jpg



Github 的 Copilot 功能

只有地处加州一隅的苹果,在外界看来,仿佛是一个没有被 AI 打扰的世界。

沉默

经历 AI 的疯狂三月后,大小公司前赴后继的切入 AIGC 领域,他们都会标上 Beta 测试版,以及需要经历一个 waitlist 的阶段。

https://www.wenxuecity.com/data/news/202304/29/1f0f59aa61ae6506eefd5175abee27c1.jpg

他们最终可能会出错,也可能会答非所问,甚至也可能引发一次舆论高峰,但硅谷和我们仍然乐此不疲的参与其中。



相对来说,苹果对 AIGC 始终保持沉默,高管、员工都没有对外发表过苹果对其真实看法。

https://www.wenxuecity.com/data/news/202304/29/a6600cf871a44f78cc3fb01211ce7267.jpg

苹果一向很注重维护自己的形象和公司品牌,他们很少对外公布不成熟的产品或者技术。

因此,这也说明,对于新技术为何苹果总是比别的公司厂商慢一拍。

苹果尽量避免把新技术运用到产品中时,出现水土不服的现象。

https://www.wenxuecity.com/data/news/202304/29/8c75b137a79f25ccfbd512870427fde1.jpg

目前 AIGC 行业的产品,大多还是围绕着网页对话框,杀手级应用目前还处于空白阶段。



对于专注在产品上的苹果不予置评,其实也说得通。

https://www.wenxuecity.com/data/news/202304/29/de469b16bbc0244ced7953e77abb8132.jpg

不过,根据 the information 那里获得的消息来看,苹果的工程师正在酝酿把 LLM 大语言模型与 Siri 结合,推出更聪明的 Siri,并顺理成章的运用到明年的 iOS 当中。

就像 2011 年那样,苹果首次公布智能助手 Siri,并与 iPhone 4s 一同上市,成为当年 iPhone 的一个重大功能性升级。

高调

以现在的眼光来看,苹果在芯片上加入了神经引擎,将 SoC 芯片称之为「仿生」,将各种人工智能模型、算法运用到拍照、生物识别、书写等方面。

https://www.wenxuecity.com/data/news/202304/29/337deed91e0531705389f9bd6e017e6c.jpg

这对于使用体验的大幅优化和提升,往往很难让人留意,苹果对于 AI 的运用相当低调。



但在 2011 年,Siri 是作为苹果最高调的人工智能技术亮相。

https://www.wenxuecity.com/data/news/202304/29/8e9f5e898d0e113fa80cb5f81dce6c57.jpg



Scott Forstall

直到现在我依然记得, Scott Forstall 在介绍 Siri 时表示,Siri 能够理解自然语言,不需要用户记住特定的格式和语法,也可以根据用户的使用习惯进行定制。

后续上线的宣传片里,Siri 也真正的成为了一个永远正确响应回应,以及颇具智能颇具人味儿的手机内置助手。

https://www.wenxuecity.com/data/news/202304/29/fe753c0360ecd468a1be326be65f20c8.jpg

只是,Siri 在 2011 年后,其技术迭代仿佛被停滞。十几年过去,它仍然还遵循着 2011 年的「天真」回答。

当人们不断被其他公司的更先进的语音助手刷新认知的时候,Siri 就显得有些笨拙,和过于可爱了。



尤其是 Siri 目前已经覆盖到苹果几乎所有的设备,iPhone、iPad、Mac 甚至是 AirPods,Siri 略显老成的处理和回答方式,就更显得它有些落伍。

https://www.wenxuecity.com/data/news/202304/29/280f6e21fb945e2ba13a0b3f7e357a3d.jpg

甚至苹果内部也对 Siri 失望,苹果开发 XR 设备的团队,就不太想在 XR 设备上用 Siri 控制设备和功能,理由就是它不够聪明。

为此,XR 设备的负责人 Mike Rockwell 也曾考虑找个备用方案以替换掉 Siri 的语音控制,不过最终并没有成功。

传闻中的苹果 XR 头戴式设备,仍然会与苹果其他设备类似,可以用 Siri 进行简单的控制,当然,如果你想的话,也可以跟它进行简单的对话。

攀爬

发布 Siri,被认为是智能手机历史上的一个转折。在 Siri 之后,几乎所有的智能手机厂商都会为其产品推出一个类似的智能助手,以免落伍

https://www.wenxuecity.com/data/news/202304/29/49786eccd4f04b0c0df53053cdf9c1ec.jpg

而对于苹果,2010 年花费了 2 亿美元收购了 Siri Inc.,并在一年后把 Siri 整合到 iPhone 里。



在此之后,苹果也组建了一个 Siri 智能助手团队,不过在 2011 年发布至 2018 年期间,Siri 团队陷入了迷茫,内部管理和大方向也出现了一些争论。

https://www.wenxuecity.com/data/news/202304/29/16d0be2bb27bbad99acd790aae6d2593.jpg



John Giannandrea

苹果的解决方案是「请高人」,2018 年从 Google 挖来了 John Giannandrea,成为苹果负责人工智能和机器学习战略的高级副总裁。

此前他在 Google 负责搜索业务和人工智能,几乎可以算是 Google 人工智能领域的资深专家。

有了 John Giannandrea 的加入,苹果想依靠他的经验,逐步改善 Siri 的现状,帮助 Siri 赶上竞争对手。

https://www.wenxuecity.com/data/news/202304/29/280f6e21fb945e2ba13a0b3f7e357a3d.jpg

John Giannandrea 也为 Siri 团队带来了类似 Google 的工作氛围,并面对苹果高管需要 Siri 立竿见影的变化时,他会用「爬山」这个过程来解释如何解决 AI 人工智能领域面临的难题。



对于 Siri,或者说苹果的人工智能策略,需要有一个长远的目标,期间每次微小的优化、改动,都会随着时间的推移逐步累积,马虎不得。

换句话说,John Giannandrea 认为苹果在人工智能领域底子太薄,不能急于求成。

https://www.wenxuecity.com/data/news/202304/29/182ba39aab6c62a805db0df8c2c415fe.jpg

并且,他也说服了苹果高层,暂时应该着重在团队建设中,留下相关人才,并给他们更多的自由,去研究发展自己感兴趣的方向。

最重要的是,John Giannandrea 显著提升了人工智能团队的薪资水准,达到了行业水准。

三板斧下来,苹果人工智能团队得到了增强,引入了许多前 Google 人工智能专家,并用 1.5 亿美元收购了机器学习初创公司 Laserlike。

https://www.wenxuecity.com/data/news/202304/29/50241fb3b4efcd1bf4d562ec08b2d712.jpg

其三位创始人 Srinivasan Venkatachary、Steven Baker 和 Anand Shukla,后期也成为 Siri 团队,苹果 LLM 领域和搜索领域的专家。



引入 Laserlike 的目的,其实就是为了提升 Siri 的搜索能力,而 Venkatachary 也顺理成章的成为苹果搜索团队的负责人。

2019 年,苹果就在 Siri 中加入了通过网络信息来回答用户的提问。Siri 的功能性正在逐步补全和增强。

https://www.wenxuecity.com/data/news/202304/29/fbb74c10430f3ff0bfb0460f71ae07af.jpg

不过,这些改变更像是「昙花一现」。

苹果人工智能团队内部有着相当多的项目,有可以将 Siri 移植到 iPhone 当中的 BlackBird 项目,也有 SiriX 这种庆祝 Siri 十周年的项目。

但除了内部的竞争外,苹果高层对于人工智能大方向的决策过于缓慢,以及对于 LLMs 这种新技术的运用过于保守。

https://www.wenxuecity.com/data/news/202304/29/4ca2f031462a2961c29c7a2cba2cddb1.jpg



从 A 到另一个 A 图片来自:the information

2022 年秋季,Srinivasan Venkatachary、Steven Baker 和 Anand Shukla 也离开了苹果,去了 Google。



有意思的是,Google CEO Sundar Pichai 亲自招募了这个三人团队,同时 Tim Cook 也做了挽留。

但他们认为 Google 是一个适合研究 LLM 的公司,并且也会被快速的运用到产品当中。

https://www.wenxuecity.com/data/news/202304/29/cc427f6e62579e01d85955ce7fe9ad71.jpg

如今他们正在 Google 研究如何降低大语言模型的培训训练成本以及如何提升准确性。

不仅是 Laserlike 团队,Giannandrea 亲自招募的其他专家和团队也大都离开了苹果,理由也是因苹果好像不太重视人工智能方向的研究。

在 John Giannandrea 到来后,在攀爬人工智能领域这座山峰的过程里,或许是与公司战略大方向的不同,让苹果人工智能陷入了挣扎之中。

挣扎

隐私保护,是苹果近来所遵循的一个公司级战略。

在此面前,一切都要让步,绝不妥协。

https://www.wenxuecity.com/data/news/202304/29/4752a4570322b8311aa5db7868d85241.jpg

John Giannandrea 加入苹果,他的目标很明确,就是通过优化苹果对用户数据的使用,训练算法让 Siri 变得更聪明。



因为,在 Google、亚马逊这些公司内,通过收集分析用户数据,改善产品算法模型,是一件很常规的事情。

也由于有这个过程,会让算法更智能,AI 也变得更聪明。

https://www.wenxuecity.com/data/news/202304/29/bfb202d94442906c610273ed9bdfc27a.jpg

苹果此前也会不记 ID 的收集 Siri 与用户的对话数据,但做得并不专业,也没有利用这些数据对 Siri 进行改进。

随着 John Giannandrea 的到来,苹果找了许多外包公司来收集相关数据,并最终通过一个流程对 Siri 进行优化。

但 2019 年,《卫报》曝光苹果外包团队在未经同意的情况下收听用户与 Siri 的对话,而引起了轩然大波,尤其是一向以注重隐私的苹果。

https://www.wenxuecity.com/data/news/202304/29/ee9544fb1d18193cbe9c8b209d74d898.jpg

为此,苹果最终用全职员工取代了外包商,并且修改了内部流程和政策,普通员工几乎很难听到 Siri 的对话录音。

如此的规定也让人工智能团队更难实时优化和按时迭代,也算是造成目前 Siri 显得很古典的原因之一。



「他们所做的事情的缺点将变得越来越明显,」华盛顿大学计算机科学教授、机器学习书籍《大师算法(The Master Algorithm)》的作者 Pedro Domingos 就认为「他们将不得不挖掘更多的私人数据,以便与其他人更具竞争力。」

https://www.wenxuecity.com/data/news/202304/29/396f8691ddb8ce4f66865a779ef07038.jpg



Tim Cook 图片来自:Bloomberg

并且对于 Siri 的一些经常冲上热搜奇怪的回答,也会引起 Tim Cook 的注意。会经常越过流程,直接要求 Siri 团队修改「尴尬」的回答。

因为隐私保护而减少数据收集,以及避免尴尬回答,进行人工修正,苹果十分注重自己的公司形象。

因此,即便现在苹果有庞大的资金和资源,许多前苹果人工智能团队成员也认为苹果很难会很快的去部署基于 LLM 的 Siri。

https://www.wenxuecity.com/data/news/202304/29/ab70019e315d72682719c7ccc43bb29e.jpg

另外,苹果也在 Siri 内设定了许多规则,像是询问 iPhone 售价,会优先导流到苹果官网,而非是直接给出答案。

苹果并非是一个技术优先公司,他们一切的服务、技术都是为产品服务,也就是能卖出去更多的 iPhone、iPad、Mac。



因此,在很长一段时间内,设计团队有着相当大的话语权,他们认为产品就应该做到 100% 完美。

https://www.wenxuecity.com/data/news/202304/29/28bfd3fe07fd05330cf6e88808ab62e6.jpg

这种追求也延续到了 Siri 人工智能团队,但作为一个算法来说,不可能 100% 精确,出错在所难免,出错才能更好的去优化相关模型。

他们之间追求的不同,也让人工智能团队的工作变得很有压力。在 Giannandrea 的周旋下,软件设计团队不得不为 Siri 添加了一个按钮,方便用户回馈回答是否准确。

无论是为了坚持隐私,还是工作流程问题,亦或是为了做出 100% 完美产品,Siri 的人工智能团队正在经历着一系列的挣扎,就像被捆住了双手与 Google、亚马逊等大公司在人工智能领域竞争。

未知

这个「未知」,其实可以指代许多。

苹果人工智能团队对于 Siri 推出了许多改进方案,像是 Siri X、BlackBird、Pegasus 等等项目。

https://www.wenxuecity.com/data/news/202304/29/4cb3893d2bc9edd60dd0756a0ae3ae0e.jpg

虽然项目的一些成员离开,但这些项目最终都接近完成,随时可以替换或者优化到现在的 Siri 当中。



不过,就如同 John Giannandrea 所提倡的,一个人工智能模型,其实是一个相当复杂的工程,牵一发而动全身。

盲目的修改和替换,可能会引起不可预知的问题。

https://www.wenxuecity.com/data/news/202304/29/62caadf22d912aa8e90adb08a4b38d54.jpg

另外,与亚马逊的 Alexa 或谷歌的 Assistant 等其他语音助手相比,Siri 的回答在很大程度上依赖于人类参与。

也就说,Siri 的数据库有许多人为的限制和干预,经过十几年的修改调整,让这个数据库变得复杂冗长。

而且,也与目前 LLM 大语言模型的数据库工作方式有所不同,它并不能简单的加一个 API 接口就能够顺利的运行起 ChatGPT 和拥有类似的功能。

https://www.wenxuecity.com/data/news/202304/29/8d84ba969d459ade34f23fd47d884f38.jpg

苹果现在所要决定的就是,想要一个 Smart Siri,到底是推倒重来,还是逐层优化。



另外,谁都不否认,苹果公司的盈利、现金流以及庞大的资源调动能力。并且,也有着芯片、终端等等硬件资源和知识储备。

当苹果下定决心全身心投入 AIGC 领域,它可以训练复杂的大语言模型,做出自己的生成式 AI。

https://www.wenxuecity.com/data/news/202304/29/5647de449d912f396d064f2dd19282f0.jpg

但苹果还要决定是否需要「重复造轮子」,还是把眼光、资源投入到如何将 AIGC 运用到终端,嵌入到生态当中。

毕竟那些支持 ChatGPT 等复杂服务的 LLM 目前仍在云端运行,运用到终端生态里,还尚属空白。

在人事调动上,苹果目前更注重于视觉识别的专家,相对来说,也把重心放在了适合 XR 虚拟现实领域。

https://www.wenxuecity.com/data/news/202304/29/9de42b78b63ccc92f8304899658aa0f7.jpg

对于苹果来说,AIGC 行业的技术爆炸,还不到一年,如何运用到苹果产品当中,也还在一个很初步的尝试当中。

而苹果已经准备多年,打算取代 iPhone 成为下一个大趋势的 XR 虚拟现实设备,或许才是苹果当下最该关心,以及着力去发展的产品。

至于把 Siri 变成 Smart Siri,还是变成 Siri Copilot,不妨让 John Giannandrea 所带领的 AI 团队再爬一会儿山吧。
页: [1]
查看完整版本: 苹果Siri语音软件团队内幕曝光:挣扎、斗争、重组(图)