APP推广合作
联系“鸟哥笔记小乔”
GPT-4o恩怨开局,Google再次躺枪
2024-05-20 10:54:58

作者|吴狄

编辑|胡展嘉

运营|陈佳慧

出品|零态LT(ID:LingTAI_LT)

要说全世界戏最多的AI,非OpenAI莫属。

这家公司简直就是热搜制造机,刚推出新产品,就送走老领导,刚和苹果结盟,就逼跌谷歌股价;连OpenAI高管的一个离职动态,都能引发网上的OpenAI离职潮。

短短几天时间,以OpenAI为中心,接连引发地震级别的事件。不仅可能对OpenAI这家公司的未来产生重大影响,甚至有可能导致整个科技行业的重新洗牌。

1、仅凭语音对话就撑起无限可能的GPT-4o

美国时间5月13日,OpenAI推出了全新旗舰产品GPT-4o。在发布会上,OpenAI仅仅展示了GPT-4o的语音对话能力,没有炫酷的视觉效果、没有狂拽的新功能,但仍然再次引发了一波行业地震,因为GPT-4o向全世界展示了其它AI产品可能敢想,但没敢干的事情。

用上GPT-4o后,用户可以随时打断AI的施法,不要额外任何操作。而AI则能够根据新的对话内容,结合上下文继续进行交流,甚至可以通过语气腔调来识别用户的情绪,并以此给出反馈。

用过AI对话产品的家人,应该对下面那个“终止”按钮不陌生。

这个按钮是用来让AI闭嘴的。比如你让AI讲个故事,听了个开头想让它换一个,就需要用到这个按钮。如果是隔空喊话的AI,则需要喊出一个“安全词”,比如“hey siri”“小度小度”等。

这种体验对日常交互来说非常难受,但还有难受的。

用过AI产品的家人,应该对AI那种尘世闲游级别的响应速度不陌生。

举个例子,GPT-3.5的延迟大概是2.8秒,GPT-4的延迟高达5.4秒。相比而言,特斯拉Model 3的百公里加速是2.1秒。

这是因为以前的工作流程是先由一个语音转文字的模型,将输入的语音转成文字,再由负责生成答案的模型输出文字内容,最后由文字转语音的模型把文字转成语音。这三个模型互不干涉。这就导致在整个过程中,大量背景信息丢失了。

看过综艺节目里的“传声筒”游戏吧?

AI比这个更搞笑。因为文字不能展示语音语调,所以当很多人一起说话的时候,GPT没办法判断说“俺也一样”的是关羽还是张飞,也不知道“我在5点20睡觉13点14准时醒”是生活习惯还是歌词。

如果你想让AI根据声音给出反馈,比如让GPT-4帮忙判断一下深呼吸做的到不到位,它只会甩给你一篇教程,让你自己对照体会。

这其实是目前是市面上AI的通病,但GPT-4o的出现,让事情发生了巨大的转变。

技术层面,GPT-4o把3个互不相关的模型整合成了一个Omni模型,文字、图像、声音的输入和输出均由这个模型进行处理。这样就提高了GPT的响应速度,根据OpenAI官方介绍,GPT-4o对音频输入的平均响应时间只有0.3秒。实际体验是,和GPT-4o对话的时候,基本感觉不到延迟。

不仅如此,因为GPT-4o掌握了所有背景信息,从而能够识别说话主体,甚至还能识别情绪,并根据情感状态给出反馈。

换句话说,AI从此具备了“察言观色”的能力。想象一下,以后AI能根据你说话的语气判断你的情绪,听到你声音虚弱马上帮你想好请假话术;男/女朋友在场的时候自动屏蔽前任信息提示;甚至在你翘班蹦迪的时候,模仿你的腔调去应付老板…

这么智能的AI目前OpenAI也不敢想。实际上,他们在官网上谦虚的表示,公司头一次尝试GPT-4o这种模式,自己也在摸索这个模型的能力和短板。

目前GPT-4o已经可以被用户使用了,不过免费用户每天使用GPT-4o的次数是有限的,而GPT-3.5则是不限量供应。两者的区别在于,可能不是那么容易感受出区别。另外ChatGPT也将迎来桌面端app,用户在电脑上也可以和ChatGPT对话了。

2、一边推出新产品,一边送走老领导

就在OpenAI为新产品造势的时候,团队创始成员之一、奥特曼罢免风波关键人物、OpenAI超对齐项目创始人、首席科学家Ilya Sutskever宣布退出。几个小时后,超对齐项目负责人Jan Leike宣布离职。

Leike的离职动态迅速引发了一股“I resigned from @OpenAI”的“离职潮”,更具体的内容可以观看我们的视频。

而离开OpenAI后的第一天,也就是美国时间5月17日下午,Leike发了一连串动态,表示自己一直都非常热爱自己的团队和工作,此次无奈离职,是因为和现在核心管理层的理念分歧到达了无可调和的地步。

他说自己来OpenAI是冲着这里的学术氛围和对AI安全的宏愿,然而现在的OpenAI高层只在乎出爆款。

他还表达了对OpenAI走向AGI的担忧,强调OpenAI必须是一个安全先行的AGI公司,话里话外都透露出了丝丝苦涩。

安全,同样也是Ilya的执念。正是出于对AGI不可知的未来的担忧,才有了OpenAI的超对齐项目。

如今,随着两位负责人的离开,超对齐项目组已经彻底解散,项目组成员被拆散到不同研究领域。相当于是为现在每个研究领域,都配备了一个安保人员。

相比Leike,Ilya的理由平平无奇。他表示“将投身于某个对我个人来说,具有非凡意义的项目”,项目细节将会在未来公开。

在分手信中,Ilya不出意外的表扬了萨姆奥特曼、Greg Brockman、Mira Murita对OpenAI的贡献,同时也“坚信在三位的领导下,OpenAI将会构建一个安全高效的AGI”。

这句话现在听起来,既是客气,也是恳求。

而奥特曼在夸奖了Ilya并表示遗憾后,宣布Ilya的位置将有上图中左一Jakub Pachocki接手。

尽管分手双方都表现出了应有的风度,不过经历了种种风波后,相信各位看官应该都心照不宣。

紧接着,Google AI老大Jeff Dean就在Ilya下面回复了一条非常暧昧的评论:我好喜欢和你相遇,即便只是一起喝杯咖啡。

看得出,Google这次是真的有点着急。

3、苹果OpenAI结盟在即,谷歌孤立无援四面楚歌

曾经一度是AI领头羊的Google,如今却被OpenAI吊打:只要OpenAI赶在Google后面推出新产品,Google必然被抢风头;只要Google晚OpenAI一步推出新产品,必然淹没在GPT的热浪中。

就在OpenAI推出GPT-4o的第二天,谷歌在Google I/O上推出了Gemini 1.5 Pro。相比OpenAI的Spring Update,Google I/O要正式的多,推出了对标Sora的视频生成工具Veo等,并展示了被Gemini 1.5 pro加强后的产品,包括Google助手、搜索、Photos等等。

首席执行官Sundar Pichai表示,新产品“提供了迄今为止所有基础模型中最长的上下文窗口”。

谷歌副总裁兼Gemini体验总经理Sissie Hsiao表示,Gemini 1.5 Pro很快将能够处理一小时的视频内容或超过3万行的代码库。

Google AI助手的新功能Project Astra让人印象深刻。通过手机摄像头,智能助手可以识别出镜头中的物体,无论桌面上的橘子、电脑屏幕里的代码,还是手绘在白板上的图案。

尤其是在问了一圈AI各种问题后,演示人员突然问AI“你看见我的眼镜了吗?”AI表示看见了,并且指出了位置,瞬间引爆全场。

更让人激动的是,现在我们有机会在Google搜索体验AI功能了,只不过可能需要一点小法术才能召唤出来。

然而,他们最有热度的消息,是让Gemini观看GPT-4o的发布会。

或许Gemini最能证明自己、最能刷出存在感的途径,就是整合到iPhone中。这样一来,苹果提升了产品的AI浓度,Gemini也实现了破圈。但跟苹果的谈判八字还没一撇呢,又被OpenAI截胡了。

据彭博社报道,苹果即将与OpenAI达成合作协议,苹果用户有望在iOS 18上用上被GPT加强过的Siri。消息一出,Google股价大跌。

可想而知,一旦OpenAI和苹果建立合作关系,作为OpenAI背后的最大金主,微软必将给Google的搜索业务带来更大的长期风险。

不过,在OpenAI没有完全搞明白GPT的思维逻辑之前,预言Google的败局似乎还为时过早。

4、GPT仍然没能解决幻觉和胡编的问题

GPT-4o中的o,是拉丁文Omni的首字母,意为“全部的”“每一个”或“全面的”,意味着该产品在处理多种语言和模态(如文本、音频和视觉)方面,具有十分全面的能力。

尽管OpenAI表示,GPT-4o的出现,标志着我们向“更自然的人机交互”又近了一步。然而其背后的运行方式、思维逻辑仍然成谜,OpenAI自己对GPT突然获得“指数级进化”的预测能力,毫无头绪。

于是你就看到了这样的搞笑一幕。

当你用英文询问GPT“第一头游过英吉利海峡的大象是谁”,GPT会煞有介事的告诉你,是一只叫做Jumbo的亚洲象。但同一个问题,换成中文就会得到一个十分合理的回答。

也就是说,尽管GPT可以在不同语言之间自由切换,但它们理解一个问题的方式似乎存在着差异,不免让人对Omni产生怀疑。

尤其是当你用同样的问题问另外一个AI,它却给出了完全合理的回答的时候。

类似的奇怪回答层出不穷,比如问它圆周率最后5位数字,是这么回答的。

尽管OpenaI很快修复了这些“热门bug”,但也不免让人产生一个疑问:GPT-4o背后,到底有多少只能多少人工?GPT-4o到底是离AGI更近了一步,还是围着AGI又绕了一圈呢?

零态LT
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
零态LT
零态LT
发表文章415
最独到的商业洞察
确认要消耗 羽毛购买
GPT-4o恩怨开局,Google再次躺枪吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接