很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
出品 | 微果酱(wjam123456)
最近一段时间,谷歌的AI大模型进展吸引了不少关注。
但在大家都搓着手,试图等着看谷歌如何逆风翻盘的时候,AI大模型领域的霸主OpenAI再次传来重磅消息。
根据外媒The Information的报道,OpenAI即将推出多模态模型GPT-Vision,文章标题毫不客气地表明这是用来回击谷歌的。
虽然新版本还没有真正来,但是已经足以让我们窥见这个赛道的下一阶段竞争重点——多模态。
根据The Information的爆料,OpenAI正准备在GPT-4的基础上推出图像理解功能GPT-Vision。这相当于是在给GPT-4叠buff,挤牙膏式地完善它,反正目前公认的AI一把手还得是GPT-4。
此外,报道中还提到,OpenAI可能在GPT-Vision之后推出代号为“Gobi”的大模型。和GPT-4不同,所谓“更强大的”Gobi从一开始就是按照多模态模型去构建的。
外界把这个全新的大模型锁定为GPT-5的有力候选,因为大部分人并不相信此前OpenAI的首席执行官兼联合创始人Sam Altman在麻省理工学院活动中的辟谣:
毕竟当时这段表态主要还是用来回应公开信《暂停AI巨型实验》。3月29日,包括特斯拉CEO埃隆·马斯克、苹果联合创始人Steve Wozniak、图灵奖得主Yoshua Bengio在内的数千位科技界人士联名呼吁,在6个月内暂停开发比GPT-4更为强大的AI系统,以留出时间解决AI的安全与伦理问题。
就在本月初,DeepMind联合创始人、现Inflection AI的CEO Mustafa Suleyman在一次访谈中表示自己认为OpenAI正在秘密训练GPT-5。Suleyman把多数人心里的猜测摆到了台面上,压力重新给到了OpenAI。
不过现在谈论GPT-5或许还是太早了,因为OpenAI至今没有对相关消息作出回应。除了代号Gobi的全新大模型有可能是传言中的GPT-5,其余我们一概不知。甚至根据外媒消息,OpenAI似乎还没有开始训练Gobi。
相对来说,GPT-Vision的情况更加有迹可循。
目前有不少人猜测,GPT-Vision很可能是此前就在GPT-4的3月发布会上演示过的多模态功能。当时的GPT-4仅根据一张简单的手写草图就生成了网页代码,震惊全世界。
但在一时惊艳之后,除了提供给一家为盲人创造技术的公司Be My Eyes之外,功能更新和实际使用中都再没有这方面的信息,包括文生图等功能。
其原因或许可以从《纽约时报》7月的一篇报道中推断,OpenAI担心该功能可能被滥用于面部识别等方面。再结合Sam Altman此前辟谣时提及的,“OpenAI正在解决公开信中忽略的基于GPT-4的各种安全问题。”相关的安全顾虑或许已经有了解决方式。
也意味着,这种屏蔽很可能要迎来放开了。
按照The Information的说法,OpenAI希望以“GPT-Vision”的名义更广泛地提供图像理解,将为GPT-4打开许多新的基于图像的应用程序,例如生成匹配图片的文本等。
同时,还有传言称DALL-E 3也在开发中,可能会集成到ChatGPT或GPT-4中。其与GPT-Vision都可能在11月6日的OpenAI开发者大会上公布,因为OpenAI首席执行官Sam Altman曾经如此说道:
总的来说,虽然GPT-5还没来,但GPT-4要发力多模态,新一轮AI刷新科技观的热潮或许不远了。
在这次对OpenAI新动作的报道中,中外媒体观点出奇一致,基本都认为是冲着谷歌的Gemini去的。
根据媒体9月14日援引三位直接知情人士消息称,谷歌已向一小部分公司提供了Gemini的早期版本,通过公司的云计算服务出售给企业,意味着谷歌考虑将其纳入消费者服务,Gemini的发布或许在即。
Gemini被称为谷歌的集大成之作,从今年4月就一直隐隐有消息传出,项目的参与者包括了原DeepMind创始人Demis Hassabis等大牛,谷歌创始人Segey Brin也亲自加入对Gemini的训练。
上个月底,SemiAnalysis的分析师Dylan Patel和Daniel Nishball曝光了更多相关消息。
根据现有信息,我们能够对Gemini有以下的认知:
1、初代Gemini应该是在TPUv4上训练的,且选择使用较少的芯片数量,以保证芯片的可靠性和热插拔。目前其已开始在TPUv5 Pod上训练,算力比训练GPT-4的要大 5 倍。
2、Gemini的训练数据库为Youtube上93.6亿分钟的视频字幕,总数据集大小约为GPT-4的两倍。
3、Gemini由一组大型语言模型组成,可能使用MOE架构与投机采样技术,通过小模型提前生成token传输至大模型评估,提高总推理速度。
4、Gemini支持聊天机器人、总结文本或生成原始文本(如电子邮件草稿、歌词或新闻文章)、生成原始图片等功能。
5、Gemini支持帮助工程师编写代码,谷歌希望其提高开发人员的代码生成能力,以追赶微软的GitHub Copilot代码助手,后者依赖于OpenAI。
6、谷歌员工还讨论过利用Gemini来实现图表分析等功能,比如要求模型解释图表的含义,及使用文本或语音指令来浏览网页或其他软件。
7、Gemini有不同大小版本,支持开发者购买简化版处理简单任务,足够小的版本可以在个人终端运行。
值得注意的是,相比GPT-4,Gemini有一个优势——除了网络公共信息外,还可以利用谷歌从其消费产品中获取大量专有数据。因此,有相关人士认为:
尽管Gemini还没有真正登场,但已经有不少人表达了看好。在前面提及的Dylan Patel和Daniel Nishball的文章中,也有类似的观点:
我们可以发现,Gemini的每一项都在和GPT-4作比较,当然这是不可避免的情况。毕竟在ChatGPT横空出世之前,手握AI利剑的还是谷歌。
所以大众的共识都是——
基于此,谷歌也不得不更加努力,加速证明自己仍然能在AI一道上拿分。谷歌选择直接偷家,趁着OpenAI还没拿出真正的多模态模型之前,试图抢先在高地插上自己的旗子。当然,OpenAI并不打算放任谷歌追击,这也就有了此次的GPT-Vision和Gobi。
这也指出了下一阶段AI竞争的重点,便是各家正在内卷的多模态。毕竟文字形式的生成式AI已经毫无新鲜感,再智能也只能屈居于ChatGPT的荣光之下。
不过,发展至今日,AI的战场上已经不是两军对垒的局面了,谷歌和OpenAI不过是混战中较显眼的巨头。
同样需要盈利的这两者都在大模型的项目中加入了商业化的部分,比如对企业方的政策。但另辟蹊径的后来者Meta,走的是开源的路子,一直在不断发布新功能,主打一个量多还免费。
很难评,大家会不会为了成本而选择Meta。
可以说,现在的AI混战已经到了胶着的白热化阶段,下一个冲出来的会是谁,让子弹再飞一会儿吧。
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)