很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
文 / 一灯
过年这阵子最火热的话题,恐怕要数《哪吒2》和DeepSeek。
一个是中国古代神话传说人物,另一个是AI领域的后起之秀。本来八竿子打不着的两家,却在这个春节意外地“相映成趣”。
不少人这阵子可能一直有在关注DeepSeek的进展,也包括那83个小时的保卫战。当他们坐在电影院,看到十二金仙对龙族的争议,看到“捕妖队”抓无辜妖众去炼丹,看到龙族退无可退后的反击,心中或许会十分感慨:果然艺术来源于生活,而生活更加残酷且没有道理。
所以,尽管已经有不少媒体报道过了DeepSeek,但《节点财经》在这里还是想再讲一讲自己所看到的DeepSeek,以及该公司模型以外的事。
这阵子有关DeepSeek公司和旗下AI大模型的介绍已有很多,因此这里我们不再赘述其成绩,就简单聊一聊它对行业的一些启示。
首先,可以“绕过”算力,用算法弯道超车。
以往,大家普遍认为算力是AI的核心,发展AI就是要不断的堆算力、堆GPU。于是我们看到,OpenAI兴起的时候,不仅英伟达(NVIDIA)因此受益,美国也通过禁售英伟达GPU来遏制中国AI发展。
而就在大家烧钱堆算力的时候,DeepSeek选择烧脑改算法。
MLA(多头潜在注意力机制)技术大幅降低了长文本推理成本,MoE(混合专家模型)创新解决了路由崩溃难题,多令牌预测(MPT)显著提升推理速度,这三大创新分别针对 Transformer 架构中的不同瓶颈,成为DeepSeek能够以小博大的关键所在。
这里举个简单的例子,传统的大模型就好比一家拥有众多服务员和厨师的餐厅,每个服务员从头到尾独立负责自己客人的记菜单、传菜、结账、清洁等工作。当复杂的菜品出现时,全部厨师都围上来讨论谁能做、怎么做。
这就可能会出现多个服务员重复记录相同订单、传菜时堵在厨房门口、厨师资源浪费等重复劳动和效率低下的问题。
而在DeepSeek的模型设计中,MLA技术让所有服务员共享一个智能平板,能实时同步订单、桌号、菜品状态(省去重复记录);上菜时,只有负责上菜的服务员工作,其他人在需要时才会介入(按需分工)。这样既能更快地完成任务,又能保证每部分任务的完成质量。
同时,多令牌预测能让服务员在顾客点主菜后,立马建议甜点和饮料,提前准备服务,而不是等顾客一个个点完,从而使服务更加流畅、体验更好。
MoE模型则清楚每个厨师都擅长的菜系,在面对复杂的菜品时,模型能够根据菜品的特点,智能地将其分配给最合适的厨师处理,从而提高处理效率,减少不必要的资源浪费。
这些创新技术与架构的运用,让DeepSeek-R1的预训练在2048块英伟达H800 GPU(性能受限版本)集群上就能完成,费用只有557.6万美元。而OpenAI等企业训练模型,则需要数千乃至上万块Nvidia A100、H100等顶级显卡,动辄数亿美元的训练成本。
可见,当AI行业普遍沉迷于“算力军备竞赛”时,DeepSeek的“出圈”证明:与其疯狂堆服务器,不如优化算法结构,针对技术瓶颈实施“靶向治疗”,才能让大模型甩掉"耗电怪兽"的帽子,开启低成本高性能的新纪元。
其次,可以“绕过”通用,从垂直场景切入。
根据DeepSeek公布的跑分数据显示,DeepSeek-R1在培训后阶段大规模使用强化学习技术,在数学、代码、自然语言推理和其他任务上,其性能可与OpenAI o1正式版本媲美,而价格仅为o1的3%。
但这并不意味着DeepSeek-R1超越了OpenAI o1,毕竟OpenAI优先追求的是“通用智能”,投入大量资金人力,想要的是全能通才的效果。国内企业开发AI大模型也大都沿用这一思路,希望自家大模型没有什么明显的能力短板,快速达到可商用水平。
而DeepSeek选择从垂直场景切入,先追求在部分领域(如数学、代码)的表现更优,再逐步分阶段完善其他领域的能力。这是一种能够快速成长和建立差异化优势的发展策略。
值得一提的是,文心一言作为扎根于中国市场的大语言模型,根据百度官方的介绍,在多项中文评测中,文心一言4.0的表现已经超越了目前最强的GPT-4模型。这意味着在理解和生成中文内容方面,文心一言也已成为了全球最顶尖的AI模型之一。
因此,《节点财经》认为,中国AI企业尤其是创业公司,不必都扎堆死磕“全能大模型”,可选择垂直场景靶向爆破:这样既能规避与通用模型的算力绞杀战,又能通过构建起数据护城河,进而在细分领域闯出一片天。
最后是,可以“绕过”商业,坚持对技术求索。
这次DeepSeek之所以能引起这么大的轰动,除了模型本身表现优异、开发和训练成本大幅降低,还有较为重要的一点是,DeepSeek主张免费开源。
要知道,目前比较知名的其他大模型,无论是国内百度的文心一言、华为的盘古大模型,还是海外的OpenAI、Llama等产品,都基于商业化和竞争考量,要么一开始选择了闭源路线,要么逐渐走向闭源,要么虽宣称开源,但却设立了不少限制,并未做到真正意义上的开源。
相比之下,DeepSeek不仅完全开放代码,还放出了详细的技术报告;不仅开源了自己最大的 671B R1 模型,还帮大家蒸馏量化好了 1.5B~70B 多个尺寸的模型;不仅提供所有的训练数据、训练脚本、论文等,还选择了最宽松的 MIT License 协议,允许任何人免费使用、修改、分发,包括用于商业用途。
DeepSeek创始人梁文锋此前谈及对于开源的构想是,DeepSeek未来可以只负责基础模型和前沿的创新,其他公司在 DeepSeek的基础上构建To B、To C的业务。“这一波浪潮里,我们的出发点,就不是趁机赚一笔,而是走到技术的前沿,去推动整个生态发展。”
在《节点财经》看来,或许是因为背靠千亿量化基金,也或许就是纯粹的理想主义,至少从目前来看,DeepSeek团队重技术突破多过商业变现,要行业繁荣不要垄断优势。
正如英伟达高级研究科学家Jim Fan评论的那样:“我们生活在这样一个时代,一家非美国公司正在让OpenAI的初衷得以延续,即做真正开放、为所有人赋能的前沿研究。”
1月28日,多位美国官员指出,DeepSeek是“偷窃”,正对其影响开展国家安全调查。随后,部分国家和组织也开始“重点关注”DeepSeek:
● 爱尔兰数据保护委员会向DeepSeek发出信函,要求其提供有关如何处理爱尔兰公民数据的详细信息;
● 意大利数据保护机构也采取了类似措施,他们认为DeepSeek对意大利数百万人数据造成风险,DeepSeek需要在20天时间里作出回应;
● 欧洲消费者组织还认为,DeepSeek在保护和限制未成年人方面的做法还不够健全,从年龄验证到未成年人数据处理都没有明确的强制执行方案;
......
而据彭博社报道,近期OpenAI与微软展开了一项联合调查,针对DeepSeek去年使用OpenAI API接口的账户进行审查,并以涉嫌违反服务条款的模型蒸馏为由,取消了他们的访问权限。
在国内舆论场,也有一些所谓的“极客”开始对DeepSeek的技术细节发起攻击,声称DeepSeek涉嫌“抄袭”或“技术不透明”,并试图通过论文和数据来证明这一点。
当然,以美国为首的西方国家在意的不止DeepSeek。
华尔街日报日前曾发布报道《It’s Not Just DeepSeek. A Guide to the Chinese AI Companies You Need to Know》,提醒美国人要注意哪些中国大模型公司,并着重指出,百度在中国最早推出面向公众的生成式AI文心一言,如今已经拥有4.3亿用户。
如果说这些明面上的指控是真是假还有待查证,不能认为是西方国家在刻意抹黑、打压、搞认知战,但在1月25日~29日期间,DeepSeek服务器集群莫名受到每秒超过2.3亿次DDos恶意请求,攻击总量相当于整个欧洲三天的网络流量总和。
据了解,为了保护DeepSeek,360安全响应中心第一时间拉响警报,锁定攻击特征码;华为云启动流量清洗系统,为服务器搭建防护盾;中国红客联盟不到12小时就确定了攻击源头全部来自美国,并予以反击。
与此同时,网易雷火的游戏服务器阵列紧急转换为流量缓冲池;大华股份用AI识别0.00017%的真实用户,菜鸟网络贡献物流算法优化带宽,钉钉开通紧急通讯确保指挥畅通......阿里云、海康威视、泰山云、新华三等企业也都纷纷加入DeepSeek保卫战,贡献自己的力量。
1月29日晚8点,经过83个小时的鏖战,中国互联网企业成功将攻击流量压制97.2%,捍卫住了DeepSeek和中国AI产业尊严。
然而,这场中美AI角力下的网络安全保卫战只是一个开始。据奇安信XLab实验室监测发现,1月30日凌晨,针对DeepSeek(深度求索)线上服务的攻击烈度突然升级,其攻击指令较1月28日暴增上百倍。
并且,至少有2个Mirai变种僵尸网络参与攻击,分别为HailBot和RapperBot。此次攻击共涉及16个C2服务器的118个C2端口,分为2个波次,分别为凌晨1点和凌晨2点。
说好的公平竞争、创新取胜,结果是明枪暗箭、防不胜防。
说实话,尽管DeepSeek在模型本身和创新路径上确有成绩,但远没有达到超越OpenAI、算法“封神”的地步。毕竟算力才是大模型可持续发展的必要条件,也是我们的短板,尽管DeepSeek找到了一些优化算力使用的方法,但这并不意味着算力需求变得可有可无。
因此,在《节点财经》看来,DeepSeek的出现,还算不上是技术上的革命性突破,更多的是让大家开始重新思考如今AI领域的基础研究角度、商业层面的既有模式。但当下,DeepSeek却得到了全球“热度”,无所不用其极的围剿,不亚于当年对付华为。
这样的氛围中,心虚的是谁?带节奏的是谁?想要霸权永固的又是谁?其实不言而喻。
不知是真的巧合,还是过度联想,看《哪吒2》总觉得“封神大战”就像中美角力;无量仙翁抓妖怪炼丹提升神力,代表的是美国收割全球资产、打压异己;而龙族助哪吒反击玉虚宫,则像不久前的DeepSeek保卫战。
我与DeepSeek讨论了服务器被攻击事件与《哪吒2》电影内容,并要求其总结
DeepSeek就像是初露锋芒的哪吒,也是纯粹的理想主义者,正试图以技术突破打破封锁,用开源生态重构行业规则。
未来,DeepSeek能走多远、能开源多久尚未可知,但这想要改变AI世界的想法,当下也足以令人兴奋。
毕竟,“因为我们都太年轻,不知道天高地厚。”
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)