APP推广合作
联系“鸟哥笔记小乔”
通义千问:站稳本土开源大模型C位
2023-12-04 13:32:34

如果要说谁是这波大模型浪潮最大的受益者,那大概有两个玩家的名字是毫无争议的:一炮打响并且目前仍然保持优势的OpenAI和给人工智能行业卖军火的英伟达。而在这两家公司之外,要再顺着榜单找个“第三者”出来,很多人的答案应该是微软。 

但事实上,微软股价虽然涨幅不小,但同期苹果和谷歌这些公司也有51%的涨幅,亚马逊股价更是有70%的上涨。而从下面这张股价走势图可以发现,真正在这个期间走出逆天行情的其实是Meta。推动Meta股价上涨的因素是一系列的,比如业绩回暖、去年低基数等。但毫无疑问,Meta也是这波大模型浪潮中吃到最多红利的硅谷大厂之一。

美国头部科技公司今年以来的股价变动情况,《新立场》制图 

Meta参与大模型角逐的方式跟OpenAI的“闭源模式”完全相反。 

它先是在2月份面向“学术研究用途”开放了最早的LLaMA模型,包含从70亿到650亿不同参数规模的版本。而最新版本的LLaMA-2是在7月份发布的,对应有70亿、130亿和700亿三种参数规模。 

在国内的互联网大厂中,阿里云的通义系列是最早开源并允许商用的大模型,从8月起陆续开源了包括Qwen-7B和Qwen-14B在内的多个版本。两个模型都在多个权威评测中超越同等规模模型,Qwen-14B部分指标甚至接近LLaMA-2-70B。 

然而坦率地说,跟国外同行相比,国内本土的大模型开源生态一直以来都有些慢半拍。同时很多模型的能力跟LLaMA-2这样的国外标杆相比,也存在差距。这也是为什么在阿里云此前预告将要开源720亿参数大模型过后,国内的开发者和研究人员充满期待的原因。

终于,在12月1日,阿里云举办通义千问发布会,开源了通义千问720亿参数模型Qwen-72B。Qwen-72B在10个权威基准测评中创下开源模型最优成绩,成为业界最强开源大模型,性能超越开源标杆Llama 2-70B和大部分商用闭源模型。未来,企业级、科研级的高性能应用,也有了开源大模型这一选项。 

从Qwen-72B的表现来看,它不只是填补了中国LLM开源领域的空白,更有希望凭借业界开源模型中最强的性能引领新一轮行业潮流。 

01、本土开源大模型的担子得有人担

今天世界上运行数量最多的操作系统是各种形式的Linux,它们跑在数以百万计的移动终端、服务器和嵌入式设备上,构成了我们如今赖以生存的信息世界的骨干。跟Windows或者macOS相比,Linux最大的区别在于它从诞生起就是完全开源免费的,你随时可以在Torvalds的GitHub账号上找到任何历史版本的Linux内核的任何一行源代码。 

跟闭源相比,开源赋予了开发者在已有版本的基础上,根据自身需求定制化的选项。同时,对于那些相对庞大但又并不附属于某个商业组织的项目,开源也提供了吸收社区力量“众筹”实现目标的方式。 

正是由于上述特点,以及Stallman等人开创的历史传统,开源在程序员群体里接近于象征正义的理想主义。大概可以佐证这点的一个事实是,纳德拉在过去几年里如何通过VS Code、TypeScript、WSL等一系列项目扭转了微软的风评。 

大语言模型的开源本质上仍然具有同样的意义。 

从生态建设、B端落地以及围绕大模型展开科学研究看,开源的优质大模型具有不可替代的作用。它们可以帮助用户简化模型训练和部署的过程,使得用户不必从头训练模型,只需下载预训练好的模型并进行微调,就可快速构建高质量的模型或进行相应的应用开发。如果只能像OpenAI那样,把最大的灵活性限制在了API调用这个层级,那无疑会对大模型的发展造成阻碍。

正如谷歌那份泄露的备忘录所提及的那样,在Meta开源LLaMA过后,开源社区基于此衍生出的一系列创新令作者得出了“我们没有护城河,OpenAI也没有的结论”。在这位谷歌内部的研究人员看来,开源社区的力量并不弱于头部科技公司,甚至有些被他们视为“major open problems”的问题,已经或者正在被解决。最典型的是有关大模型的“伸缩问题”(the scaling problem),作者的原话是: 

训练和实验大模型的门槛已经从一个大型研究组织降低到了一个人,一个晚上,和一台性能还过得去的消费级笔记本。 

不过,如本文开头提到的,跟国外的标杆开源模型LLaMA-2相比,国内本土的开源大模型此前在性能方面其实存在一定差距。而且LLaMA本身不是为中文打造的,因此本土化适配有诸多细节都还需要打磨。 

这种情况下,无论是出于现实的直接需要,还是说为本土从业者打造一个长期的大模型产学研生态,推出国内的开源高性能大模型都是迫切的。

由于从最底层开始研发大模型仍然是个相当“资源密集型”的任务,所以这个担子只能期待一些头部的科技公司来干。目前来看,国内这方面走得最前的还是阿里云。 

在今年8月3日,阿里云开源了通义千问70亿参数模型,包括通用模型Qwen-7B和对话模型Qwen-7B-Chat。两款模型都直接上线魔搭社区,开源、免费、可商用。这使得阿里云成为国内首个加入大模型开源行列的大型科技企业。 

不到一个月,在8月25日,阿里云又推出并直接开源了大规模视觉语言模型Qwen-VL。 

到9月25日,阿里云又开源了通义千问140亿参数模型Qwen-14B及其对话模型Qwen-14B-Chat,同样完全免费可商用。 

就各项权威指标看,从Qwen-7B到Qwen-14B的各个模型在同参数级别都全面领先,具有明显的统治力。这些模型先后冲上HuggingFace、Github的trending榜单。目前累计下载量突破150万,开源社区出现了150多个基于Qwen的模型,多个知名工具和框架都集成了Qwen。 

不过受限于参数规模限制,即便是140亿参数的Qwen-14B跟LLaMA-2-70B比起来,也只能在部分指标上做到接近。而今天新开源的Qwen-72B,在同等参数规模的情况下,性能已经超越了Llama2-70B和大部分商用闭源模型。 

Qwen-72B在10个权威基准测评中都创下了开源模型最优成绩,堪称业界最强开源大模型。 

模型还搭载了强大的系统指令(System Prompt)能力,用户只用一句提示词就可定制自己的AI助手,让大模型具备角色扮演能力。此外,Qwen-72B在数学、逻辑推理、复杂语义理解等能力上进一步提升。 

只需一条指令就能让模型做角色扮演 

除Qwen-72B以外,今天阿里还开源了18亿参数模型Qwen-1.8B和音频大模型Qwen-Audio。至此,通义千问共开源18亿、70亿、140亿、720亿参数的4款大语言模型,以及视觉理解、音频理解两款多模态大模型,实现“全尺寸、全模态”开源。

阿里云CTO周靖人表示,开源生态对促进中国大模型的技术进步与应用落地至关重要,通义千问将持续投入开源,希望成为“AI时代最开放的大模型”,与伙伴们共同促进大模型生态建设。 

02、模型选型指南

在Qwen-72B补全了国内开源大模型生态的版图过后,未来一段时间围绕大模型进行的创新创业应该会呈现一个新的高潮。不过需要注意的问题是,国内目前市面上有超过100个开源大模型,但其中只有少数是高质量的。因此,从业者选择适合自身场景的大模型时,其实需要有一些审慎考量。 

华东理工大学X-D Lab核心成员颜鑫就表示,他们做模型选型主要关注几个问题: 

是否可持续。我们没有资源从头训练一个基座模型,选模型的第一个考量就是,它背后的机构能不能给模型很好的背书,能不能持续投入基座模型及其生态建设?为跟风、吃红利而生的大模型不可持续。

是否有生态。我们希望选择主流的、稳定的模型架构,它能最大限度发挥生态的力量,匹配上下游的环境。通义千问开源模型是符合要求的。

是否满足场景需求。心理领域需要温柔、知性、能共情的大模型,千问非常擅长共情;教育大模型要有丰富的知识、优秀的计算能力和调用外部工具的能力,千问很强。不同厂家的模型性格各异,从知识结构来说,有的模型像文科生,千问更像理科生。

而在《新立场》看来,从头做开源大模型毕竟属于“AI重工业”,这种情况下选择大公司的开源产品会更靠谱。另一个需要考虑的因素是,鉴于大模型本身在训练和部署方面的特性,其从一开始就跟云计算联系紧密。 

这里我们并不只是指OpenAI跟微软Azure之间的那种联系,更多是想强调云计算厂商作为企业数字化转型的关键推动力量,围绕大模型其实建立了一揽子的基础设施。对创业公司来说,这会节省很多时间和精力。 

在国内大厂中,云计算和高质量开源大模型两条腿走路的,目前也确实只有阿里云一家。从这个角度看,阿里的云计算服务和Qwen系列开源大模型是本土创业者的最佳选择。 

阿里云围绕大模型打造了相当便捷和全面的一整套平台。用户可在魔搭社区直接体验Qwen系列模型效果,也可通过阿里云灵积平台调用模型API,或基于阿里云百炼平台定制大模型应用。阿里云人工智能平台PAI针对通义千问全系列模型进行深度适配,推出了轻量级微调、全参数微调、分布式训练、离线推理验证、在线服务部署等服务。 

根据官方信息,阿里云目前托起了中国一半以上的头部大模型公司,通义千问也正通过开源帮助中国市场培育大模型生态。以初创公司未来速度为例,其推出的Xinference平台,基于QWen开源大模型,内置了分布式推理框架,提供高吞吐量、低延迟、容错、权限管理等企业特性,企业用户能够在计算集群上轻松部署并管理模型,更低门槛迈入AI时代。 

此外,还有大量开发者基于Qwen开发了自己的模型和应用,基于Qwen的行业模型涉及各行各业,包括心理行业、医疗行业、教育、自动假设、计算机等,如蚂蚁集团的CodeFuse-Qwen为基于Qwen的代码领域专属模型、 华东理工大学薛栋团队基于Qwen开发了漫谈心理大模型、越南开发者基于Qwen开发了越南语大模,为下游客户开发基于行业大模型的产品等。 

CTO周靖人在去年的云栖大会上首次提出了“模型即服务”这个概念,现在看来这给阿里云带来了先机。

03、写在最后

从头开始训练建设一套基础大模型,目前仍然是大厂和少数头部创业公司的“自留地”,绝大部分企业级用户只能在大厂模型基座上做文章。 

这大概可以分成两条路,调用大厂提供的API,或者在开源大模型基础上做定制。而如果要追求更高的灵活性、可控性和性价比,后者显然更合适。 

随着今天阿里云Qwen-72B等模型的发布,开源大模型社区,尤其是本土生态,迎来了“史诗级加强”。对于有志于在这个堪比“工业革命”的浪潮中一展身手的玩家来说,不妨先去阿里云的魔搭社区看看。

*题图及文中配图来源于网络。 

新立场NewPosition
公众号二维码
分享到朋友圈
收藏
收藏
评分

综合评分:

我的评分
Xinstall 15天会员特权
Xinstall是专业的数据分析服务商,帮企业追踪渠道安装来源、裂变拉新统计、广告流量指导等,广泛应用于广告效果统计、APP地推与CPS/CPA归属统计等方面。
20羽毛
立即兑换
一书一课30天会员体验卡
领30天VIP会员,110+门职场大课,250+本精读好书免费学!助你提升职场力!
20羽毛
立即兑换
顺丰同城急送全国通用20元优惠券
顺丰同城急送是顺丰推出的平均1小时送全城的即时快送服务,专业安全,准时送达!
30羽毛
立即兑换
新立场NewPosition
新立场NewPosition
发表文章83
新立场NewPosition
换个角度看世界
确认要消耗 羽毛购买
通义千问:站稳本土开源大模型C位吗?
考虑一下
很遗憾,羽毛不足
我知道了

我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。


一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
    1)反对宪法所确定的基本原则;
    2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
    3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
    4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
    5)煽动民族仇恨、民族歧视,破坏民族团结;
    6)破坏国家宗教政策,宣扬邪教和封建迷信;
    7)散布谣言,扰乱社会秩序,破坏社会稳定;
    8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
    9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
    10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
    11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
    12)危害未成年人身心健康的;
    13)含有法律、行政法规禁止的其他内容;


2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
    1)轻蔑:贬低、轻视他人及其劳动成果;
    2)诽谤:捏造、散布虚假事实,损害他人名誉;
    3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
    4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
    5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
    6)谩骂:以不文明的语言对他人进行负面评价;
    7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
    8)威胁:许诺以不良的后果来迫使他人服从自己的意志;


3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
    1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
    2)单个帐号多次发布包含垃圾广告的内容;
    3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
    4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
    5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
    6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
    7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
    8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。


4. 色情低俗信息,主要表现为:
    1)包含自己或他人性经验的细节描述或露骨的感受描述;
    2)涉及色情段子、两性笑话的低俗内容;
    3)配图、头图中包含庸俗或挑逗性图片的内容;
    4)带有性暗示、性挑逗等易使人产生性联想;
    5)展现血腥、惊悚、残忍等致人身心不适;
    6)炒作绯闻、丑闻、劣迹等;
    7)宣扬低俗、庸俗、媚俗内容。


5. 不实信息,主要表现为:
    1)可能存在事实性错误或者造谣等内容;
    2)存在事实夸大、伪造虚假经历等误导他人的内容;
    3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。


6. 传播封建迷信,主要表现为:
    1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
    2)求推荐算命看相大师;
    3)针对具体风水等问题进行求助或咨询;
    4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;


7. 文章标题党,主要表现为:
    1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
    2)内容与标题之间存在严重不实或者原意扭曲;
    3)使用夸张标题,内容与标题严重不符的。


8.「饭圈」乱象行为,主要表现为:
    1)诱导未成年人应援集资、高额消费、投票打榜
    2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
    3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
    4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
    5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序


9. 其他危害行为或内容,主要表现为:
    1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
    2)不当评述自然灾害、重大事故等灾难的;
    3)美化、粉饰侵略战争行为的;
    4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。


二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。


三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)

我知道了
恭喜你~答对了
+5羽毛
下一次认真读哦
成功推荐给其他人
+ 10羽毛
评论成功且进入审核!审核通过后,您将获得10羽毛的奖励。分享本文章给好友阅读最高再得15羽毛~
(羽毛可至 "羽毛精选" 兑换礼品)
好友微信扫一扫
复制链接