来源：亲爱的数据

（一）关键词：三大套路

大模型火了，大模型的套路也火了。

套路一：

但凡有点科技含量的公司，

没个大模型都对不起“市值”和“估值”。

面子谁不要？

那用开源。

套路二：

说早有布局，

却无论文，

无数据，

无“卡”，

无历史进展，

套路三：

为了“大”而“大”。

谭老师我和腾讯AI科学家深聊：

广义线性模型的时代，腾讯广告也曾追求过参数量大。

然而，这种模型学习能力很一般。

如果只是模型的参数总量高，参与计算的参数量却很少，

这样的“大模型”，没意思。

腾讯在AI这块不算“激进派”，但大模型没玩套路。

腾讯广告将两个大模型用到了广告业务。

参数都是千亿级别。

既然是两个，分工多说两句。

广告大模型提升了广告系统的运算能力，

腾讯混元大模型提升了广告系统的理解和生成能力。

我们先聊广告大模型，再聊混元大模型。

（二）关键词：广告商机转瞬即逝

先聊聊，广告竞争的本质。

从“从前”讲起，

百货商店橱窗里的塑料假人，是展示，也是广告。

后来，美国人研究如何用计算的方法求解广告中的各类问题。

将一部分的计算策略交给机器学习。

早期，广告对机器学习模型的要求，哪怕能力弱一点，算得快一点就可以了。

比如，给一条男士冲浪花裤衩打个广告。

广告系统有三层：

召回，粗排，精排。

每层边选，边匹配。

广告系统里的模型，有些像漏斗。

先粗排，

模型发现：这条花裤衩男的喜欢，女的无感。

再精排，

模型发现花裤权不是所有男性都喜欢，颜色骚气，

大约20岁左右的精神小伙喜欢。

模型必须做到越往下，越匹配，

还为广告主节约广告费。

匹配这个动词很重要。

谭老师也想把漫画“匹配”给喜欢自己作品的读者，

性格不合的那种，确认不了眼神。

拿谭老师常看的视频号来说，

广告系统会猜我对视频的兴趣，从而推荐视频，

猜我对商品的兴趣，从而展示广告。

手机下滑一下，

大约9毫秒，

就得猜到这个瞬间我最有可能的喜好。

这里的猜，就是计算。

模型抓规律很擅长，头部规律好抓，长尾则很麻烦。

偏偏腾讯广告有很多长尾问题。

偏偏用户数量大，

偏偏广告数量大。

而且广告匹配的要求是，不仅要准，还要快。

一句“商机转瞬即逝”，放在这里非常合适。

谭老师刚买一支手机，

广告出手慢了，买前没看到，买后不想看。

“商机转瞬即逝”，慢了，就输了。

这就是广告竞争的本质。

（三）关键词：广告“硬核”简史

2014年，腾讯广告平台实时在线技术完成。

2015年，深度学习技术完成。

这两个“完成”，都指的是全量上线。

在大模型技术爆发前的世代里，

没有什么比腾讯广告在2016年“实时在线学习+深度学习”全量上线完成更重要了。

团队的结论是：

广告平台应该是在更大范围的产品线，

在更长的数据链路上，全面释放模型的威力，

模型做大，不是目的，而是手段。

于是，把模型往大了做。

于是，数据链路拉长。

2020年前后，质变发生了，腾讯广告整个技术思路的转变了。

在腾讯公司副总裁蒋杰的带领下，团队看清了技术方向，

前浪大储备，后浪打硬仗。

狂飙技术，不是自嗨，而是商业需求。

技术朝着有需求的方向推进，终于抵达“大模型界碑”。

2021年10月，发起技术攻坚，

（腾讯员工的说法是：

作为内部发起的革新型项目，

对内称呼为“下一代广告系统”。）

项目包括广告大模型，混元大模型，

一共集结了800余名跨BG团队的同学。

毫无疑问，谁能打破技术难度的瓶颈，谁就是头部科技企业，

再加一个条件，越早越好。

缮甲厉兵，酣战飒然，黄龙痛饮。

劲射火力点。

干得行不行，看看指标吧。

全套指标涉及商业机密，我们抽取其中一个技术指标：

“大规模技术突破之前，精排时延的阈值是70毫秒，突破之后拉到200毫秒，将近3倍左右。”

给广告系统配套大模型，底层软件也是另一境界的考验。

训练这么大的模型，存储，计算，通讯翻倍，甚至量级的提升，这块工程团队下了很大力气。

为了做好底层工作，甚至把部分关键架构重新写了一遍。

把以前好的想法融合进去，大幅增强它的伸缩性、容错能力，支持千亿大模型训练。

这一把，中国科技公司将大规模工程技术做到极致。

方案依然还是这么一个方案，只不过模型规模，整个系统能力等等，不可同日而语了。

腾讯公司副总裁蒋杰带领腾讯广告团队，制定出一套自上而下，全局最优的推进路径，将多个技术团队与业务协同，带队完成了下一代广告系统建设。

广告大模型怎么用？

将资源聚焦于精排，排序能力更好，点击率与转化率绝对值估准。

精排预估准，提升全链的运算推荐效率。

广告大模型能为广告主提供什么“特殊服务”？

因为广告系统的运算能力可以支撑多个小模型同时运行，所以，广告主可以在系统上与腾讯广告再共建小模型，做出更多从广告主业务出发的推荐匹配，提升匹配效率。

有的人，练了屠龙术，结果发现没有龙。

腾讯广告系统“有龙”，所以“屠龙”，

且练成两大屠龙术：

广告大模型和混元大模型。

（四）关键词：腾讯混元怎么用？

广告的复杂环境，也让腾讯混元得到充分打磨。

团队内部对腾讯混元大模型不断自审式发问：

第一重难关：如何把技术搞出来。

第二重难关：这是真实业务场景所需要的技术吗？如何落地？

巧不巧，腾讯混元是多模态的，腾讯广告内容天然也是多模态的。

在这个巧合的背后，腾讯混元从出生开始，就是为“用在哪里”设计的，而不是“套路”。

广告内容是什么？

是广告标题、文字、图片、视频等。

简单说，腾讯混元先做“亿点”广告内容的阅读理解，做完，再将“答案”喂给广告大模型。

据谭老师观察，

以广告大模型提升广告和用户的匹配准确率，

以腾讯混元大模型理解、生成广告内容，包括素材和创意。

小道消息，腾讯混元已经将这项生成能力，用于广告投放前的准备阶段：

“素材创作”“商品合成”“游戏出图”。

（五）关键词：“大”算法思想

（学霸选读）

虽然广告大模型已经很大了（有千亿参数），想用一个大模型把所有的场景都学好，没有那么容易。

腾讯广告大模型核心负责人薛伟博士告诉我，

比如，模型会产生场景之间的负面影响“我学不好，你也甭想学好”。

这种现象叫“负迁移”。广告大模型中，薛伟博士用到了“公共塔”技术。

公共塔，样子像塔，其实是大模型内部独立子网络。

广告模型大，内部子网络丰富，还有商品（Item）塔，用户（User）塔。这类子网络专门学习特征的共性，降低场景之间的干扰。

不同场景参数不同，推荐汽车，不能把推荐手机的参数也算一遍。

大模型的出现，让算法设计空间变大，让设计的余地更大，有机会用算法的思想充分释放大模型的价值。

好马配好鞍，

好产品配好广告。

1997年，苹果手机“非同凡想”广告里面有这样一句话：

那些疯狂到以为自己能够改变世界的人呢，才能真正改变世界。

要我说，这样爽感的广告，再多来几个。

（完）

本文系作者：鸟哥笔记授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

大模型应用