很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
国庆期间的一次出游,让我对推荐策略领域的一个问题产生好奇,苦苦思索却不得解之后,只能求助于一位资深&优秀的推荐策略产品经理(他还特意为此开通了公众号沉淀这些内容?),于是就有了今天这篇问答
哦,那个让我好奇的问题是——推荐算法,到底能不能理解我们人类的品味?!
古牧君:
马丁我跟你讲,我国庆去武夷山玩儿,差点就被小红书的推荐策略摆了一道!我去之前特意搜索并收藏了一些看起来不错的游记,但到了当地之后,你猜怎么着,幸亏我没去!
马丁:
咋了?我没空跟你说相声,快说快说
古牧君:
嘿,就是有一个景点本来我计划最后一天去,但前两天在当地打车的好几个司机,听说我打算去那个什么小红书网红小众景点之后,都纷纷劝我不要去。人家原话是:
“这个景点啊,其实没有武夷山主景区的那个天游峰好看,差挺大的。主要就是因为不在景区里面,免费,所以好多穷游的人去打卡然后各种找角度拍,没想到就网红了?我们当地人是肯定不会去那里的”
我一边庆幸,一边职业病犯了,我就想:小红书推荐给我的那些笔记,真的互动数据都挺好的,说明真的是很多人喜欢看的,而且评论也没看到有翻车的迹象,但我真的就是不喜欢这种网红穷游小众打卡景点。是不是推荐算法没有办法很好的理解我的口味,或者说是品味
马丁:
这跟品味有啥关系?我感觉就是内容标签没有打细致啊?或者推荐还缺乏数据,对你不了解给你推了[穷游]这种标签的内容罢了~别动不动就扯什么品味啦
古牧君:
不是,你听我说。可能这个例子不够好,确实能用[免费]或者[穷游]这种标签把这类内容过滤掉、不再推给我就好了。但图书呢?比如我喜欢看历史,喜欢明朝历史,但更多人喜闻乐见的可能就是《明朝那些事儿》,但我看了不喜欢,我更喜欢《南明史》这种调调的。它们从内容标签来看,很难再区分细化了吧?我觉得针对同类的内容,总会有些信息是难以被标签化的,这些就是人的口味、品味了
马丁:
好吧,虽然你从第一个case切换了第二个case,而且两个case都有漏洞,但我依然理解你的意思了。我先武断的给你一个回答,然后再说说为啥哈~
算法其实能理解人的品味,但在你说的这种涉及商业价值的toC场景,犯不上、没必要~
古牧君:
嚯~那你得给我好好掰扯掰扯了,从原理到应用,正好也让我这个曾经的半吊子推荐策略产品经理精进一下
马丁:
行,咱们从跟你问题相关的基础知识开始,温故知新。先说召回,再说排序
召回重点说这么3个:
【基于用户人群属性召回】
举个例子:你是#广东,#30岁,#男性,#月收入30000,#大学学历等等。那么我找到跟你一样标签的人群,将这个人群所喜欢的内容,挑出TOP500
不过在实践中往往会遇到一系列问题:
1. 标签识别率:并不是所有平台都具备足够多的用户画像
2. 阶级论失效:#月入80000,#博士学历,喜欢《斗破苍穹》;#月入5000,#高中学历,喜欢《瓦尔登湖》
3. 众口难调:这路召回的结果,如果基于较大人群中,那么基本都是热门流行品,推了也不会错的那种。如果向下细分,那么扰动偏差就会越来越大
【基于用户行为偏好召回】
举个例子:根据你经常看的内容,给你打上相应的内容兴趣标签和权重,例如#高消费0.82,#小众0.71,#ins风0.31等等。然后根据你的内容偏好给你召回相应的内容候选集
这种方案的依赖主要在3点:
1. 依赖内容标签的细化:例如游记类,如果有更细的高消费,小众,自驾等标签,那么品味某种程度上就是这里面一些标签的集合
2. 依赖创作者生态:只有标签细化,没有相应的供应量也没用。细分出ins风,结果整个平台只有300篇ins风游记这就挺尴尬
3. 依赖内容消费生态:定了细化标签,硬推了一波内容供给,结果用户行为数量稀疏,这就是尴尬中的尴尬
【物以类聚、人以群分】
举个例子:例如我喜欢《武夷山3天5夜游,带你复刻武陵捕鱼人的感受》等若干篇文章,冠希、彦祖、于彦也喜欢这些文章,那么我和“冠希、彦祖、于彦”从行为角度就是相似的,哪怕我们除了颜值以外一点相似的地方都没有。——这就是人以群分
再举个例子:冠希,彦祖,于彦,Martin等一批用户,都同时喜欢《武夷山3天5夜游》和《国内Ins风打卡速刷攻略》,那么这两篇内容就是相似的,哪怕他们一个重复的标签都没有。——这就是物以类聚
协同过滤利用的就是群体智慧,基于大量用户的行为来判定人与物品之间的匹配性,从而使得他可以超脱前述的结构要素本身,做到求其意而忘其形。这个点是最接近于你要求的识别品味的
不过这个策略也有他的瓶颈:
1. 要利用群体智慧,得先有群体数据。所以行为数据极少的情况下不好用——系统冷启动
2. 新物品刚上架,根本没人点,算来算去都和别的物品不相似,推荐不出去。但推荐不出去又更加没人点,从而陷入循环——物品冷启动
3. 你要让我人以群分,你先点一些东西,让我了解一下你啊,不然我怎么知道是彦祖和你相似还是潘长江和你相似——用户冷启动
古牧君:
等等啊,我得捋一捋。我印象中,召回就是系统用各种策略,快速地从整个内容库/商品库中寻找我较大概率感兴趣的东西,作为候选集。你刚说的那些,应该是挑了一些跟理解品味相关性比较高的内容说的吧,不是所有哈?
马丁:
对,跟你说那么多太费劲~我接着说排序哈,召回已经前置准备好一个候选集了,可能数量级是1000个。可是我一个屏幕只能展示6个商品/内容,这1000个里面谁在前面谁在后面呢?这就是排序环节所决定的了。排序环节一般是通过大量数据训练出一个AI模型,然后由这个模型对候选集进行兴趣度排序
还是分成几个核心零部件来说
【特征工程】
特征可以理解为模型的输入信息,即y=ax+b中的x,也就是用户做决策时是什么状态。而y就是用户最后做了什么决策,而a和b就是所谓的模型参数,是算法根据海量x和y(样本数据)学出来的
举一个最简单的模型例子:用户购买商品的可能性(y)=3(a)*对商品类目的兴趣度(X1)+9(b)*对商品SKU的兴趣度(X2)
这样当用户来请求推荐结果的时候,发现X1:商品类目兴趣=0.72,X2:SKU兴趣=0.31,那么y:用户喜欢这个商品的概率就出来了
所以对于X,即特征的描绘就非常重要,他影响到模型的训练,也自然影响到推荐结果的准确性。而要理解品味,至少要保证以下几类决策时的信息被正确描述:
1. 我满意程度如何:最基本的满意是我点了,但这还不足够。加入完读、时长、互动、收藏、加购等更深交互深度的行为去刻画用户的满意。
2. 我是什么样的人:例如我的消费水平、我的职业身份、我的性别等等,即所谓的人口画像
3. 我的喜好是什么:我对XX类目、XX品牌、XX价格带的喜好程度如何
【排序模型】
排序层面更多的策略集中在样本划分/采样,结构设计,甚至一些超参数的玄学炼丹方法中,我们常人很难理解。但一个比较合理的猜测是,更高级的深度模型,会比简单的线性模型在“洞察品味“方面做得更好。因为高级模型能够学习到更细节的信息,特别是只能意会不能言传的品味
除此以外,我们能做另一个方面是“指标牵引”,本身模型就是一个黑盒子,就像是原神的卡池一样,谁也不知道里面藏了几个琴团长。我们只能通过一些指标来约束他的成长方向
比如,我们猜测提升“洞察品味”能力后,用户的留存率会上升。那么我们就以留存率作为模型本次升级的优化目标。不过在这里我们要注意两个方面:
1. 牵引指标错误。新手常犯的错误是,只看技术指标,例如CTR。尽管事实上模型很难以留存率为学习目标,但我们仍然要以这些指标来进行观测。因为CTR涨不代表好,他可能是标题党骗用户点击进去,但实际上留存是下降的
2. AB实验效果评价。实验参数正确选择只是一个前提,更重要的是正确评估策略的效用:你的实验效果是策略本身带来的,还是大环境带来的,你的实验对局部是正收益,对全局是否仍产生额外的正收益(还是只是从隔壁类目抢来了一些流量?)
古牧君:
(疯狂记笔记ing)哦哦好的,我温故了,现在说说重点吧,为啥你说我提的这个badcase没必要、犯不上?
马丁:
先说说这个没必要,从【类目价值】和【影响程度】两方面展开讲
【类目价值】
存在推荐品味偏差的问题的是哪些品类?大类目的美妆测评没问题,小类目的游记出现问题了?游记类占总体内容的比例是多少,游记类的消费诉求有多少?游记类的商业价值(比如广告收入)如何?
这一通分析下来,游记类占比小,用户频率低(一年N次),那不好意思,这个需求排不上。但是美妆类目要是发现了这个问题,那就是P0级别的问题,必须当场修复
【影响程度】
多少用户像这个case一样会感受到品味的问题,他们的占比是多少?解决不了品味问题,多大程度会带来用户的留存下跌或其他负面影响?
不好意思,这个影响程度可能暂时就是眉头一皱,甚至大多数人没有感觉。好~这个需求又排不上
古牧君:
行吧,没必要这个我认了,那犯不上呢?有啥区别?
马丁:
还是有细微差异的哈哈,犯不上指的是“能做,但大概率很难做好”。这个点从【垂类内容瓶颈】、【垂类数据瓶颈】、【用户表达陷阱】3个角度展开好了
【垂类内容瓶颈】
深入分析了一下游记类目,发现优质、高消费、小众这些标签细化后,细分类的内容供应不足。在内容不足的情况下,算法再精准也是巧妇难为无米之炊。如果需要解决,必须推动相应的内容创作激励计划,或者进行针对性UP主引入,扩大相应内容量级
需求转到内容生态团队,他们又问——推动对应类目的内容生产,价值在哪里?哈哈再次回到老路子
【垂类数据瓶颈】
这个垂类的人群是否具备一定基数?行为数据量是否充足?
事实上在通用型平台上,都会面临这个问题,即长尾兴趣类目受限用户对平台的认知,他的人群天然是狭窄的。即使具备一定基数的人群,他的互动频率天然也是低于正常值域的。当垂类兴趣数据不充分的情况下,算法自然对垂类的品味识别偏差度较高
一般来说,在垂类平台上,他的用户天生就是基于垂类聚集的,他的垂类数据也会足够充分,能够支持算法在更细致程度的用户理解和推荐
【用户表达陷阱】
就以新闻为例,我是希望给我推送的都是俄乌新闻,中美贸易这种时政大事,但是当他给我推荐特朗普宣布参与竞选,我还是忍不住点进去关心一下懂王的近况
很多时候理智和行为是两回事,间歇性踌躇满志,持续性混吃等死才是大多数用户的真实面目(我也是)
在这种情况下,再怎么叠加策略也没用,我就是真实、发至内心地关心懂王的生活啊。但是系统给我推荐的时候我还是会眉头一皱,表示拉低了我的格调
古牧君:
我感觉你不仅仅给我说了这个原理,还把推荐策略产品经理不得不面对的实际工作情况也给说了哈哈,是不是还夹杂着你的小无奈?~
马丁:
嗨~万物皆可推荐,习惯了就好,有些场景其实还挺有意思的,我打算以后有空也自己总结总结
古牧君:
哦?比如呢?
马丁:
比如社交婚恋的推荐吧,给男生推荐女生、给女生推荐男生,市面上这类app挺多,各有千秋,但大家需要知道到底哪家的推荐原理更适合自己。以及,还有一种重要的推荐场景——中介人推荐(类似房屋中介和保险代理人给你推荐对应信息),这个也是经常被忽略的,其实也很有意思,而且往往可能更靠谱
古牧君:
嘿,听着就带劲儿~你总结完了我哪儿能看啊,你发我啊记得!~
马丁:
你关注这个公众号就好~除了搜索推荐策略,对AI应用/技术原理、toB商业化、传统企业数字化转型这几个话题,我都有不少干货想总结下?
古牧君:
好嘞~你可算是想通了、开始沉淀输出了,一键三连走起~
自打跟马丁对话后,我就一直催他再给我讲讲别的推荐场景,尤其是一些科普层面以外的、只有身处一线的资深从业者才有的感悟。他表示会再接再厉、长期耕耘下去,尤其是在这个行业寒冬期,坚持做好自己
最后引用马丁的公众号简介做今天的结尾:
“希望我创作的这些文章,像沿路掉下的面包屑一样,能够在未来帮助我找回旧日的自己。虽然——童话里的孩子们已经验证了,这是一个失败的方法,哈哈哈~”
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)