Hologres 共享集群助力淘宝订阅极致精细化运营
淘宝订阅是基于C-B关系的用户/商家双私域产品,用户侧与推荐-猜你喜欢互补,构建订阅-我的喜欢心智。商家侧与商家深度联动,结构化,自动化引入优质供给,帮助商家更好地运营粉丝会员。
初期构建了从商家后台内容发布,到算法分发推荐,再到前台消费和数据回收的完整链路;后期为了精细化运营,提升内容推荐体验,开始探索内容特征,搭建内容特征圈选系统。
1、内容在推荐分发时需要使用特征
优质内容圈选 :在手淘订阅前台进行内容分发,支持多种维度的特征筛选方式。低质内容过滤:涉黄涉政和无意义内容,通过特征筛选来进行过滤。2、内容运营时需要使用特征圈选
核心内容投放展示:运营将挑选一批核心深度运营内容进行前台投放,通过圈选系统,按照不同的维度进行筛选,得到的内容用于前台的内容聚合页面大促内容氛围加强:运营圈选得到一批活动内容,前台透出时会对其进行大促氛围加强合作商家流量倾斜:通过圈选系统,圈出一批核心合作商家的内容,在手淘前台内容展示时进行流量倾斜。内容圈选是对现有内容的的一个筛选操作,圈选内容指标维度多,数据量大,对数据预览也有一定要求,因此需要整体设计一个方案,来使得圈选内容更加精准。另外,技术上也需要考虑到未来的扩展性,使得后续增加数据指标筛选更加方便。
下面是内容特征生成和订阅圈选系统的设计方案。
将圈选过程抽象为内容id+关联id+多维度指标筛选,得到筛选后的目标内容id的过程;将圈选操作作为一个包含一批内容的活动实例的创建过程;将可圈选信息配置化成筛选项schema;将实际过滤条件值作为筛选项value。因此,就可以将问题转变为基于筛选项schema和筛选项value,按不同指标过滤,进行数据查询的操作。
现有圈选系统已经支持了配置化,可以自定义数据源和指标进行圈选。圈选过程中,多个筛选项翻译成可执行查询语句的过程就是圈选引擎最核心的部分。筛选引擎需要对不同的筛选项映射到不同的表中的字段,生成可执行语句,再在筛选引擎中进行执行得到筛选结果。基于业务场景,我们总结出对筛选引擎的核心诉求如下:
接入简单,降低筛选可执行语句翻译的复杂度性能和稳定性保障,圈选的逻辑跟随运营策略变化,需要支持复杂查询快速响应。支持多变的特征字段添加,具有一定的灵活性。通过在阿里集团内外的大量调研,并最终在几款产品之间做了详细的对比,具体如下:
方案对比
MaxCompute
Hologres共享集群
灵活性
一般可多表关联条件查询,需指定表空间
高可聚合到同一空间多表关联条件查询
成本
低
中,无需数据导入导出就能直接查询
查询速度
一般单次查询15s以上
亿数据量级,单次查询秒级
通过调研和测试,最终选择了Hologres集群作为订阅系统的计算引擎。下面将会介绍订阅系统基于Hologres集群的最佳实践。
1、使用成本低
快速接入: Hologres共享集群只需建立实例快速使用,可以方便业务快速入门,基本满足了大部分使用场景。当业务发展有需要的时候,可以再申请独立集群并迁移,这一点在集团众多引擎中是比较友好的。订阅业务也是在初期基于公共集群搭建,后期逐步开始使用独立集群。无缝开发:Hologres所支持的SQL查询语法和常见的SQL查询基本一致,基本无缝使用。可视化界面支持一键同步表结构功能,尤其适合表结构经常变化的同学。减少数据移动:Hologres天然支持通过外表方式读取存储在MaxCompute多个project的数据,这样就可以聚合来自不同project的离线数据,降低了查询的复杂度,无需数据导入导出就能直接查询,也降低了存储成本。2、查询效率高
相比于MaxCompute的查询,性能提升很高。经过多次测试:数据量亿级别,外表查询复杂语句(包含多表JOIN)耗时约为8-9秒;外表单表筛选查询耗时在2秒左右。适合用于离线/准实时查询场景。内表查询约为60ms,可用于在线查询。通过支持 UDF/表达式下推,来实现用户自定义的UDF计算;将表达式下推可以减少无用的数据传输带来的开销,进一步提升性能。通过Hologres共享集群搭建的订阅圈选系统流程如下图所示:
运营只需要在后台圈选页面勾选筛选项和填写筛选值,圈选系统将会自动生成Hologres SQL语句(如下示例)并在Hologres中执行获取数据,最终将数据返回到前端,并进行前台投放。运营再根据投放效果不断优化圈选方案,提升圈选效果,达到更加精细化运营的目的。
整个过程,不需要数据在各个系统之间的导入导出,仅通过页面点击的方式,就能转化为SQL进行计算。同时可以根据业务逻辑调整圈选内容,复杂的SQL也能快速高效的计算出想要的圈选数据结果,节约获取数据的时间。使得整个链接变得非常的简单高效。
通过Hologres共享集群搭建的淘宝订阅系统,支撑了1000+场运营圈选活动任务,支持了双11、618、新势力周等多场大促活动,支撑了订阅玩搭场景等的多个二级页面配置,简化了订阅系统的搭建,无需数据导入导出就能直接加速离线数据,降低了运营的上手成本,能让业务更加高效的专注于业务增长。
在未来,我们也将会持续使用Hologres来丰富订阅系统的功能,以此来保持业务的高速增长,我们希望圈选系统能够:
支持更实时的特征: Hologres内表性能更优越,将实时特征导入到Hologres内表中,支持实时特征的查询降低调优GUC参数的使用,例如:set hg_foreign_table_max_partition_limit =128;(调整单次query访问外表分区数), 期望可以更好的产品化能力解决,降低GUC参数的使用。作者:杜仲舒 (花名:神天) 淘宝订阅开发,现主要负责淘宝订阅业务,主研内容特征理解。
原文链接:
http://click.aliyun.com/m/1000347779/
本文为阿里云原创内容,未经允许不得转载。
本文系作者:
小庄
授权发表,鸟哥笔记平台仅提供信息存储空间服务。
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》
如对文章、图片、字体等版权有疑问,请点击
反馈举报
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)