很可惜 T 。T 您现在还不是作者身份,不能自主发稿哦~
如有投稿需求,请把文章发送到邮箱tougao@appcpx.com,一经录用会有专人和您联系
咨询如何成为春羽作者请联系:鸟哥笔记小羽毛(ngbjxym)
作者:夏唬人
大家可以仔细观察一下,目前互联网产品,基本99%会有搜索和推荐场景。
为什么?这还要从每个业务的用户流量结构说起。
其实,对于一个用户端产品来说,当一个用户进入你的产品,那么基本可以分为两种类型:无非就是有明确需求的用户和没有明确需求的需求。
因此,基于这个出发点,典型的电商为代表的业务,在他们的APP内以综合流量分发为主的首页基本上都是采用一样的流量分发思路,总体结构下图所示:
比如京东,淘宝,美团等等。
1. 为了尽快满足有明确需求的用户,搜索在最顶部,下面的垂直业icon,比如超市、服饰,电器等等,其实也都是为了满足更加聚焦,且明确的用户需求;
2. 对于没有明确需求的用户,他们会继续下滑,那么这部分流量基本上是以个性化推荐feed流来进行承接。
因此,其实对于策略产品来讲,了解如何搭建一个推荐系统,以及搭建一个搜索系统,基本上能够cover大部分策略场景。
今天我们一起来看一下如何从0到1搭建一个搜索策略产品。
搜索的产品场景都有什么?通常大多人认为的搜索就是一个搜索框。
其实不然。
搜索常见的产品场景主要包括三种:搜索框、搜索中间页和搜索结果页,具体到每种场景下又可以细分为很多小场景:
1. 搜索框:搜索框,框下词,框内暗纹
2. 搜索中间页:搜索联想词、搜索直达、历史搜索词、热门搜索词、搜索推荐
3. 搜索结果页:顶部直达、排序筛选、搜索结果feeds流、穿插广告位、banner位等等
但是,不管是在哪个场景,他们每一个追求的根本目标都是一样的,都与搜索的核心目标保持高度统一:那就是满足目标明确的用户诉求,起一个精准流量分发的作用,促成快速成交。
所以我们在各场景下制定具体策略也是从这个核心目标出发,以此为前提进行策略需求可行性的判断。
接下来我们看一下,搜索是怎么完成一个闭环,以及我们如何从0-1去搭建搜索核心架构?
其实搜索大家总体上可以理解它在做两件事情:
明确用户在搜索什么
给用户展示什么东西
我们首先来看第一步,搜索是怎么知道用户在搜索什么?
搜索一般是从用户输入关键词的时候开始,也叫query
当我们拿到用户输入关键词之后,需要对关键词进行处理,比如常见的分词,属性识别,并且最终把用户想要搜索什么识别出来,这个就叫意图识别。
通过意图识别模块,搜索基本知道了用户在搜什么东西,比如牛奶,还是手机。然后根据它的判断,接下来其实就根据这个意图去找到符合意图的物品。
存放物品信息的地方,叫做索引。通过了解用户的搜索意图,我们与物品池的物品进行匹配,然后把满足条件的物品取出来,这个过程叫做召回。
当知道了给用户展示哪些物品之后,很关键的一个流程就是这些物品以一个什么样的顺序给到用户,这个很关键。排序靠前,意味着物品先被用户看到,意味着得到更多的曝光,也意味着会获得更多的转化。
很多人在做搜索的时候,只关注召回和排序,其实索引层面往往才是我们容易忽略的一个点,在搭建搜索之前需要好好的进行盘点,有助于高效,精准的给到用户想要的商品。
接下来我们重点看一下索引模块。
在电商平台上,我们通过搜索关键词,找出我们想要的商品,这个搜索过程是怎么实现的呢?其中就是利用我们输入的关键词,去跟商品做匹配,从而展示给我们匹配的商品;那么这个过程会涉及到商品库所搭建的索引。
在搜索引擎中,索引即是为了数据可以被检索到,基于目标内容创建的一种存储结构;用名词理解,索引即为数据库;用动词理解,索引即是存储一个文档到数据库中,使它可以被检索到;
这里需要引入另外的索引概念:倒排索引
那倒排索引又是什么?
倒排索引:实现比关系型数据更快的过滤。特别他对多条件的过滤支持非常好,可以提升数据检索速度。
现代搜索引擎绝大多数的索引都是基于倒排索引来进行构建的,这源于在实际的搜索场景中,用户往往在进行查询信息的时候,只输入某个信息中的某个关键字;比如我们不记得电影的名字,通过某个电影片段进行查询;
面对这些海量的查询信息,我们需要效率更快的查询方式,也就是倒排索引;
有个简单的例子来理解倒排索引的匹配方式:
请你说出带有“月”字的诗句,并说出古诗名:
也就是说,如果匹配方式是正排索引,那么需要把每首诗从头到尾都检索一遍,命中再匹配相应的诗名,这种方式效率会非常低;
在搭建索引之前,需要对商品属性进行盘点,主要关注以下3点:
现阶段商品都有信息,商品打标的方式是人工还是机器,覆盖率和准确率如何?
用户近x天搜索词,相对应的商品属性是什么?哪些现在有,但没有添加进索引;哪些现在没有,需要新增属性。
商品属性,哪些是重要的,哪些是次要的;
以上三点主要围绕着用户需求来进行,商品属性准确与否直接关系到用户体验,比如搜索“V领连衣裙”,其中有个商品标题写着V领,实际是方领,在用户感知层面除了搜索不准确,还会消耗平台的公信力;
那么,在盘点好以上三点之后,可以把商品属性进行索引分类,整理成商品画像,需要区分主次(主要用于召回);规整之后即可添加进搜索引擎;如果覆盖率与准确率较低,需要同时优化商品信息的覆盖率与准确率;
图示:服装商品画像
商品画像是商品属性的集合,它能表述一个商品有什么特征。
比如常见的商品属性有品类、领型、袖长、廓形,那集合起来的就是一个商品的画像,它表述的是这个商品的特征,比如说长袖V领的T型连衣裙
说起商品属性,有些读者会很疑惑,比如说:商品属性的维度应该怎么划分?我应不应该把商品属性给功能化?或者说,商品属性需要支撑到什么程度?
先说说商品属性的维度划分,商品属性维度应该怎么划分应该回归到平台具体的商品品类结构以及业务形态;比如说,平台的业务就是主营服装,那么在商品规格里面也就没有手机商品的相关属性,自然在划分的时候也就有所区别;
那商品属性的功能需要支撑到什么程度?
这里依旧需要回归到业务场景,如果平台业务是面对外部企业,需要衡量标签的使用场景以及使用频率;如果平台业务面对的是内部员工,需要和商品企划的同学细聊商品企划的场景,去衡量商品标签需要支撑的价值点:比如商品分析、抓款投放等等
根据业务情况制定更新机制,平台活动较多,对商品信息更改较为频繁,可以为即时更新机制;商品基本不变,可以为t+1更新机制等等。
总之,索引是搜索的基础,一个好的索引才能保证用户搜索结果的准确性和有效性。一个很典型的常见是当你的无结果率很高的时候,大概率是索引出现了问题。
本文为作者独立观点,不代表鸟哥笔记立场,未经允许不得转载。
《鸟哥笔记版权及免责申明》 如对文章、图片、字体等版权有疑问,请点击 反馈举报
Powered by QINGMOB PTE. LTD. © 2010-2022 上海青墨信息科技有限公司 沪ICP备2021034055号-6
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)