谈及用户画像,我想产品和运营的朋友们都不会陌生,用户画像是用户研究的重要输出,它能帮助我们更好的进行业务决策以及产品设计。用户画像落实到产品设计,本质上是将数据组合成数据特征,从而形成用户的数据模型。前两者是基于已有数据的构建方法,其缺陷是无法处理数据缺失或不在规则范围内的用户。而解决这一类问题,也正是机器学习存在的意义,它让计算机像人一样去学习处理问题,并给出答案。本文将从构建用户画像的角度和大家分享能够运用在其中的一些AI算法,希望能给大家提供一些价值。用户画像偏向于定性,而产品设计是将需求从定性转换为定量的过程,用户画像在量化过后我们也称之为用户标签。构建用户标签我拆分了三个步骤,分别是层级、生产以及权重。理解标签的层级能够帮助我们设计产品架构,并且熟悉标签生产的方法。标签的层级有两种划分方式,方式1是较为常见的做法,而方式2查阅于京东的数据分析师凌靖的文章,结合两种方式之后形成了下图图3。
标签的每一个层级,可以将其理解为对上一层标签的再次提炼。对照着图3,我们试着理解这4个层级:来源于用户的基础信息、交易数据、访问数据,如:用户的注册手机号码、用户的历史订单、用户的访问轨迹等。
由一个或多个事实标签组合而成,是基于模型训练的结果。以模型标签“交易偏好”为例,它是由交易商品类型、交易场景、交易来源这几个事实标签组合而成的。
以已有的模型标签数据作为特征,经过机器学习生产的标签。由于预测标签会映射成为模型标签,所以在图3中将2者放置于同一个层级。
策略标签,则是用户标签构建的最终目的,根据目的提炼用户,并对用户进行定向的营销。标签的层级,指导着产品经理构建用户画像的每个步骤。前两个层级,我们需要对缺失的数据建立数据源,对数据进行清洗、修复以及特征构建等;后两个层级,我们需要使用合适的方式生产标签。
在第一章中我们理解了标签的层级,这一章主要讲述标签的生产过程,用户画像的构建方式不同,生产方式也不同。
顾名思义,这种生产方式是根据固定的规则,通过数据查询的结果生产标签。这里的重点在于如何制定规则。从数据的变化频次来看,可以将标签划分为静态标签以及动态标签。静态标签变化的频次低,或者一旦确认不做改变。而动态标签变化频繁,它会衰减也可能会消失。以静态标签和动态标签为思路向下顺延,我们可以划分为基础属性以及偏好行为两大类,如下图图4所示:这是一张比较普适的图,在实际应用的过程中产品经理可以根据业务去定义更多的类型。将类型划分清楚,用户标签的生产工具已经初具雏形。在设置规则时产品经理应该适当抽象,过于精细会增加研发的周期,上线后的数据查询也会有较大的压力。其次也可能因为筛选条件过多,查询的数据样本不足,导致空耗资源。适当抽象考验产品经理对需求、资源以及应用的平衡能力,以用户访问行为为例,在初期不建议放开全量查询,可以优先将频次高、强度高的查询需求抽象成规则,如商品详情、平台活动、渠道投放等。基于规则定义和基于数据统计这两种用户标签构建方式在产品设计中的逻辑是相对简单的,就不花更多的篇幅解释了。主题模型,最开始运用于内容领域,目的是找到用户的偏好,它将内容划分为了3个层级:分类、主题、关键词。在用户标签中我们可以参照分类算法将用户进行分类、聚类,使用关键词的算法挖掘用户的偏好,从而生产标签。
线性支持向量机(Linear Support Vector Machine)是一种二分类算法,适用于“是与否”,“有或无”的问题,它隶属于机器学习中的有监督学习(Supervised Learning)。有监督学习,类似我们从小接触的函数公式,即根据输入(x),和公式f(x)得到输出(y),假设x是数据的特征,那么经过函数的运算后我们能够得到分类结果。以人口属性为例,非社交应用用户填写自己性别的主动性较低。当我们想了解用户的性别组成,却只有10%用户填写了性别,而另外90%的用户的性别是未知的。
在机器学习中,我们会将明确性别的用户作为数据样本,提取他们的数据特征训练模型。以明确性别的用户的数据特征设为x,性别为y,训练出f(x)的函数之后,我们将其他未知性别的用户特征代入到公式f(x)中,从而去预测他们的性别。
函数是是由模型训练而成的,线性支持向量机是怎么训练的呢?在图7中,我们发现有一条直线将象限中的数据分成了两部分,而支持向量机则是找到一条划分效果最好的直线。划分效果越好,新数据分类错误的可能性也越低,而这两个类别在支持向量机中我们也叫正样本和负样本。
回到线性支持向量机的定义:“对于给定的数据集,能在样本空间中找到一条划分直线,从而将两个不同类别的样本分开,并且这条直线距离最接近的训练数据点最远。”图8以购买过男性/女性短袖作为男性用户和女性用户的特征,黑点表示为已知的男性用户,白点为已知的女性用户。当遇到新的未知性别的用户,但是我们发现其有购买过男性短袖这一行为,而这一用户的数据落在了男性部分,所以我们预测这个用户是男性。当然在实际过程中,数据的特征绝对不仅是简单的二维特征,在这里只是方便大家理解。线性支持向量机在三维求解的是一个分类效果最好的平面,而在高维则是线性函数。线性支持向量机的目标函数求解的过程比较复杂(文末彩蛋预警),在小规模数据集中线性支持向量机的表现是较好的,但是由于受到了数据量的限制,我们会运用训练更加简单并且能实时计算的算法——逻辑回归。逻辑回归(Logistic Regression)是和线性支持向量机非常相似,它们都是有监督学习方法,在不考虑核函数时都是线性的分类方法。其不同点在于,线性支持向量机是基于距离分类,而逻辑回归是基于可能性分类。理解逻辑回归之前,我们先复习一下最简单的一元线性回归。一元线性回归的公式是:y=kx+b。我们假定图10中的直线,代表着人在匀速状态下路程与速度的关系。但在实际情况下人的速度不是恒定的,我们没有办法使不同时间的速度都穿过这条直线。退而求其次,我们去找一条最接近这些速度数据的支线。看到图10的函数图例,大家会发现线性回归和线性支持向量机非常的相像,线性回归与逻辑回归有什么关系?逻辑回归又是怎样的一种分类方式?
逻辑回归在线性回归的基础上套用了sigmoid函数,它将回归函数的结果映射在sigmoid函数之中,这个函数的特点是其值域分布在[0,1]之间,1和0对应了二分类的“是与否”,随着x值的变化,y值会不断的趋近于0或1,这种趋近我们称之为可能性。在线性支持向量机中只有两种值:正样本和负样本,而逻辑回归除了分类还能够表达分类的概率。
TF意思是词频(Term Frequency),IDF意思是逆文本频率指数(Inverse Document Frequency),在用户画像的构建中我们会将其运用于生产用户的偏好标签。TF表述的核心思想是,在1条文本中反复出现的词更重要。而IDF的思想是,在所有文本都出现的词是不重要的,IDF用于修正TF所表示的计算结果。
上文描述TF-IDF能够用于生产用户的偏好标签,其中的原理是什么呢?我们将一名用户类比为一篇文章,用户浏览的商品标题在分词汇总后作为其中的词库,平台的用户总数即为文本总数,出现该词语的文本数作为有同样浏览行为的用户。这样转置过后,就能够进行计算了。以用户A为例,用户A拥有3条浏览记录,分词后总计17个词。设:平台的用户总数=10000人,用户浏览过的商品标题带有“黑色”1词的用户有500人,底数为2。以底数为2,可计算“黑色”这个标签对用户的权重是0.52,有了权重我们能够将其运用于寻找相似用户。指的是对于同一类标签,由于其行为的轻重不同所以权重不同。
如:用户对于某商品有过生成订单的行为,根据订单未支付、已支付未退款、已支付已退款三种订单状态,制定不同的权重。
时间衰减因子体现了标签的热度随着时间逐渐冷却的过程,它来源于牛顿冷却定律。定律描述的是物体的冷却速度与其当前温度和室温之间的温差成正比。运用于新闻领域,一条新闻可能在今天它的“温度”是最高的,但是随着时间,这条新闻会逐渐的变成和普通新闻一样的“温度”。将公式翻译成中文:当前温度=原始温度 X exp(-冷却系数 X 间隔时间)运用于标签的翻译:当前权重=原始权重 X exp(-冷却系数 X 间隔时间)
如:将用户发生行为的当日该偏好的权重设置为1,10天后设置为0.2,也就是经过9天后权重会衰减是0.2,将已知变量代入到图13的公式中,经过指数的运算得到冷却系数,从而得到时间衰减因子。对于不同的标签,时间的衰减因子系数是不同的,有的标签甚至是不受时间所影响,在计算时可以不必考虑衰减因子。公式中的TF-IDF、行为频次,前者已经描述过,后者也比较好理解在这里也不再赘述。标签的权重可以用于查找相似用户,进行个性化推荐,如果有有兴趣的朋友可以阅读我的上一篇文章《如何理解个性化推荐中的数学原理》。近期恰好设计了用户标签的提取工具,撰写本文原意是想回顾项目、查漏补缺。过程中阅读了一些人工智能的书籍,给了自己很多的启发,于是也将所了解的一些算法添加进来,如果有理解不正确的地方也请朋友们不吝指教。这篇文章涉及的算法部分主要参考了:《产品经理进阶:100个案例搞懂人工智能》,这是一本很好的工具书,提供了特别好的知识框架让我体系化的认识人工智能,在此也为朋友们极力推荐这本书:1、林中翘—《产品经理进阶:100个案例搞懂人工智能》
3、CWS_chen—《用户画像原理、技术选型及架构实现》https://blog.csdn.net/SecondLieutenant/article/details/81153565https://zhuanlan.zhihu.com/p/343859145、Jack Cui—机器学习实战教程(八):支持向量机原理篇之手撕线性SVMhttps://cuijiahua.com/blog/2017/11/ml_8_svm_1.html
https://cloud.tencent.com/developer/article/13308107、hffzkl—基于牛顿冷却定律的时间衰减函数模型https://blog.51cto.com/9269309/18655549、刘星辰—《基于文本挖掘的用户画像系统的设计与实现》10、Coding Fish—《SVM原理及推导》https://www.jianshu.com/p/05693f2091b7第10项,SVM的推导过程笔者还没有完全推导成功,愿意讲课的朋友请你吃饭呀~
我们致力于提供一个高质量内容的交流平台。为落实国家互联网信息办公室“依法管网、依法办网、依法上网”的要求,为完善跟帖评论自律管理,为了保护用户创造的内容、维护开放、真实、专业的平台氛围,我们团队将依据本公约中的条款对注册用户和发布在本平台的内容进行管理。平台鼓励用户创作、发布优质内容,同时也将采取必要措施管理违法、侵权或有其他不良影响的网络信息。
一、根据《网络信息内容生态治理规定》《中华人民共和国未成年人保护法》等法律法规,对以下违法、不良信息或存在危害的行为进行处理。
1. 违反法律法规的信息,主要表现为:
1)反对宪法所确定的基本原则;
2)危害国家安全,泄露国家秘密,颠覆国家政权,破坏国家统一,损害国家荣誉和利益;
3)侮辱、滥用英烈形象,歪曲、丑化、亵渎、否定英雄烈士事迹和精神,以侮辱、诽谤或者其他方式侵害英雄烈士的姓名、肖像、名誉、荣誉;
4)宣扬恐怖主义、极端主义或者煽动实施恐怖活动、极端主义活动;
5)煽动民族仇恨、民族歧视,破坏民族团结;
6)破坏国家宗教政策,宣扬邪教和封建迷信;
7)散布谣言,扰乱社会秩序,破坏社会稳定;
8)宣扬淫秽、色情、赌博、暴力、凶杀、恐怖或者教唆犯罪;
9)煽动非法集会、结社、游行、示威、聚众扰乱社会秩序;
10)侮辱或者诽谤他人,侵害他人名誉、隐私和其他合法权益;
11)通过网络以文字、图片、音视频等形式,对未成年人实施侮辱、诽谤、威胁或者恶意损害未成年人形象进行网络欺凌的;
12)危害未成年人身心健康的;
13)含有法律、行政法规禁止的其他内容;
2. 不友善:不尊重用户及其所贡献内容的信息或行为。主要表现为:
1)轻蔑:贬低、轻视他人及其劳动成果;
2)诽谤:捏造、散布虚假事实,损害他人名誉;
3)嘲讽:以比喻、夸张、侮辱性的手法对他人或其行为进行揭露或描述,以此来激怒他人;
4)挑衅:以不友好的方式激怒他人,意图使对方对自己的言论作出回应,蓄意制造事端;
5)羞辱:贬低他人的能力、行为、生理或身份特征,让对方难堪;
6)谩骂:以不文明的语言对他人进行负面评价;
7)歧视:煽动人群歧视、地域歧视等,针对他人的民族、种族、宗教、性取向、性别、年龄、地域、生理特征等身份或者归类的攻击;
8)威胁:许诺以不良的后果来迫使他人服从自己的意志;
3. 发布垃圾广告信息:以推广曝光为目的,发布影响用户体验、扰乱本网站秩序的内容,或进行相关行为。主要表现为:
1)多次发布包含售卖产品、提供服务、宣传推广内容的垃圾广告。包括但不限于以下几种形式:
2)单个帐号多次发布包含垃圾广告的内容;
3)多个广告帐号互相配合发布、传播包含垃圾广告的内容;
4)多次发布包含欺骗性外链的内容,如未注明的淘宝客链接、跳转网站等,诱骗用户点击链接
5)发布大量包含推广链接、产品、品牌等内容获取搜索引擎中的不正当曝光;
6)购买或出售帐号之间虚假地互动,发布干扰网站秩序的推广内容及相关交易。
7)发布包含欺骗性的恶意营销内容,如通过伪造经历、冒充他人等方式进行恶意营销;
8)使用特殊符号、图片等方式规避垃圾广告内容审核的广告内容。
4. 色情低俗信息,主要表现为:
1)包含自己或他人性经验的细节描述或露骨的感受描述;
2)涉及色情段子、两性笑话的低俗内容;
3)配图、头图中包含庸俗或挑逗性图片的内容;
4)带有性暗示、性挑逗等易使人产生性联想;
5)展现血腥、惊悚、残忍等致人身心不适;
6)炒作绯闻、丑闻、劣迹等;
7)宣扬低俗、庸俗、媚俗内容。
5. 不实信息,主要表现为:
1)可能存在事实性错误或者造谣等内容;
2)存在事实夸大、伪造虚假经历等误导他人的内容;
3)伪造身份、冒充他人,通过头像、用户名等个人信息暗示自己具有特定身份,或与特定机构或个人存在关联。
6. 传播封建迷信,主要表现为:
1)找人算命、测字、占卜、解梦、化解厄运、使用迷信方式治病;
2)求推荐算命看相大师;
3)针对具体风水等问题进行求助或咨询;
4)问自己或他人的八字、六爻、星盘、手相、面相、五行缺失,包括通过占卜方法问婚姻、前程、运势,东西宠物丢了能不能找回、取名改名等;
7. 文章标题党,主要表现为:
1)以各种夸张、猎奇、不合常理的表现手法等行为来诱导用户;
2)内容与标题之间存在严重不实或者原意扭曲;
3)使用夸张标题,内容与标题严重不符的。
8.「饭圈」乱象行为,主要表现为:
1)诱导未成年人应援集资、高额消费、投票打榜
2)粉丝互撕谩骂、拉踩引战、造谣攻击、人肉搜索、侵犯隐私
3)鼓动「饭圈」粉丝攀比炫富、奢靡享乐等行为
4)以号召粉丝、雇用网络水军、「养号」形式刷量控评等行为
5)通过「蹭热点」、制造话题等形式干扰舆论,影响传播秩序
9. 其他危害行为或内容,主要表现为:
1)可能引发未成年人模仿不安全行为和违反社会公德行为、诱导未成年人不良嗜好影响未成年人身心健康的;
2)不当评述自然灾害、重大事故等灾难的;
3)美化、粉饰侵略战争行为的;
4)法律、行政法规禁止,或可能对网络生态造成不良影响的其他内容。
二、违规处罚
本网站通过主动发现和接受用户举报两种方式收集违规行为信息。所有有意的降低内容质量、伤害平台氛围及欺凌未成年人或危害未成年人身心健康的行为都是不能容忍的。
当一个用户发布违规内容时,本网站将依据相关用户违规情节严重程度,对帐号进行禁言 1 天、7 天、15 天直至永久禁言或封停账号的处罚。当涉及欺凌未成年人、危害未成年人身心健康、通过作弊手段注册、使用帐号,或者滥用多个帐号发布违规内容时,本网站将加重处罚。
三、申诉
随着平台管理经验的不断丰富,本网站出于维护本网站氛围和秩序的目的,将不断完善本公约。
如果本网站用户对本网站基于本公约规定做出的处理有异议,可以通过「建议反馈」功能向本网站进行反馈。
(规则的最终解释权归属本网站所有)