什么叫数值类型的特征？

我们有时候也会经常称之为定量数据特征，也就是一个事物具备的客观信息。

数值类型的数据具有实际“多少”的含义，例如人的身高、体重、血压等，或者是人的数量，再比如一个页面被浏览多少次、一个商品被下单多少次等等，都可以称作是数值。

按照值的连续性划分，数值类型的数据可以分为离散型和连续型。离散型数据表示的量是可数的，其可以是有限个值，也可以是无限个值。例如，100次硬币投掷中正面朝上的个数取值为到100，但是获得100次正面朝上所需要的投掷次数取值为0到正无穷。

连续型数据表示测量得到的量，其取值是不可数的，可以用坐标轴上的区间表示。比如某个场景下男性的身高在[1.70-1.80]之间。

很多时候，我们都可以直接在模型当中输入这些数值类型的特征进行模型训练，但是也需要注意几个点：

1. 脏数据的处理

需要清楚的是，不是所有数据都是可以当中数值类型的特征拿来用作模型输入的，策略产品经理也要意识到这一点。

比如我们之前在京东做过一个用户偏好的模型预测策略，也就是怎么通过用户在平台上的各种行为数据来预测用户近期可能的感兴趣的东西是什么。

我们拿用户浏览商品详情页的行为来举例，在我们给到偏好计算模型的浏览数据的时候，需要考虑一个点：所有商品的浏览数据都需要加入计算么？

显然不是。

比如一些明显是爬虫数据，作弊数据，可疑数据等等这些数据其实是不能当作数值特征进行输入，对于偏好模型来说，这些数据就是脏数据，有时候也叫“噪声”。

怎么办？比如我们当时采用的办法就是给商品详情页定义一个叫有效浏览时长的阈值，超过阈值的我们认为是有效数据，低于阈值的数据，我们认为是脏数据。

际问题中经常会遇到特征缺失的情形，也就是有些特征的具体值为空，缺失特征的处理方式会影响模型效果。

对于特征缺失，我们有两类处理法。第一种是我们通过一定的手段给当前特征补一个值，例如：最简单的方法是补一个均值；对于数值内部不均匀的变量，更加健壮一些的方法则是补一个中位数；

当然，也可以将其直接忽略，但是通常需要关注这些特征的量有多少。

很多时候，在我们处理特征的时候会发现数据之间不具备可比性，言外之意就是数据的分布极度的不均匀，直白点说就是：大的特别大，小的特别小。

这个时候我们就需要把数据无量纲化处理，从而主要解决数据的可比性问题，这个就是一个数值标准化的过程，比较常用的就是归一化处理。

最常用的三种归一化手段我简单列一下，如果详细了解可以在技术博客查看一些相关的文章。

x位当前值，min为该特征下的最小值，max为该特征下的最大值

x为原始数据中的一个数据，Xmax表示原始数据中的最大值

同样，x为原始数据中的一个常数，e为自然常数。

当然，以上是常见的几种数值特征的应用，其他应用方式还有很多，比如特征的交叉使用，特征截断处理等等。

其实，如果你做策略有一段时间了，你会发现一个问题，就是最终决定采取哪些特征，特征怎么处理，核心的出发点还是要基于当前的业务和数据，然后制定合适的收敛目标给到模型。

而最终衡量模型效果的好坏也绝对不是你用了什么高大上的算法，牛逼的模型，记住一句话：撇开业务谈策略都是耍流氓。

本文系作者：夏唬人授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词