大数据运营管理体系(大数据时代下的内容运营体系建设).-鸟哥笔记

大数据时代下的内容运营体系建设

内容型的互联网产品，如新闻资讯、内容社区、音乐视频、小说漫画等主要为用户提供内容服务。而庞大的内容离不开运营，运营就是把内容更好地组织聚合，并推送给消费者，让用户享受到更好的服务。大数据时代下，内容运营体系是怎样建设的呢？

人与信息的三个问题

人们关于内容的消费，紧密地围绕三个问题。1、信息如何有效产生？2、信息如何有效组织整理？3、信息如何有效触达消费者？当这三个问题解决了，一个内容产品才能够得以生存和发展。今天我们主要针对第二和第三个问题来展开讨论，即数据如何有效组织和整理，以便于更好地触达消费者。

内容主要是指对人们有用的信息，包括资讯、音视频、文章、书籍等等，不同的平台有不同的内容，不同的人们需要不同的内容。因此，数据、信息、人构成了我们要讨论问题的三个基本要素，以下是它们的关系图。

数据、信息、人三者关系

数据有很多种产生方式，比如专业的生产者PGC，包括记者、作家、导演等；比如普通UGC用户，以及介于两者之间的小型专业创作者PUGC。数据来源也有很多，比如这种供用户消费的内容数据；也有用户通过浏览观看产生的行为数据；还有各种抓取、共享和挖掘来的数据等。

数据通过加工和整理才能成为有用的信息，有用的信息才是内容，而内容只有经过一定方式让用户消费才能真正产生价值。不同的数据加工成信息的方式不同，大多加工是对原始数据进行整理和包装，再进行关联聚合。数据触达用户的方式通常是推荐和分发，以及用户主动的搜索和浏览行为。

数据有很多种类。这里主要分为两大类，第一类是内容本身的数据，即基础属性数据和特征信息数据，另一类是内容消费所产生的行为数据，包括用户浏览行为和内容消费行为等。具体如下图。

数据的分类

内容数据可以划分为实体数据和关联数据，以及结构化或非结构化数据等。行为数据包括用户行为和内容消费数据，大多是结构化的，主要来自数据投递以及系统日志等。通过对内容和行为这两类数据的特征分类计算，可以得到内容画像和用户画像。当拥有了这两个画像之后，我们就可以针对画像进行圈层关联。推荐算法就是将这两种圈层最优地匹配起来，即将特定的内容分发给特定的人或人群。

内容离不开运营，再好的内容如果不去包装或者没有触达给用户，那么内容就会沉寂。互联网时代里，酒香还真怕巷子深。因为数据大爆炸，内容太多了。人们面对这么多内容，不知道该何去何从。因此，良好的内容运营就至关重要。以下是关于内容的运营方式，包括基于内容的产品运营、市场运营、用户运营、活动运营等。

内容与运营关系

本篇主要针对的是与内容实体相关的运营，也就是对资讯文章、音视频等内容进行整理组织和推送分发等产品内的运营，不是指面向自媒体时代的内容营销。

内容运营有很多方式，总体上可以分为基础运营和高级运营、智能运营等。这些运营的前提是内容基础数据的建设。

运营结构关系

内容数据建设，主要是基础信息描述与属性特征库。基础运营分为站内和站外运营，站内运营主要是根据自身产品特点，提供内容不同展现的方式，比如首页、分类页、频道页，让用户能够找到想要看的内容。高级运营是在基础运营之上的增强手段，帮助用户更便捷地浏览信息，提升用户体验和增加黏性。智能运营是高级运营的升级版，主要是基于大数据驱动，通过对用户行为与内容特征的计算分析，进行个性化推荐。

内容有很多种运营方式，产品就有很多种运营的模块体系。通过这些模块体系来实现各种运营途径，以让内容更便捷地触达消费者。

运营模块体系

随着大数据和智能技术的发展，自动化、智能化、机器替代人工的事情越来越多。在内容运营领域也一样，工具会帮助人们提升对内容组织的加工效率，同时人工智能也会通过对内容和用户特征的计算分析，让内容与用户实现最佳匹配，从而让内容更好地被用户消费。

大数据运营管理体系(大数据时代下的内容运营体系建设).

数据与大数据驱动运营都基于数据，本质上也都是为了让用户享受到更精准内容服务。数据驱动主要是分析内容信息被消费的情况，比如点击量以及停留时长，从而推断出热度以及流行趋势等，这将有助于人工做出合理的决策。大数据驱动也需要分析内容消费的情况，所不同的是大数据还需要分析用户行为和内容特征，并将内容和用户做最优匹配，从而实现最佳的消费效果。

数据驱动与大数据驱动

数据驱动通常适合那些高质量的精品内容，这些内容更加适合以人工为主的运营，像电视、报刊、门户网站、长视频等都是这种模式。而大数据驱动更适合那些内容丰富的泛娱乐内容，像微博、头条、短视频等，这些站点内容量巨大、质量层次不齐，更适合机器来做基于用户特点的个性化推荐和分发。不同的场景适合不同的方案，数据驱动和大数据驱动这两者并没有优劣之分，在实际场景中通常也都是结合来使用。

基于数据还是大数据驱动都离不开数据仓库的建设。数仓包括数据采集、存储、处理和查询应用等。以下是一整套大数据架构的实时方案，数据来源有Hive和DB或直接监听Kafka消息等，经过ETL和Flink等对实时流的处理，我们把数据存储在HBase或MongoDB，再把数据同步到ClickHouse或ElasticSearch查询引擎，这样应用层则通过查询引擎的语法来进行查询和计算了。

大数据架构实时方案

当然实时的大数据方案有很多种，不同的场景也有方案和选型的差异。这里只是提供大数据架构的基本方案，就不具体展开细节介绍了。有了一套大数据实时方案，再加上已有的用户画像和内容画像，那么我们就可以基于用户行为进行实时内容匹配计算了，从而实现实时的用户个性化分发和推荐。

有了实时方案，还需要大数据离线方案，这将便于我们构建用户特征库和内容特征库。实时方案面向的是实时性的数据计算，主要基于秒、分钟和小时级，便于实时数据计算，快速做出决策。而离线方案则基于天数来进行计算，离线方案更适合做用户画像、内容画像，以及数据大盘和数据报表等，有助于构建用户圈层和内容圈池。通过对于存量数据的挖掘分析，我们还可以发现更多的商业价值。

大数据架构离线方案

离线方案主要是对原始数据进行层层清洗处理，并建立不同层级基础特征、行为主题和业务场景表，并将相关表导入到Kylin、Impala、Pilot或Druid等查询引擎中，上层应用则通过查询引擎来实现对于数据的查询和计算。离线大数据方案也有很多种，这里给出的也只是一种参考，具体哪一种方案要根据实际的业务场景。

本篇主要介绍了内容数据的来源、种类以及内容运营的不同方式，同时介绍了基于数据驱动与基于大数据驱动的内容运营的差异，最后给出了大数据的实时和离线方案。通过本篇，我们对数据驱动内容运营有了一个概况了解，具体的数仓建设、数据内容特征建设、内容画像建设、用户行为分析、用户画像建设，以及智能推荐和分发算法等以后再具体分析讨论。

本文系作者：小张授权发表，鸟哥笔记平台仅提供信息存储空间服务。

本文为作者独立观点，不代表鸟哥笔记立场，未经允许不得转载。

《鸟哥笔记版权及免责申明》如对文章、图片、字体等版权有疑问，请点击反馈举报

关键词

体系建设

﻿大数据时代下的内容运营体系建设

大数据时代下的内容运营体系建设