会员中心
用户名:
密 码:
 
  忘记密码
通信管理
移动互联网大数据分析系统的研究与实现
文章来源:本站原创  发布时间:2014-10-31  浏览次数:1542
姜国强
  (中国移动辽宁公司信息技术中心 110179)
摘要:随着移动互联网和云计算的不断发展,中国移动已经进入“大数据”时代。本文通过研究用户上网和通信行为信令,实现了精准的用户画像和分群,并基于用户上网位置行为和爱好分析为企业选址提供数据支撑,不仅可以支撑企业内部生产,同时满足对外服务服务需求。创造了大数据运营的市场价值和经济效益。促使传统电信运营商向移动互联网转型迈出了坚实一步,开创了大数据运营的“蓝海”。
关键词:大数据,数据挖掘,移动互联网
1引言
1.1研究背景
      移动互联网和云计算的不断发展,大数据在商业和消费者领域创造价值方面具有巨大的发展潜力,它已经成为影响企业商业模式的重要因素,可以与物质资产和人力资本相提并论的重要的生产要素和战略资产。
      移动互联网用户所产生的流量信令记录在辽宁省已经达到了日增量数TB,如何对这些海量数据通过收集、存储、汇聚和组合后利用其结果进行深入分析以提炼其中蕴含的知识和智慧财富,用以实现指导企业的生产和经营行为的能力早已成为运营商的核心竞争力之一。同时,面对OTT对运营商传统优势业务的冲击和挑战,电信运营商自身“去管道化”的需求也越来越强烈,寻找新的收入增长点,开创大数据运营的海蓝市场也成为一种顺理成章的客观需要。
1.2电信运营商在大数据领域的优势研究
      大数据领域,电信运营商具备无可比拟的资源优势。首先,电信网络具有自然垄断地位,电信行业市场集中度特别高,唯有电信运营商具有提供可管、可控的全程全网服务和端到端网络接入的能力;其次,电信运营商具有强大的用户聚合效应,电信运营商作为用户接入的第一接触者,具有更为直接的用户聚合能力;第三,电信运营商在网络、业务运营和提供服务的过程中可以非常方便的进行用户身份识别、终端识别、业务识别、位置识别、关系识别和消费能力与信用识别等特征数据。
      综上所述,移动运营商借多年积累下来大量的网络运营数据和用户业务数据,通过整合客户的基础信息、消费信息、活动信息、互联网行为信息方面在大数据领域具有先天优势。
1.3研究方法
      通过大数据处理技术的用户分群方法来深挖用户需求,创造新的商业价值。研究方法有以下三方面:
一、采用更加细化的用户分群,建立URL/APP地址库,通过地址库匹配完成用户上网日志解析,结合客户标签进行深度数据挖掘。
二、用HADOOP架构进行大数据处理,并对HADOOP架构进行了优化和二次封装。承载了结构化和半结构化的数据存储、数据汇聚、数据挖掘、数据关联性等运算操作,充分利用了分布式文件系统和MR的高效特性。
三、系统通过分析企业现有用户特征,归纳形成消费用户需求标签,将需求转化成互联网标签,经过大数据挖掘分析海量数据,寻找潜在需求用户。
2系统的设计与实现
2.1系统架构设计
      系统架构共分为三个层次,分别为数据源层、数据分析层、对外服务层。数据源层主要完成数据采集及入库,数据分析层完成各类KPI指标计算及业务规则处理,对外服务层主要完成面向用户数据服务与数据支持。
2.2大数据处理架构设计
      文中的大数据平台采用Cloudera公司的CDH免费版,提供了基于Hadoop架构的二次封装,使得开发和运维的成本大大降低。
      大数据平台承载了结构化和半结构化的数据存储、数据汇聚、数据挖掘、数据关联性等运算操作,需充分利用分布式MR的高效特性。入库工具通过自主研发的Ultra-Flume来实现大数据文件的并行装载,通过Ultra-IDCP来实现网管数据入Oracle库和经分数据的ETL过程。在对应用层的数据支撑上,采用数据代理服务,使应用无需关心所需数据的物理存储位置,只需通过REST接口提出消费请求,由数据共享服务通过FTP或Sqoop的方式来完成应用请求数据的支撑。
      从大数据平台整体的数据处理和分析流程来讲,共分为四个系统设计层面:
      数据采集层:使用开源Flume组件进行日志话单类型字符流数据的并行批量装载
      数据存储层:使用分布式文件系统HDFS和分布式列式数据库HBase存储数据
      数据处理层:使用Hadoop数据仓库Hive进行数据的统计、汇聚与MR处理
      数据挖掘层:使用R语言和Mahout进行大数据量挖掘与分析处理
2.3客户分群算法设计
      在客户分群的挖掘思路有两种。思路一:如果具备用户轨迹数据,如经常出现在大学城附近的用户群体,我们通过年龄限制[16-25]后,该批数据具有强力的说服力,我们将其作为样本数据研究,分维度进行分析研究,反向查找出价值维度,进行组合,再从全网用户中抽选出来该批用户群体,进行验证进而固定模型;思路二:在不具备用户轨迹数据的情况下,需要根据学生群体特征确立维度,将维度颗粒化,形成单一维度的描述曲线,定义可信维度与不可信维度,抽取随机样本数据以及初次固化的维度提取的数据用于营销,将结果回收做正、负群体特征展现,挖掘出有价值的维度,不断调优,最终固化模型,形成自动处理机制; 
      分群策略在用户标签定义的基础上,结合用户基础消费信息属性,进行需求喜好分群模型,计算用户分群属性偏好度,将分值进行归纳。
      例举高端商务客户群计算逻辑:
      选取用户标签:ARPU值、漫游属性、套餐属性、品牌属性、财经、社交、科技、数码、IT、购物、摄影、收藏、交通、天气、航班、保险、法律等标签
      结合数学算法,进行逻辑运算,计算分群属性值、类似偏好度等,形成分群定义。
      对选取的正负样本进行单维度按区间统计(统计每个区间的人数),区间划分标准为提供的附近所示。将统计完的数据进行合理转化,并且将拟合出的函数图像化,这样更便于观察正负样本的差异性。然后再进行正负样本选取、清洗、统计、图像化,反复选取5至6批数据。最后,观察图像上每批数据差异性,如果正样本或者负样本的每批数据的图像分布分散,说明提取的数据存在问题,重新提取数据。如果正负样本的函数分布具有明显差距,则该维度为有效维度,如果从该图像上辨别不出该维度是否有效,则按照给定公式计算判定该维度是否为有效维度。
      某个维度A对结果的影响程度可以通过如下方法度量,在其他所有维度保持不变的情况下,只让A变化,并统计结果的变化(营销成功的数量)。维度A的变化控制在几个区间上变化,若A有s个区间,分别记为。数学模型:
          
      显著性影响问题转化为维度A在不同区间内各维度的均值是否相等的问题,即检验假设:
      是否成立。
      符号:
      :不同区间内的结果,
      结果总数。
      总均值:
      总方差平方和:
      组内平方和
      组间平方和

      的拒绝域为:

      

      检验结果:
      高度显著:
      显著:
      有一定影响:
      无显著影响:
      根据以上流程,系统在客户标签基础上建立移动互联网用户分群定义。具体移动互联网需求客户群群体建立36个客户群,如下表:
2.4系统实现
2.4.1用户全息视图
      对用户数据的相关维度进行定义,然后提取所需字段信息,进行宽表汇总,展示用户基础信息、消费信息、套餐使用信息,通过用户分群展现用户归属分群,按优先级排列,显示用户分群命中标签项信息,通过上网内容解析展现用户最近搜索关注、微博标签、移动印象、最近应用使用排名。结合用户信令位置信息定位用户生活圈、工作圈、娱乐圈,并将位置定位在地图上。完成360度用户洞察视图,用户全息视图包括用户基础信息、用户身份识别、最近关注、应用使用排名、社交媒体分析。
用户基础信息
      对用户信息按月汇总,实现用户基础信息展示,包括用户号码、手机型号、操作系统、用户归属地市、用户年龄、入网时间、客户品牌、流量包。实现用户汇总信息展示,包括ARPU值、主套餐说明、本月流量、上月流量、三个月平均流量等。
用户身份识别
      用户身份定义根据业务需要定义常用及特定专题所需用户身份,通过调研结论将这些身份的重要特征描述出来,形成用户画像的框架。通过模型验证给出每个身份的预估维度属性。并针对每个维度进行规则判断、优先级排序工作,最终完成身份定义。
      用户身份识别是对身份定义维度所涉及的互联网标签、关键词、搜索关键词进行添加和完善,通过网页地址库对比,完成用户标签建立,最终通过模型输出该身份用户列表。
最近关注
      系统分别建立搜索关键词库和网页关键词库用于匹配用户的搜索喜好,进行针对性的营销策略制定。建立搜索关键词库,识别用户在互联网访问时的搜索内容行为,挖掘用户真实的主动需求,系统主要通过网络蜘蛛技术爬取雅虎、百度、谷歌、搜搜、搜狗等主流引擎的高频关键词进行汇总展现。
应用使用排名
      系统根据用户移动互联网应用访问记录和各应用市场高频访问,收集移动互联网应用信息,建立互联网应用软件匹配库,包括应用名称、目的IP/URL、目的端口、分类属性等。通过APP地址库匹配,最终输出用户最近使用应用情况排名。
社交新媒体分析
      系统汇总微博平台等社交媒体的用户信息,通过对内容的分析,生成标签关键字,以及对运营商的相关评价内容。社交新媒体的采集是根据系统设置的关注用户,到新浪微博中调用新浪的开发平台API采集这些关注用户的最新微博信息,采集下来的微博信息保存成Xml文件,Xml文件按照专题组织,存储放具体目录下;系统从目录下获取文章信息后,直接将信息文件删除。通过关键词搜索下来的微博和用户关注的微博中,被系统打上标签的微博信息为系统关注信息。系统需要在一定时间以内(长短可以自定义,默认3天)定时更新关注信息的访问量数据(访问量、转发量、收藏量、评论量)。
行动轨迹
       系统通过对用户位置信息的月数据分析,展示用户生活圈、工作圈、娱乐圈的位置,其中包括小区名称、位于覆盖范围附近,结合地图以小区为边界的泰森多边形展现。
生活圈\工作圈\娱乐圈的定位
1、系统完成GN口、A口信息的采集整理,通过HADOOP的分布式存储架构进行存储,形成用户上网位置信息宽表。
2、定义用户生活圈、工作圈、娱乐圈的位置信息计算逻辑:
      生活圈:周一到周日,24:00—06:00,月汇总数据小区出现频次最高即为生活圈位置;
      工作圈:周一到周五,9:00—11:00;13:00—17:00,月汇总数据小区出现频次最高即为工作圈位置;
      娱乐圈:周六、周日,10:00—21:00,月汇总数据小区出现频次最高即为娱乐圈位置;
3、数据导入统计分析模型,进行数学运算,输出统计结果。
4、将小区名称与小区位置信息表进行关联,确定小区位置经纬度。
5、系统根据小区位置经纬度调用百度地图,建立API接口,展现基于小区经纬度信息的百度地图。
2.4.2企业选址
      企业选址模块通过用户全息视图画像结合地理位置轨迹分析,为企业提供选址支撑,确定企业选址需求范围,帮助企业初步选定建店位置信息。
      企业选址流程有以下几个步骤:
a)企业用户特征分析
      新增样本将企业用户数据样本导入系统中,系统按照导入样本用户进行特征分析,输出用户特征信息,包括年龄、性别、ARPU值、套餐、搜索关键词、互联网偏好。样本查询按照用户选择维度特征进行分析,输出特征分析结果,提供历史样本特征查询功能。
      通过样本数据分析用户共性特征和差异化特征,提取正负样本,建立模型,通过模型过滤完成企业选址目标用户筛选。
b)建立行业细分互联网标签分类库
针对餐饮类企业,按照移动互联网分类规范,属于餐饮行业,系统针对餐饮行业,进行分类细化,参照大众点评分类信息,形成行业分类二级标签库。
c)建立细分行业关键词库
      通过互联网信息收集和人工调研方式汇总辽宁地区餐饮类主要品种和品牌,建立餐饮行业关键词库。
d)关键字爬取
      系统建立网络爬虫对相关互联网URL内容、标题进行爬取,细化URL\APP二级分类库,建立餐饮行业关键词库。
e)分析潜在需求用户 
      系统根据爬虫建立的URL\APP二级分类下的关键词库,结合用户互联网上网日志,确定需求潜在用户。
f)潜在用户轨迹分析
      结合A口信令信息,通过用户短信、语音事件的位置信息,针对潜在需求用户,调用百度地图API接口,分析需求用户的数量级密集的小区,并用泰森多边形在百度地图上直接展示这些小区内的潜在用户数量信息。
g)预选址区域分析
      系统通过对比各小区潜在需求用户的数量级,选定排名前三(数量可以设定)的三个小区作为需求用户经常性活动区域。针对选定的小区,根据汇总各类用户数据按照不同时间段测算各小区潜在用户特征,包括:年龄、总人口数、目标用户数、流动人口数、商家数量等,用于企业选址方案优化。
2.4.3猜你喜欢
      “猜你喜欢专题”借助辽宁移动的用户深度分析和刻画能力,精准定位用户群。用户可以将查询到的目标用户集导出到传统营销系统中,利用现有渠道进行销售工作。
系统提供以下七个条件的查询服务:客户地域属性选择、品牌属性选择、客户互联网偏好属性选择、客户消费属性选择、客户上网活跃度属性选择、客户流量使用行为属性选择、客户APP使用行为属性选择。
3结束语
      移动互联网将会带来互联网的第四波发展浪潮——李开复。
      当今移动互联网的发展似乎正在印证着李开复的这句话。而移动互联网用户已作为目前互联网用户的第一大用户群体,针对用户行为展开的精细化运营成为各大互联网企业抢占移动互联网领域的一个重要突破口。
      可以预期,未来大数据平台将在深度挖掘用户行为特征、精准判断用户消费行为、充分提升数据运营价值等方面提供技术能力,在企业选址、猜你喜欢、社交媒体、企业营销、舆情监测、交通预警、网络优化等方面产生大量对企业、消费者有价值的应用,为运营商切入新的蓝海市场提供决策支撑。 
网站首页 关于我们免责声明联系我们
版权所有:辽宁省通信学会  备案号:辽ICP备11005629
联系电话:024-22517766  地址:沈阳市沈河区北站路72号


网站建设:恒昊互联网络