基于大数据能力的5G资费潜在客户挖掘方法
魏国华 郭翔宇 康志强
中国移动通信集团内蒙古有限公司 内蒙古呼和浩特 010010
摘要:本文从用户画像与资费业务运营实践出发,探索通过用户的消费能力、消费稳定性与趋势、流量使用、语音通话等维度构建算法模型与套餐匹配策略,提升5G套餐迁转的精细化运营水平。
关键词:用户画像、5G资费、数据挖掘、精准营销
1. 引言
5G通信网络由于高速率、大容量、低延时的特点将给人们带来前所未有的极致体验与生活方式的改变。截至2019年底,全球55家电信运营商为约1000万客户提供了网速超过4G网络6-8倍的5G服务。5G资费套餐是用户能够体验5G服务的前提与基础。2019年是5G元年,在5G资费初始推广阶段,由于办理5G资费的客户规模小,传统的数据建模方式很难精准识别5G资费的潜在客户;另外,5G资费价格较高(128元起),由于高价值客户占比低,能够基本满足价值匹配要求的客户数量小,不利于5G资费客户的快速规模化;再者,随着通信市场进入零和博弈阶段以及“携号转网”政策的全面实施,用户话语权与选择自由度的提升将导致客户价值流失甚至携号转网,对于用户的需求变化与消费异动需要快速的识别,采取针对性的营销与防御策略,进行差异化的维系与挽留。
本文重点阐述以客户画像为基础支撑,如何从资费业务运营实践出发,基于大数据能力对5G潜在客户的个性化需求与消费异动进行实时、快速、全面的洞察与识别,精确支撑5G资费的推广与发展,促进5G资费客户规模与收入保有的双提升。
2. 研究思路与目标
紧跟中国移动关于“基础电信业务从规模经营向基于规模的价值经营加速转变,信息通信市场从要素竞争向[能力+要素]竞争加速转变”战略要求,顺应未来移动互联网应用“视频流”化的发展趋势,基于大数据能力完善客户画像与特征工程,通过大数据建模精确识别潜在5G资费客户,助力5G套餐迁转发展战略实施,主要目标有:
2.1.上网日志解析能力提升与客户画像完善:
通过大数据技术持续提升对用户上网日志的解析能力,增加用户画像的特征维度以及特征数据的实时性与精准度。
2.2.大数据建模
根据用户的互联网行为属性与特征偏好,并结合客户套餐情况、行为特征、消费能力与趋势等方面进行数据建模,对潜在5G资费客户进行识别。
3. 主要内容
3.1用户上网日志解析能力的提升与用户画像的完善
目前,用户画像在基础属性、消费属性等方面具有较为完备的特征维度与细分标签,但对于用户的互联网行为属性,如内容偏好、题材偏好、浏览方式、播放时长、时间偏好、APP使用时长与使用流量规模等方面受制于上网日志解析能力与数据的实时性,准确度不高。针对以上问题,在晚上上网日志数据加载机制的基础上,借助云爬虫技术、开发实时解析程序,丰富解析规则库和内容库,持续提升上网日志解析能力,细化用户行为属性数据的颗粒度,完善用户画像的精准度。
3.1.1. 完善上网日志数据加载机制,提升基础数据的完整性
针对采集到的用户上网日志流量与计费流量数据相差较大,严重影响上网日志解析结果的完整性,通过以下措施对数据传输、加载机制进行优化:
①完善采集规则,在核心网采集日志数据时,将数据尽量匹配进入HTTP接口;
②加强日志数据生成的监控,保证日志数据中关键信息的字段值(如:号码、域名、URL等)非空,以及字段值的有效性和完整性;
③测试、调优Kafka的传输参数,保证在日志传输过程中的负载均衡。
3.1.2. 域名库、规则库、内容库的完善
(1)域名库的补充与完善
①按照集团下发的域名规则,梳理后补充至本省域名库中;
②引入第三方域名库,进一步完善域名库规则;
③与其他省公司交流,将其个性化的域名规则引入至本省域名库;
④定期分析、梳理上网日志解析结果数据,将其中用户数较高且未识别解析的域名进行整理、分类,通过手工web验证、爬虫等方式,获取其相关信息,并将获取到的信息补充至规则库中;
(2)内容规则库的补充与完善
①监控上网日志内容解析结果,分析数据变化,对有疑问的分析结果,反向跟踪解析规则是否合理或缺失,并针对具体原因进行内容解析规则的更新补充;
②针对专项需求,对指定的APP,进行内容识别规则的提取、分析和建立,并将新规则补充至内容规则库;
③通过与基地合作,由基地提供内容规则,验证其有效性后,将其补充至内容规则库;
④引入第三方内容规则库,与现有规则库对比、整合后,将我们不具备的内容规则补充至规则库。
(3)内容库的完善
①针对有特殊要求的内容,在已开发的爬虫程序基础上,修改程序爬虫模式,将全站深度爬取,修改为指定范围爬取,提高爬取信息的统一性;同时优化爬虫程序,提高爬取效率,来完成特殊内容的爬取;
②采取反向爬取的方式,对于内容解析程序已经识别但内容库还没有相关信息的内容ID,进行针对性的信息爬取;
③开发、使用云爬虫工具进行内容爬取;通过云爬虫工具,配置爬虫规则,在完成首次采集后,还可以设置定期采集机制,指定时间间隔,对新增的内容信息进行采集;另外,云爬虫工具是运行在云平台上,可以保证爬虫的采集效率;
④引入第三方内容库,完善现有的内容库;
⑤基地下发内容库,结合现有内容,将本省还不具备的内容补充至内容库。
3.1.3上网日志的解析能力的提升
在不断补充与完善域名库、内容规则库、内容库的基础上,通过开发实时应用级解析程序,从网管侧按流式传输至kafka的日志数据为基础进行解析,日志传输1条就解析1条,实现上网日志的秒级时延解析,配合营销模式的实时化改造,能够实现在分钟级时延内完成从用户上网动作发生到相应营销完成的整个过程。
目前,上网日志解析平台日均处理180亿条上网日志原始数据,解析率可达到90%以上,内容识别率为85%以上,可识别30万以上互联网站与4371个主流APP应用,解析时间可达到秒级。通过上网日志解析结果,开发了上网行为专项分析平台、丰富了客户上网行为标签,构建了实时事件营销场景,为开展基于客户上网行为的精准营销提供基础支撑。
3.1.4用户画像的优化与完善
根据上网日志的解析结果,已建设1230类客户上网行为偏好标签,包括视频、阅读、音乐、新闻、娱乐、生活、购物、出行、社交、旅游、游戏、动漫等分类的静态标签和动态标签,其中静态标签587类,动态标签643类,通过上网日志解析结果对客户标签进行动态更新,进一步丰富了客户画像,提升了对客户需求的洞察能力。
3.2 基于用户画像的大数据建模
5G资费推广前期,由于办理5G资费客户较少,基于样本训练的建模方式无法达到满意效果,本文采取套餐适配法,即在用户画像的基础上根据用户行为与各套餐匹配,其模型设计流程主要包括:A、根据用户消费能力(ARPU)、流量使用规模(DOU)、流量使用饱和度、语音通话分钟数(MOU)、语音饱和度等客户特征与产品库中5G套餐的套餐价值、套餐所含的语音、流量等进行结构化映射解析;B、通过消费稳定性与消费趋势分析对客户潜在消费能力变化进行评估与预测;C、根据用户的流量使用规模视频流量使用占比及趋势、视频偏好等情况对流量使用需求与潜力进行评估;D、通过资费阈值设置计算法计算得出预警阈值,最后根据消费稳定性与流量使用潜力情况对客户进行套餐精准适配。

图1 基于套餐适配算法的模型设计流程
3.2.1目标客户筛选
考虑到5G资费套餐的价格较高(128元起),从上月全网通信客户中选取ARPU大于80元的客户作为初始目标客户,为了保证营销资源的精准投放和充分利用,需要对初始目标客户群体进一步筛选与剔除:
①近两个月内入网的新用户;
②流量≤100M的客户或无视频流量客户;
③当前状态为非正常的客户;
④公免、测试、员工号、黑名单、疑似养卡客户、非语音卡客户;
⑤近3个月内有主资费套餐变更记录的客户;
⑥业务促销规则限制不能更改主资费套餐的客户。
通过以上规则筛选,最终得到初步适宜进行主资费变更推荐的目标客户群体。
3.2.2用户的消费稳定度与趋势分析
(1)用户消费稳定度分析
客户消费的稳定性,可以很好的反应固定周期内目标客户的主动消费意愿,业务运营实践发现,客户消费稳定性与客户资费变更意愿具有较强的相关性。
提取用户前三个月的ARPU消费情况,分别记为ARPUT-1、ARPUT-2、ARPUT-3,其中T代表当月月份,D表示该用户前三个月的ARPU均值,用户的消费稳定度指数记为S,则有:

根据4G资费运营实践,当S≤2时,选择匹配资费套餐,S>2时,暂不匹配资费。
(2)用户消费趋势分析
在确定了目标客群中用户的消费稳定性指数与套餐匹配预警阈值后,需要对用户的消费趋势进行分析与预测。客户消费趋势对于套餐匹配策略有较大的参考价值。
提取用户前6个月的ARPU消费情况,分别记为ARPUT-1、ARPUT-2、ARPUT-3、ARPUT-4、ARPUT-5、ARPUT-6,其中T代表当月月份,D表示该用户前6个月的均值,用户的消费趋势指数记为G,则有:

通过对用户消费趋势的计算,可以得到用户的消费发展趋势指数与分布特征。

图2 消费发展趋势指数与特征分布
3.2.3资费匹配策略
资费匹配策略主要是用来评价用户消费能力与新资费匹配后的收入损益。资费匹配策略主要有三种方式:就高匹配、就近匹配、就低匹配。其中就高匹配适用于消费能力或消费行为呈上升趋势的用户群体;就低匹配适用于价值流失或消费行为下降的用户群体;就近匹配适用于消费能力与消费行为都比较稳定的用户群体。
根据用户三个月月均消费能力(ARPU)与消费趋势指数(S)对符合5G资费套餐迁转的客户进行进一步的洞察与细分,不同细分区域的客户将采取相应的资费匹配策略。
图4 客群细分与资费匹配策略
消费能力维度:将相邻的两种不同主资费档次之间的用户消费区间等分为相等的3个部分;
消费趋势维度:消费趋势分布也划分为3部分。由于提速降费与存量竞争的共同影响,语音与流量单价持续降低,反应在用户通信消费能力上也是降多升少。运营实践中,区间划分的取值分别为-5%、2.5%。
基于客群细分, 以下方式匹配资费策略:
(1)消费能力居中1/3的最下面一格以及靠左1/3客户(红色部分),按就低原则匹配资费(套餐A);
(2)消费能力居中1/3的最上面一格以及靠右1/3客户(蓝色部分),按就低原则匹配资费(套餐B);
(3)消费能力居中1/3的中间格(灰色部分),按就近原则匹配资费,就近匹配的具体算法详见3.4节。
3.2.4基于相似度的套餐匹配算法
就近匹配推荐算法的核心在于相似距离的计算,常用算法有余弦相似度、皮尔逊相关系数、欧式距离、闵可夫斯基距离、杰卡德相似系数等,本文采用余弦相似度算法。
余弦相似度,是用向量空间中两个向量夹角的余弦值作为衡量两个个体间差异的大小的度量。余弦距离可表示为:
用于余弦相似度计算的主要输入变量有消费能力(ARPU)、使用流量(DOU)、主叫语音通话分钟数(MOU),计算过程如下:
(1)将输入变量进行归一化处理,计算公式为:

(2)计算用户ARPU和不同套餐资费的距离。取产品库中任意两档主资费套餐(月费Ai1、月费Ai2)与近三个月月均ARPU(A)的距离;将所有距离进行升序排列,分别取前三个主资费档次,即距离A最近的三个主资费档次,距离记为1,2,3;
(3)计算用户流量和不同套餐包含流量的距离。取 用户近3个月实际使用流量数(D)与第三步的匹配后的主资费里面包含的流量数(Di)的距离,计算公式为:abs(D-Di1),abs(D-Di2);将所有距离进行升序排列,分别取前3个流量数对应的主资费档次,距离记为1,2,3;
(4)按照相同的方法计算用户语音通话分钟数与不同套餐包含语音通话分钟数的距离。
(5)求距离均值:将第(2)步得出的主资费套餐档次的系数及第(3)、(4)步得出的主资费档次的距离进行相加取得平均值,并将平均值进行升序排列,取出第一个主资费套餐(距离最小),即得到推荐对应的5G主资费套餐。
4. 应用效果
5G资费套餐适配模型2020年1月1日上线运营,截至2月底发展5G资费套餐客户80455户,用户办理5G资费套餐以128元资费为主,占比77.4%,详见图5。

图5 办理各档位5G资费套餐的客户数分布
办理5G资费客群(T月)在资费生效当月(T+1)的收入贡献较5G资费办理前月(T-1)增收40.6万元,收入增幅5%,人均提收5.1元。考虑到新冠病毒疫情持续至今的影响,5G资费适配与发展效果还是令人满意。
5. 结语
针对5G资费推广前期办理5G资费客户量少、传统建模方式无法达到满意效果的现状,根据资费业务运营实践,通过用户的消费能力、消费稳定性与趋势、流量使用、语音通话等维度构建5G套餐适配算法模型并上线运营,取得了不错的运营效果。该套餐适配模型深耕于资费业务运营实践,具有较强的可复制性与可实施性。
下一步将根据已办理各档位5G资费套餐客户为基础构建5G套餐各档次客户识别模型,探索确定各套餐档次的正样本特征,分别使用xgboost算法、GBDT、逻辑回归算法等算法对不同档位的模型效果进行综合比较,选择各档位资费的最优算法,持续提升5G资费套餐的精细化营销水平,支撑5G套餐迁转战略目标的实现。
参考文献:
[1] 卢辉. 数据挖掘与数据化运营实践. 机械工业出版社, 2013.
[2] 项亮. 推荐系统实践, 人民邮电出版社, 2012.
[3] Mark·M·Meerschaert. 数学建模方法与分析(第四版), 机械工业出版社, 2014.
[4] 李正茂, 王晓云, 张同须等. 5G+:5G如何改变社会, 中信出版社, 2019.




