本文长度为1700字,预估阅读时间2分钟。
"在大数据市场里,运营商数据扮演着重要的角色。在外界看来电信运营商数据是全量的,无所不能的。其实不然,今天就谈谈运营商数据。"
我们一切通讯和互联网应用都建立在通讯网络上。所以三大运营商-电信,移动,联通能够接触到全部中国互联网的流量数据,这话不假。我们先从技术上看看运营商的数据是如何获取的,都有哪些类型。前面说过,所有互联网应用数据都要经过通讯设备传输。有线和无线的数据终端产生的数据,最终汇集到有线骨干网络,再通过路由器向相应目的地分发。固网流量数据有2种获得方式:
1.直接分光,可以得到100%的流量数据;
2.端口镜像,主要是80,8080这两个http协议常用端口。移动流量数据获取要复杂一些,涉及不同运营商蜂窝网络标准,主要对接GPRS,CDMA,LTE网络端口来获取。运营商都有自己的数据平台,数据处理主要采用DPI-Deep Package Inspection 深度数据报文解析技术-所谓“深度”是和普通的报文解析层次比较而言的,“普通报文检测”仅分析IP包的4层以下的内容,包括源地址、目的地址、源端口、目的端口以及协议类型,而DPI 除了对前面的层次分析外,还增加了应用层分析,识别各种应用及其内容。对应用层的识别依赖于对市场活跃流量对应的业务和供应厂商的持续跟踪和更新。另外一个数据采集方式是通过日志溯源系统,日志溯源系统3大运营商有自己的格式,数据和日志的join工作也已经完成,一般采用流日志的格式,以文件形式保存,不能够做到实时。
运营商数据平台主要采集的是用户上行流量-即用户向网络主动发送请求的数据。此外移动网络中还有基站信令数据,用于维护用户设备与网络链路的链接,不受用户控制,随时随地的发生。这部分数据也有很大商业价值,比如LBS信息,但因为数据归属部门不同,一般不纳入运营商的数据采集体系。运营商数据解析有很多技术障碍需要克服,比如NAT问题,在IPv4向IPv6过渡过程中,为提高IP地址复用率造成的用户识别困难数据分片造成的数据完整性问题;还有数据缓存清洗问题,https加密问题等等。因此,在了解了运营商数据产生传输机制后,运营商为大数据应用而建立的数据平台,并没有外界看起来的那么顺手和轻松。
打个比方,运营商视角网络上的数据好比由无数条不同材质,形状,颜色的珠子串成的项链,被拆散混在一起,还夹杂着各种连接件一股脑的丢进管道网络里,奔向不同的目的地。你观察管道川流不息的珠子流,想重新还原出一个完整项链的样子...
谈何容易。下面我们谈谈运营商数据适合的应用场景。对于单个用户而言,他至少是依赖某一个运营商来进行网络通信,因此如果以国家安全的名义,技术上是可以追溯这个用户的全部网络行为数据的(日志回溯系统为此而建立),从而对用户进行精准画像。
但是针对某一个市场,省份的用户群,毕竟我们有3个运营商,没有哪一个运营商拥有全部数据。不过每一个运营商的数据在市场上是垂直分布的,体量也足够大,因此样本覆盖是很全的,所以很适合做统计分析和洞察。整个市场好比是一块大蛋糕,每个运营商都自上而下的切了一块,你看看切面就知道蛋糕的配料组成和分布了。
至于大多广告主希望的针对个人用户的重定向,精准营销,运营商数据技术上可以做,但是实际上很难操作。因为数据安全敏感性原因。运营商所有数据都有一个宗旨:“不出网”,这个不出网的概念是不能对接到运营商机房以外的任何系统里。运营商不敢为了数据应用这点芝麻
来源【首席数据官】,更多内容/合作请关注「辉声辉语」公众号,送10G营销资料!
版权声明:本文内容来源互联网整理,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 jkhui22@126.com举报,一经查实,本站将立刻删除。