中国移动是国内最早开始做数据库的通信运营商,其在2001年就启动了数据仓库系统规划和建设的工作,从2003年开始建设,到2015年数据仓库数据超过100pb。中国移动在这十几年的数据运营期间,前后花费了上百亿的投资。
通信运营商的数据十分复杂,单单一个b域就有着各种各样的系统,一般广为人知的是cm系统。这些b域的数据主要是基础的客户订购,包括使用产品的情况、使用时长等。m域的数据包括erp及相关系统,中国移动与外界接触越多这个系统就越复杂,累计到今天其复杂程度可想而知。剩下的数据就是一些资产类的、网络类的、o域数据,这个域的数据也很复杂。
除此之外,中国移动还有一些dpi的数据,主要是针对信令数据做的一些解析。这些数据来自中国移动的业务平台,包括大家知道的飞信、网上营业厅等。
这些种类繁多的数据单单以前积累下来的就已经数不尽数,更何况如今已步入互联网时代,每天产生的数据量数以亿计,其复杂度已达到难以想象的程度。
中国移动原本使用的是传统的数据库,传统数据库在互联网时代的大数据环境里主要面临的问题是处理海量、复杂、非结构化的数据很弱,效率低,如何处理这些每天新增的海量数据成为中国移动一大难题。
无巧不成书,正当其对非结构化数据头疼时,擅长处理海量数据的hadoop平台崛起。于是,中国移动果断开始启用新技术,在一个省做试点
hadoop平台一进入中国移动就带来了巨大反响,将详单查询时长从秒级提升到毫秒级。同时,hadoop平台也为中国移动点来了并行操作,这极大的提升了数据处理效率。不仅如此,在压缩数据方面hadoop平台将中国移动的数据缩小了6倍,这极大的为其节约了数据存储的成本。
可以说hadoop平台的诞生,就如同救星一般给中国移动带来了希望。于是,中国移动高层开会决定,开始大规模启用hadoop平台。但随着hadoop平台的深入应用,其问题也突显而出。
在使用传统数据库中,仅需一个工程师就可以解决业务需求,使用hadoop平台最少需要三到四名hadoop技术人员。其单个技术人员成本就远高于原先的工程师,而且这些hadoop技术人员还不一定能搞得定业务需求。面对这么大的人才需求,像中国移动这种有着国企背景的企业,如何做出人才的引进与调整又是另外一个话题了。
更为棘手的是hadoop平台在学校里没有相应的课程,这使得中国移动不是靠花钱就能解决人才需求,还需要考虑人才市场是否有这么多供给。
在上述诸多因素的推动下,中国移动决定启用大数据处理软件来解决日益增长的海量数据。因此,baymax大数据科学平台进入了中国移动的视野。
baymax大数据科学平台具有拖拽式流程设计、工作流任务管理、预置数据处理算法、可灵活扩展等特点,使得中国移动的技术人员无需有hadoop平台开发经验,即可自主筛选翻译完成各种需求。
中国移动的技术人员只需将数据源接入到baymax大数据科学平台,以拖拽的形式设计出工作流程图,系统将自动由yarn(资源调取器)统一调度在kafka(消息分发共享集群)上进行消息分发,然后导入到strom(流计算)进行实时流处理。在由storm(流计算)将数据放入hive(数据仓库)中,并启用mr(批计算)和spark(批计算)进行离线批处理,处理完之后一部分数据存储到hbse(数据存储器)上,另一部分存储到传统的数据库中。
此时,如果业务需要详单查询,即可从hbase(数据)上调取;如果需要实时指标,即可从storm上调取;其他的像信令应用、soc客户感知、客服应用等业务只需要从传统数据库中调取即可。
仅凭这些baymax大数据科学平台还不足以获得中国移动的信任。baymax大数据科学平台还可以基于数据源控制千个节点以上的超大规模计算机集群,完成pb级别以上的数据处理。并且可对接多种结构化数据、非结构化数据,支持hadoop、sprak、python、ruby等算法及语言的扩展。
强大的功能、丰富的应用场景使得baymax大数据科学平台成为中国移动应用的大数据处理软件,这也是国内通信行业首个大规模使用的大数据科学平台。
取得如此好的成绩与公司雄厚的实力密不可分。睿帆科技的核心成员均来自阿里巴巴、华为、诺基亚、teradata等世界知名企业,他们身怀绝技、智力超群,同样有趣、有爱、有信念、有担当,想要一起用技术改变世界!
他们想用自己的双手在数据的领域里一点一滴的改变世界,让世界更美好!