大数据行业市场发展有利因素不利因素及行业技术特点分析

阅读:

1、大数据行业市场发展有利因素

(1)国家政策大力支持

自2014年政府工作报告首次出现“大数据”概念以来,大数据行业得到了国家政策的大力支持,相关政策陆续出台。2015年8月,国务院发布了《促进大数据发展行动纲要》,提出要重点支持大数据示范应用、重点支持大数据共享开放、重点支持基础设计统筹发展、重点支持数据要素流通,为中国大数据行业的发展指明了道路。2016年3月,《十三五规划纲要》首次提出要实施国家大数据战略,促进大数据发展行动,深化大数据在各行业的创新应用,加快完善大数据产业链。多个国家级产业促进政策的相继落地使大数据行业迎来了新一轮的发展机遇。

(2)市场规模迅速提升

中国互联网及智能硬件的快速普及带来了数据的爆发性增长,海量数据的收集、处理和展示使各行各业能深刻地洞悉行业规律,同时提升效率。据Wikibon估算,到2017年,全球大数据市场规模预计将达到501亿美元。大数据对传统行业的改造和升级将为大数据企业创造难得的发展良机。

(3)基础设施逐步完善

中国近年来的经济发展带动了大数据行业基础设施的逐渐完善。数据中心和云计算平台的大量涌现、5G等移动通信技术的兴起、公共无线网络的普及和网络带宽服务的不断优化都将为大数据行业的发展提供肥沃的土壤。

2、数据行业市场发展不利因素

(1)行业失真数据的干扰

数据量的大幅增加也伴随着失真数据的掺入。失真数据将使得部分基于大数据的研究结论失去准确性,从而影响到大数据在各个垂直领域的深度应用。若未来失真数据的比例不能得到有效控制,或行业内无法有效甄别失真数据,整个行业的健康发展将会受到冲击。

(2)高端人才的紧缺

大数据行业的发展离不开高端人才的支持。大数据行业主要人才需求主要集中在数据采集与处理、底层技术架构、数据分析、解决方案、垂直行业等主要几个方向。目前,中国大数据行业还没有建立起完善、健全的人才培育机制,大数据相关人才还比较稀缺。高端人才的紧缺将成为未来几年制约大数据行业发展的重要因素之一。

(3)数据资源的割裂

目前,中国大数据行业还没实现真正意义上的产业化,缺乏行业规范和统一标准,数据的公开性与归属权不清晰直接导致了数据被割裂到一个个独立的数据平台内部。跨平台的数据共享受制于数据保密等因素很难真正实现,大数据的真正潜力也难以得到完全释放。

3、数据行业技术水平及特点

(1)移动终端技术致力于“省电、省流量、省资源”

为保证推送消息的及时下发,“个推SDK”运用了长连接技术,一直运行于移动终端系统后台并需要时刻保持和服务端通讯。长连接技术虽然保证了推送消息的及时下发,但也会导致手机待机时间下降,流量消耗增加。在省电省流量方面做了大量的工作,利用心跳自适应机制,动态适应各个省份不同运营商不同网络接入设备的心跳时间,并对每个数据包的常用包头包尾和用户登录鉴权机制都做了深度裁剪和优化。“个推SDK”基础服务空载时的日均耗电量约15到50mAh,手机待机时间的缩短控制在5%以内,月均空载流量消耗量约0.8到1.2MB,省电省流量效果显著。

随着移动终端上具有“个推SDK”的APP不断增加,基于避免重复浪费用户电量和流量的考虑,将各个APP之间的长连接链路进行合并,通过连接复用、主从模式协商、流量均摊等模式,合理使用网络和CPU资源,以达到节省资源的目的,最大程度的减少了对运营商网络的信令的浪费和对手机厂商资源的消耗。

此外,在省电省流量的基础上,“个推SDK”还实现了多语言、多平台的适配,为开发者节省了大量开发时间,使其可以便利的享受一站式接入服务,满足客户对安全、稳定以及APP有效活跃度的需求。

(2)服务端分布式通信系统致力于“高并发、高吞吐、高速度、高可靠”

推送系统实际上是一个上亿规模用户同时在线的并发通信平台。在海量用户基数上面,如要保证类似移动运营商的服务质量,需要满足功能以及性能方面的多项苛刻要求。

在高并发的要求下,每台服务器的并发用户数直接影响了服务成本,为了尽可能地节省成本,提高单机处理能力,从硬件设备配置、操作系统、网络协议、编程模型、应用设计等多个层次进行了挖掘优化,使得普通服务器单机可以承载二百万以上的用户同时在线。

新闻类APP对消息推送的实时送达能力要求较高。通过打通全系统瓶颈,有效保证了推送系统每秒百万级消息“高吞吐”能力,确保新华社、人民网、网易新闻等客户端用户能在几分钟内收到热点新闻。

的推送系统采用自主研发的大规模并发分布式通信技术,能在海量用户并发请求下平稳地提供服务,在“高并发、高吞吐”的基础上实现非高峰时期的消息到达时间小于0.2秒的“高速度”,并达到在线用户98%以上、活跃用户90%以上的消息到达率,保持了较高的可靠性。

(3)大数据处理技术服务于各垂直领域,帮助移动互联网营销实现“五合适”

的移动应用开发者服务、移动互联网营销服务以及其他数据服务,本质上是对大数据处理技术、机器学习、人工智能等技术的使用。

在数据的获取方面,通过使用多种数据采集框架、海量数据订阅发布技术,将每天产生的海量数据资源进行采集,经清洗、筛选、脱敏后保存,为后续的进一步应用奠定基础。每日新增的有价值日志数据量超过百亿条,容量超过10TB,现有总数据量超过20PB,已形成相当可观的数据资源。

在数据的计算处理方面,搭建了上千台服务器的大数据集群,根据数据热度和业务要求,进行准实时的流式处理和大批量脱机处理。对于处理后的结果,通过使用Hive等平台来进行快速检索及查询,利用图形框架以及前端技术把数据以形象化的方式进行展示。

在数据建模及用户画像方面,采用特征工程、机器学习、深度学习算法针对样本数据进行特征构造、建模、计算,对用户进行画像和分群。目前已经建立超过一百个标签的智能标签体系,广泛服务于技术推送以及精准营销领域。

在场景捕捉方面,开发了LBS电子围栏技术,通过人工智能技术的运用,对各个电子围栏和场景进行关联对应,建立了约六千多万个场景档案。在大数据处理、用户画像、场景捕捉等技术的基础上,建立了移动互联网精准广告平台。

对于品牌广告,由于拥有自有数据,结合跨屏匹配技术,可以对流量背后的用户进行属性确定,根据广告主的需求对真正的目标用户实施精准投放;对于效果广告,针对此流量所在的媒体、所在的位置等信息,可结合历史的点击数据,使用回归等机器学习算法来预测此次展示可能的点击率,从而达到效果的最优化。

结合时间、地点、用户属性、兴趣爱好、历史行为信息等多个因素,还可采用相似性算法(Lookalike)、协同过滤算法等技术推荐广告投放的具体内容,提高最终的转化率,从而真正实现在合适的时间、合适的地点、合适的场景下,将合适的内容推送给合适的目标人群。

标签:

相关阅读