数据结构论坛

首页 » 分类 » 分类 » 华为要做汽车业的苹果这些必须先掌握
TUhjnbcbe - 2024/7/9 16:13:00
白癜风诊疗新技术高峰论坛 http://www.csjkc.com/yydt/826.html

第一章行业概况

大数据行业指提供大数据技术服务的行业。大数据是超过传统数据库系统处理能力的数据。需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据(BigData),IT行业术语,是指无法在一定时间内用常规软件工具对其内容进行抓取、关联和处理的大量而复杂的数据集合。大数据具有5V特性:Volume数据规模大,Variety数据类型多,Value价值密度低,Velocity数据流转快,Veracity数据真实。从年至今,大数据概念势头依然不减。从人都在讲概念,到商业化应用典型案例出现,可以清晰地看到大数据在逐步落地。

图大数据产业链结构

1.1大数据结构

结构化数据:即固定格式和有限长度的数据。也称作行数据,是由二维表结构来逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。

非结构化数据:数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML,HTML、各类报表、图像和音频/视频信息等等。

半结构数据:在做一个信息系统设计时肯定会涉及到数据的存储,一般我们都会将系统信息保存在某个指定的关系数据库中。我们会将数据按业务分类,并设计相应的表,然后将对应的信息保存到相应的表中。

图大数据结构

1.2大数据的三个层面

第一层面是理论,理论是认知的必经途径,也是被广泛认同和传播的基线。在这里从大数据的特征定义理解行业对大数据的整体描绘和定性;从对大数据价值的探讨来深入解析大数据的珍贵所在;洞悉大数据的发展趋势;从大数据隐私这个特别而重要的视角审视人和数据之间的长久博弈。

第二层面是技术,技术是大数据价值体现的手段和前进的基石。在这里分别从云计算、分布式处理技术、存储技术和感知技术的发展来说明大数据从采集、处理、存储到形成结果的整个过程。

第三层面是实践,实践是大数据的最终价值体现。在这里分别从互联网的大数据,政府的大数据,企业的大数据和个人的大数据四个方面来描绘大数据已经展现的美好景象及即将实现的蓝图。

图大数据的三个层面

1.3大数据的三大特征

第一个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等多类型的数据对数据的处理能力提出了更高的要求。

第二个特征是数据价值密度相对较低。如随着物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何通过强大的机器算法更迅速地完成数据的价值“提纯”,是大数据时代亟待解决的难题。

第三个特征是处理速度快、时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。

1.4大数据5V特点

(1)Volume大量:数据的采集,计算,存储量都非常的庞大。

(2)Variety多样:种类和来源多样化。种类有结构化、半结构化和非结构化数据等,常见的来源有网络日志、音频、视频、图片等等。

(3)Value价值:数据价值密度相对较低,犹如浪里淘金,百炼成钢般才能获取到大量信息中的部分有价值的信息。

(4)Velocity高速:数据增长速度快,处理速度也快,获取数据的速度也要快。

(5)Veracity真实:数据的准确性和可信赖度,即数据的质量。

图5V特点

图大数据产业链数据价值实现流程

年大数据上升为我国国家战略,十三五规划纲要全文第二十七章明确提出“实施国家大数据战略”,彰显了国家对于大数据战略的重视。在国家政策的推动下,我国大数据行业市场规模高速增长。根据信通院报告,年中国大数据市场规模约为亿人民币。我国大数据领域专利申请数量自年以来飞速增长。年即达到年的十倍多。年,专利申请数量达到件。大数据产业商用价值仍未完整展现,市场前景一片广阔。

第二章商业模式和技术发展

2.1产业链价值链商业模式

2.1.1大数据产业链

图大数据产业链

大数据产业链可以从数据源、大数据产品、大数据服务应用这三大块来讲。目前,我国的数据来源包括政府部门、企业数据采集及供应商、互联网数据采集及供应商、数据流通平台等。而大数据产品包括大数据平台、云储存、数据安全等基础软件产品;加工分析、解决方案等软件产品;大数据采集、接入、存储、传输等硬件设备产品。大数据服务方面,主要为应用服务、分析服务、基础设施服务等供应商。

产业链上游分析

(1)数据标准与规范

大数据标准体系是开展大数据应用的前提条件,没有统一的标准体系,数据共享、分析、挖掘、决策支持将无从谈起。大数据标准包括体系结构标准、数据格式与表示标准、组织管理标准、安全标准和评测标准。在标准化建设方面,参与单位主要包括中国电子技术标准化研究院、各个数据库公司、数据拥有部门以及各个行业的标准化组织。

(2)数据安全

随着海量数据的不断增加,对数据存储和访问的安全性要求越来越高,从而对数据的访问控制技术、加密保护技术以及多副本与容灾机制等提出了更高的要求。另外,由于大数据处理主要采用分布式计算方法,这必然面临着数据传输、信息交互等环节,如何在这些环节中保护数据价值不泄露、信息不丢失,保护所有站点的安全是大数据发展面对的重大挑战。在大数据时代,传统的隐私数据内涵与外延有了巨大突破和延伸,数据的多元化与彼此的关联性进一步发展,使得对单一数据的隐私保护方法变得极其脆弱,需要针对多元数据融合的安全提出。在数据安全环节上主要参与单位包括中国电子科技集团公司第30研究所以及奇虎、瑞星等杀毒软件公司

产业链中游分析

(1)数据采集

政府部门、以BAT为代表的互联网企业、运营商是当前大数据的主要拥有者。除此之外,利用网络爬虫或网站公开API等途径对网络数据进行采集也是大数据的主要来源。现实世界中的数据大多不完整或不一致,无法直接进行数据挖掘或挖掘结果不理想,需要对采集的数据进行填补、平滑、合并、规格化、检查一致性等数据预处理操作,并且往往需要大量的人工参与,因此数据采集和清洗成为大数据产业链的一个重要环节。

(2)数据存储与管理

大数据存储与管理的主要参与者以传统数据库企业为主,国际上主要有IBM、Oracle、Intel、Green-plum、InformaticaCloudera等;国内主要有中兴、华为、用友、浪潮、托尔思、数据堂、九次方、亿赞普、达梦等。各家企业针对大数据应用开展各具特色的数据库架构和数据组织管理研究,形成针对具体领域的产品。

(3)数据分析与挖掘

大数据分析与挖掘的意图主要集中在两方面:一是从大量的机构结构化和半结构化数据中分析出计算机可以理解的语义信息或知识,二是对隐性的知识,如关联情况、意图等进行挖掘。常用的方法包括分类、聚类、关联规则挖掘、序列模式挖掘、时间序列分析预测等。数据分析与挖掘的核心算法与软件主要掌握在大型数据库公司及高校的手里,国际上主要参与者包括IBM、甲骨文、微软、谷歌、亚马逊、Facebook等,国内主要参与单位包括数据库企业、高校、以BAT为代表的大型互联网企业等。数据分析与挖掘的能力直接决定了大数据的应用推广程度和范围,是大数据产业的核心。

产业链下游分析

(1)数据运维

由于数据的重要性得到普遍认可,除政府部门不具备数据运维服务条件外,数据的采集者通常就是数据运维者。各地政府方面则通常利用大数据平台建设来推动政府大数据的公开与共享,如云上贵州,吸引个人和企业用户开展创新与创业,积极推动大数据的增值服务。

(2)数据应用

大数据对传统信息技术带来革命性挑战,正在重构信息技术体系和产业格局。国内以阿里巴巴、百度、腾讯、人大金仓、浪潮、曙光、南大通用为代表的互联网企业、云计算和数据库厂商纷纷加大应用推广力度,在国际先进的开源大数据技术基础上,形成独自的大数据平台构建和应用服务解决方案,以支撑不同行业不同领域的专业化应用。虽然这些企业在平台构建上有着得天独厚的优势,但是在某些具体业务领域,并不擅长或者关切。传统企业以及从事大数据的微型企业是具体业务领域上大数据应用的主力军。应用是大数据价值的体现,是大数据发展的原始推动力。当前大数据的应用正倒逼软件技术、数据架构、数据共享方式的转变,在转变思维过程中需要积极转变思维,明确出数据共享的方式是什么,数据拥有者的利益如何平衡,商业模式如何开展等等。

2.1.2商业模式

随着大数据炒作期的结束,国内外大量企业开始投入大数据实战,大数据生态产业链逐渐形成。整体而言,全球的大数据应用处于发展初期,中国大数据应用才刚刚起步。目前,大数据应用在各行各业的发展呈现“阶梯式”格局:互联网行业是大数据应用的领跑者,金融、零售、电信、公共管理、医疗卫生等领域积极尝试大数据。现阶段制约大数据发展的因素有三方面,分别是数据、技术和应用。

大数据产业链的参与者主要包括:数据提供商、分析技术提供商、基础设施提供商、业务应用提供商。

图大数据产业链构架

目前,在大数据产业链上有三种大数据公司:

基于数据本身的公司(数据拥有者)︰拥有数据,不具有数据分析的能力

基于技术的公司(技术提供者)︰技术供应商或者数据分析公司等;

基于思维的公司(服务提供者)︰挖掘数据价值的大数据应用公司。

"数据拥有者”的商业模式

数据拥有者,这样的公司有三类:

(1)大数据是业务核心,对大数据的重复利用是其发展的原动力。例如Google、Amazon、Inrix等。这种公司具有很强大的大数据技术能力,多数时候大数据技术本身主要用于自身的运作,具有三种产业链角色:数据(+技术)+服务。

(2)大数据是作为提高生产效率、增加业务收入或者创造新的收入的使能器,非厂商的主流业务。例如运营商、银行等,运营商的主要业务是通过通信设备提供的各种网络语音和数据业务,目前运营商本身并不通过数据的重复利用为主要手段来盈利。

(3)数据中间商,本身不具有创造数据的能力,从各种地方搜集数据进行整合,然后再提取有用的信息进行利用。

图数据拥有者及基础设施提供

它们的商业模式有:

(1)面向企业或者公共政府部门,提供数据分析结果的服务。Inrix在交通信息领域,面向GPS生产商、和交通规划部门、FedEX和UPS等物流公司等,出售完整的当前甚至未来的交通状况的模式图或者数据库。

(2)面向个人,提供基于数据分析结果的服务。Inrix提供一个免费的智能手机应用程序,一方面它可以为用户提供免费的交通信息,另一方面它自己就得到了同步的数据。

(3)租售数据/信息模式(数据资产分享和交易平台),新的商业模式,把数据/信息作为资产直接进行销售。Twitter把它的数据都通过两个独立的公司授权给别人使用;VISA和MasterCard收集和分析了来自个国家的15亿信用卡用户的亿条交易记录,用来预测商业发展和客户的消费趋势。然后,它把这些分析结果卖给其他公司。

“技术提供者”的商业模式

技术提供者的商业模式是目前的主流,有4种类型:

(1)提供单点技术,pure-play为主。Teradata为沃尔玛和Pop-Tarts这两个零售商提供大数据分析技术,来获得营销点子。

(2)提供整体解决方案,IT厂商为主。IBM提供软硬一体的大数据解决方案;华为基于IT基础设施领域在存储和计算的优势,提供整体大数据解决方案。

(3)大数据空间出租模式:大数据计算基础设施上(与云结合),通过出租一个虚拟空间,从简单的文件存储,逐步扩展到数据聚合平台。腾讯开放云战略为大数据创业者提供了廉价的数据基础设施,使中小企业也有机会在大数据领域创新业务。

(4)BigdataasaService,新的商业模式,提供E2E在线大数据技术或者解决方案。

技术提供者的商业模式,目前较少,与cloud结合后有很大的空间,未来是趋势。

图分析技术提供商

“服务提供者”的商业模式

服务提供者有两种:

(1)应用服务提供者,基于大数据技术,对外提供服务。面向企业或者公共政府部门,提供数据分析结果的服务;面向个人,提供基于数据分析的服务。

(2)咨询服务提供者,提供技术服务支持、技术(方法、商业等)咨询,或者为企业提供类似数据科学家的咨询服务;定位在某一具体行业,通过大量数据支持,对数据进行挖掘分析后预测相关主体的行为,以开展业务;利用数据挖掘技术帮助客户开拓精准营销或者新业务,有时企业收入来自于客户增值部分的分成。

图汽车电子基础设施建设及相关厂商

2.2技术发展

对大数据行业的各个专利申请人的专利数量进行统计,排名前十的大数据行业公司依次为:烽火通信、航天信息、广电运通、网宿科技、泰豪科技、奇安信、思特奇、易事特、三六零、亨通光电等。

表国内专利排名前十大数据行业公司

图大数据技术框架

(1)云技术

大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据则是电。

图大数据与云计算

(2)存储技术

大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是:大数据存储的目的是支撑大数据分析。到目前为止,还是两种截然不同的计算机技术领域:大数据存储致力于研发可以扩展至PB甚至EB级别的数据存储平台;大数据分析

1
查看完整版本: 华为要做汽车业的苹果这些必须先掌握