前言
我不知道你是否在百度搜索过旅行的关键词,你可能很快就会获得机票促销的经验。现在是大数据时代,数据的价值越来越重要。数据是一种资产,你一定听说过。最近,该公司还在其项目中使用了一些大数据技术。本文对于大数据相关的知识体系进行了全面综述。
1、什么是大数据
大数据,您可以简单地将其理解为大量数据。大数据有多大?如果只有大量的数据,是否过于片面和单一?事实上,如果你说你从事大数据开发,你至少应该满足以下五个特征。
2、离线分析
离线分析,也称为批处理,主要分析过去的历史数据。可以每周(T+7)或每天(T+1)分析历史数据,以找出数据背后的根本原因,并进行调整和优化。例如,分析过去一个月的用户操作数据。
这种分析方法一般具有大量数据,通常使用Hadoop生态技术系统来解决这一问题,例如HDFS、Yarn、Hbase等技术。
实时分析,也称为流计算,主要是针对当前。它实时处理和分析数据。您可以想象数据像流一样被连续处理。它需要很高的时效性,高达第二级甚至毫秒级。例如,在金融领域,如果您发起交易,可以通过实时分析来判断当前交易是否存在欺诈风险,从而保护资金的安全。
预测分析,实际上是基于历史数据和今天通过机器学习生成的实时数据来预测未来事件。更强调数学算法的应用,例如分类、聚类、关联和预测,但它不能离开数据。它需要通过历史数据进行训练,以获得可预测的模型。典型的应用程序,如电子商务领域的“猜你喜欢什么”。
我们都知道数据的重要性。数据分析的整个生命周期如何?我们什么时候来,我们将做什么,我们将采取什么步骤?
、明确分析目的和思路
为了理解您的业务场景并找到分析的目的(这是整个分析过程的起点),有必要为数据收集、处理和分析提供明确的指导。
明确分析思路,如先分析什么,后分析什么,使分析点之间有逻辑联系,确保分析维度的完整性,分析结果的有效性和正确性,这需要数据分析方法论的支持。