大数据的计算过程阶段一:数据采集数据采集特指从外部系统采集数据,并导入到数据存储系统的过程,主要分为Web端日志采集、客户端日志采集、数据库同步三个方向。阶段二:数据存储数据存储的选择很多,比如传统的关系型数据库:Oracle、MySQL;新兴的NoSQL:HBase、Cassandra、Redis;全文检索框架:ES、Solr等。但更广泛的应用,还是Hadoop生态下的HDFS,近年来也逐渐发展出了面向对象存储的OSS、面向表格的存储TableStore等。阶段三:数据计算数据计算主要分为批处理框架、流处理框架、交互式分析框架三种。批处理框架以Hadoop为代表,MapReduce、Spark-RDD为主要开发工具;流处理框架以Flink、Storm为代表;交互式分析框架的选择比较多,主要有Google开发的Dremel和PowerDrill,Facebook开发的Presto,Cloudera开发的Impala,以及Apache项目Hive、Drill、Tajo、Kylin、MRQL等。阶段四:数据建模数据建模是以人为主导的开发环节,与数据采集、存储、计算等所使用的工具方法论不尽相同。数据仓库的概念是建立在大数据的基础知识上,而大数据拥有良好的性能、廉价的成本、极高的效率及可控的质量四大优势,但同时大数据又存在业务关联广泛、计算流程复杂、管理难度较大等问题,因而十分需要通过建模方法论来更好的组织和存储相关数据。数据建模目前常用的主要有E-R模型、维度建模、DataVault建模三种。为了将模型阐述清楚,我们通常会使用UML作为统一建模语言,是用来针对建模方法论而使用的工具,并非建模方法论本身。阶段五:数据分析数据分析是大数据计算的最后一步,也是最重要的环节。“分析”两个字的含义可以包含两个方面的内容:一个是在数据之间尝试寻求因果关系或影响的逻辑;另一个是对数据的呈现做适当的解读。数据分析的目的性极强,区别于数据挖掘的找关联、分类、聚类,数据分析更倾向于解决现实中的问题。例如:我想解决什么问题、通过这次的分析能让我产生什么决策等等。数据分析主要是把采集到的数据通过建立数据模型,在分布式计算框架下进行计算加工、汇总分析等。大数据的分析方法大数据的分析方法论,通常以营销、管理等理论为指导,结合实际业务情况,搭建分析框架,这样才能尽量确保数据分析维度的完整性,结果的有效性及正确性。营销方面的理论模型有:4P、用户使用行为、STP理论、SWOT等。管理方面的理论模型有:PEST、5W2H、时间管理、生命周期、逻辑树、金字塔、SMART原则等。PEST:PEST即政治(Political)、经济(Economic)、社会(Social)和技术(Technological)四个领域的首字母缩写,年后更被扩展为STEEPLE与STEEPLED,增加了教育(Education)与人口统计(Demographics),主要用于主要用于行业分析,通过分析与外部总体环境的因素互相结合就可归纳出SWOT分析中的机会与威胁,可以作为企业与环境分析的基础工具。5W2H:应用相对广泛,可用于用户行为分析、业务问题专题分析、营销活动等5W2H,即何因(Why)、何事(What)、何人(Who)、何时(When)、何地(Where)、如何做(How)、何价(Howmuch)该方法广泛应用于企业营销、管理活动,对于决策和执行性的活动措施非常有帮助,也有助于弥补考虑问题的疏漏。逻辑树:又称问题树、演绎树或分解树等。它是将问题的所有子问题分层罗列,从最高层开始,并逐步向下扩展。逻辑树的作用主要是帮我们理清自己的思路,避免进行重复和无关的思考。数据分析的价值简单地来说,分析可被划分为4种关键方法。描述型分析:发生了什么?数据分析领域最常见的方法,就是描述业务正在发生什么,例如在用于增长领域,分析师就可以根据每个月营收和支出的账单,与用户标签数据结合起来,分析每个用户的获客成本,并利用可视化的工具来制作响应的报表。诊断型分析:为什么会发生?描述性数据通常只能反映业务现状,但如果需要了解为什么,就需要不断的将数据进行下钻,通过诊断分析工具、BI报表工具等支持,数据可以直接钻取到最细粒度,能够深入分析问题发生的原因。预测型分析:可能发生什么?预测型分析主要用于进行预测事件未来发生的可能性,给预测事件一个可量化的值,或者是预估事情发生的时间点,这些都可以通过预测模型来完成。预测模型通常会使用各种可变数据来实现预测。数据的多样化与预测结果密切相关。在充满不确定性的环境下,预测能够帮助做出更好的决定,这也是很多领域正在使用的重要方法。指令型分析:需要做什么?指令模型基于对“发生了什么”、“为什么会发生”和“可能发生什么”的分析,来帮助用户决定应该采取什么措施。通常情况下,指令型分析不是单独使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。
转载请注明:http://www.aierlanlan.com/rzfs/9532.html