大数据是眼下非常时髦的技术名词,与此同时自然也催生出了一些与大数据处理相关的职业,大数据方向的工作目前主要分为三个主要方向:
1、大数据工程师
2、数据分析师
3、大数据科学家
其他(数据挖掘等)
不知道楼主所谓的人才是只是获得怎样的成就才是人才。首先要掌握的就是Java语言和Linux操作系统,这两个是大数据的基础。学习顺序的话不分前后的。
(1)Java:Java也有很多方向。JavaSE,JavaEE还有JavaME,大数据的话只需要学习Java标准版的JavaSE就可以了,像Servlet、JSP、Tomcat、Struts等在JavaEE方向,在大数据里面不常用到。但是需要了解,想要成为成为人才的话可以要学习Hibernate或者Mybites的原理,不要只学习API。
(2)Linux:因为大数据相关软件都是在Linux上面运行的所以,Linux要学习很扎实。它能让你更好的理解hadoop,hive,hbase,spark等大数据软件的运行环境和网络环境配置,能少踩很多坑,学会shell就能看懂脚本这样更容易理解配置大数据集群。
看路线图可以按照路线图去逐步的学习。下面再来回答下大户局必须要掌握的知识点:
Hadoop:这事现在流行的大数据处理平台。包括HDFS、MapReduce和YARN,HDFS是储存数据的地方想我们的电脑硬盘一样,都存储在这个上面。MapReduce是对数据进行处理计算的,它的特点是不管多大的数据只要有时间就能跑完。YARN是体现Hadoop平台概念的重要组件。
大数据中重要的要掌握的几点:
Zookeeper:安装Hadoop的HA的时候就会用到它,以后的Hbase也会用到它。需要把它安装正确,让它正常的跑起来。
Mysql:在Linux上把它安装好,运行起来,会配置简单的权限,修改root密码,创建数据库。
Sqoop:这个是用于把Mysal里面的数据导入Hadoop里面。
Hive:和Pig同理,想要变得厉害可以都学习。
Oozie:可以帮你管理你的Hive或者MapReduce、Spark脚本还能检查你的程序执行的是否正确。
Hbase:这个是Hadoop生态体系中的NOSQL数据库,是按照key和value的形式存储的并且key是唯一的。所以可以帮你做数据排重,它与MYSQL相比存储的数据量大。
Kafka:这个是队列工具。可以利用它来做线上实时数据的入库或者是入HDFS,与Flume的工具配合使用,专门用来提供对数据进行简单处理。
Spark:这个工具是用来弥补MapReduce处理数据速度上的缺点,特点就是把数据装载到内存里面去计算。适合做迭代运算,Java语言或者Scala都可以操作它,他们都是用JVM的。
上面的知识点和线路图你能完整的学下来掌握,基本去哪家企业都很抢手~