|
前言
作为刚刚入行的IT 的初级程序猿,一开始我也不知道什么是大数据、java、python。但是有一次听朋友说他也是程序员月入三万。what?我为什么拿着三四千的工资他却拿着三万的高薪?直到我见到他的脑门我才明白原来是有原因的!
刚刚学习这行的时候,也是让人头大。有时候多了一个空格就要浪费好几个小时的时间去找出问题。其实我开始我也不知道为啥要入这行呢?每天加班加点的工作,不仅浪费了时间还亏了身体。有次看到一篇文章是由于太喜欢这个代码的感觉。WC真是有钱人说话都是这么的嚣张,我自己也在想为什么要学这玩意,现在知道我就是个俗人那就是为了money!
刚入行的时候少不了碰壁和错的学习线路。下面是小编整理的一些学习路线,具体的快来私信小编获取吧!希望大家可以找到一个适合自己的学习步伐,早日成为秃头程序猿!
大数据大纲
Hadoop
[list,
[*,Hadoop是一个能够对大量数据进行分布式处理的软件框架。 Hadoop 以一种可靠、高效、可伸缩的方式进行数据处理。
[*,Hadoop 是可靠的,因为它假设计算元素和存储会失败,因此它维护多个工作数据副本,确保能够针对失败的节点重新分布处理。
[*,Hadoop 是高效的,因为它以并行的方式工作,通过并行处理加快处理速度。
[*,Hadoop 还是可伸缩的,能够处理 PB 级数据。
[*,此外,Hadoop 依赖于社区服务,因此它的成本比较低,任何人都可以使用。
[/list,下图是整理的关于Hadoop的大纲
Hive
[list,
[*,支持索引,加快数据查询。
[*,不同的存储类型,例如,纯文本文件、HBase 中的文件。
[*,将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。
[*,可以直接使用存储在Hadoop文件系统中的数据。
[*,内置大量用户函数UDF来操作时间、字符串和其他的数据挖掘工具,支持用户扩展UDF函数来完成内置函数无法实现的操作。
[*,类SQL的查询方式,将SQL查询转换为MapReduce的job在Hadoop集群上执行。
[/list,下图是整理的关于Hive的大纲
Redis
Redis 是一个高性能的key-value数据库。 redis的出现,很大程度补偿了memcached这类keyvalue存储的不足,在部 分场合可以对关系数据库起到很好的补充作用。它提供了Python,Ruby,Erlang,PHP客户端,使用很方便。
spark
Spark 主要有三个特点 :
[list,
[*,首先,高级 API 剥离了对集群本身的关注,Spark 应用开发者可以专注于应用所要做的计算本身。
[*,其次,Spark 很快,支持交互式计算和复杂算法。
[*,最后,Spark 是一个通用引擎,可用它来完成各种各样的运算,包括 SQL 查询、文本处理、机器学习等,而在 Spark 出现之前,我们一般需要学习各种各样的引擎来分别处理这些需求。
[/list,
Flink
[list,
[*,Apache Flink的数据流编程模型在有限和无限数据集上提供单次事件(event-at-a-time)处理。在基础层面,Flink程序由流和转换组成。
[*,Apache Flink的API:有界或无界数据流的数据流API、用于有界数据集的数据集API、表API。
[/list,
以上是小编大概整理了一些Hadoop、Flink、spark、Redis、Hive其他的一些由于文章限制,小编以文档和视频的形势整理
获取大数据大纲学习的线路方式:转发文章并私信小编【学习】即可获取哦~~~~
|
|