分类目录归档:大数据

Hive 产生的背景

发表评论

2842 views

直接使用MapReduce 处理大数据，将面临以下的问题：

MapReduce 开发难度大，学习成本高
Hdfs 文件没有字段名，没有数据类型，不方便进行数据的有效管理
使用MapReduce 框架开发，项目周期长，成本高

Hive 是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张表（类似于RDBMS中的表），并提供类SQL查询功能，HIVE是Facebook开源，用于解决海量结构化日志的数据统计。

hive 的本质是：将SQL转化为MapReduce的任务进行运算。
底层有HDFS来提供数据存储
Hive 可以理解成为将SQL转化为MapReduce 任务的工具。

Hadoop 系列

发表评论

2362 views

Hadoop 构成 HDFS + MapReduce + Yarn +Common

HDFS

Master/Slave

存入过程：
    对于大数据进行拆分，切割得到数据库，可以得到多个数据块。
获取文件过程：
    向NameNode请求获取到之前存入文件的块以及块所在的DataNode的信息，分别下载并最终合并，就得到之前的文件。
Master 节点：
    管理和维护元数据,元数据记录了文件的块列表以及块所在的DataNode节点信息。
slave：
    负责存储文件数据块
MN,DN:
    既是角色名称，也是进程名称，也代指电脑节点
2NN:
    辅助NameNod

HrQing

基于Django的网站，记录IT 开发，包括c++,java,python, 接受半导体测试服务，包括力学测试，表面分析测试，热学测试，联系方式：[email protected]。

Hive 产生的背景

Hadoop 系列

HDFS

Master/Slave