直接使用MapReduce 处理大数据,将面临以下的问题:
- MapReduce 开发难度大,学习成本高
- Hdfs 文件没有字段名,没有数据类型,不方便进行数据的有效管理
- 使用MapReduce 框架开发,项目周期长,成本高
Hive 是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表(类似于RDBMS中的表),并提供类SQL查询功能,HIVE是Facebook开源,用于解决海量结构化日志的数据统计。
- hive 的本质是:将SQL转化为MapReduce的任务进行运算。
- 底层有HDFS来提供数据存储
- Hive 可以理解成为将SQL转化为MapReduce 任务的工具。