1.定义 hive是基于hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并 提供简单的sql查询功能,默认情况下可以将sql语句转换为mapreduce 任务进行运行 HBase 是Hadoop 的数据库 ,一个分布式 可扩展,大数据的存储
2.区别 hivesql 默认转换为MapReduce进行计算,所以比较慢,只能做离线数据分析,不能做实时查询 HBase 是nosql 数据库,是物理表,不是逻辑表,虽然数据是存储在hdfs,但是读写非常快, 适合做大数据量的即时查询
3联系 这两种大数据框架在整个 ETL 过程中所处位置及承载的作用是不一样的,一般来说,hive清洗 处理后的数据有可能会被写入hbase,供需求方实时查询,所以很多的时候,着两种框架是需要 同时使用的 ,发挥各自的价值。
业务场景1—》数据源(mysql)—》数据抽取(datax)—》数据存储(hdfs) —》数据计算(hive)—》实时查询(hbase)—》业务系统(javaweb)
应用场景 Hive一般是做大数据量的离线数据分析,比如日志数据分析,但是不能做实时查询, 因为需要很长时间才能返回结果。
HBase适合用来对数据量很大的明细数据进行实时查询,如订单数据,用户画像数据