大数据知识点总结

大数据知识点总结(12)

时间：2021-08-31

　　第四种方式是通过一个插件——river。river运行在ElasticSearch上，并且可以从外部数据库导入数据到ES中。需要注意的是，数据构建仅在分片上进行，而不能在副本上进行。

　　48、ELK是一套常用的开源日志监控和分析系统，包括一个分布式索引与搜索服务Elasticsearch，一个管理日志和事件的工具logstash，和一个数据可视化服务Kibana

　　logstash 负责日志的收集，处理和储存

　　elasticsearch 负责日志检索和分析

　　Kibana 负责日志的可视化

　　49、Hive是什么？

　　Hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能。本质是将HQL转换为MapReduce程序

　　50、Hive的设计目标？

　　1、Hive的设计目标是使Hadoop上的数据操作与传统SQL相结合，让熟悉SQL编程开发人员能够轻松向Hadoop平台迁移

　　2、Hive提供类似SQL的查询语言HQL，HQL在底层被转换为相应的MapReduce操作

　　3、Hive在HDFS上构建数据仓库来存储结构化的数据，这些数据一般来源与HDFS上的原始数据，使用Hive可以对这些数据执行查询、分析等操作。

　　51、Hive的数据模型

　　1、Hive数据库2、内部表3、外部表4、分区5、桶6、Hive的视图

　　52、Hive的调用方式

　　1、Hive Shell 2、Thrift 3、JDBC 4、ODBC

　　53、Hive的运行机制

　　1、将sql转换成抽象语法树

　　2、将抽象语法树转化成查询块

　　3、将查询块转换成逻辑查询计划（操作符树）

　　4、将逻辑计划转换成物理计划（MRjobs）

　　54、Hive的优势