大数据知识点总结(12)

时间:2021-08-31

  第四种方式是通过一个插件——river。river运行在ElasticSearch上,并且可以从外部数据库导入数据到ES中。需要注意的是,数据构建仅在分片上进行,而不能在副本上进行。

  48、ELK是一套常用的开源日志监控和分析系统,包括一个分布式索引与搜索服务Elasticsearch,一个管理日志和事件的工具logstash,和一个数据可视化服务Kibana

  logstash                负责日志的收集,处理和储存

  elasticsearch           负责日志检索和分析

  Kibana                  负责日志的可视化

  49、Hive是什么?

  Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将HQL转换为MapReduce程序

  50、Hive的设计目标?

  1、Hive的设计目标是使Hadoop上的数据操作与传统SQL相结合,让熟悉SQL编程开发人员能够轻松向Hadoop平台迁移

  2、Hive提供类似SQL的查询语言HQL,HQL在底层被转换为相应的MapReduce操作

  3、Hive在HDFS上构建数据仓库来存储结构化的数据,这些数据一般来源与HDFS上的原始数据,使用Hive可以对这些数据执行查询、分析等操作。

  51、Hive的数据模型

  1、Hive数据库2、内部表3、外部表4、分区5、桶6、Hive的视图

  52、Hive的调用方式

  1、Hive Shell 2、Thrift 3、JDBC 4、ODBC

  53、Hive的运行机制

  1、将sql转换成抽象语法树

  2、将抽象语法树转化成查询块

  3、将查询块转换成逻辑查询计划(操作符树)

  4、将逻辑计划转换成物理计划(MRjobs)

  54、Hive的优势