下面哪个组件可以将大规模的数据处理工作拆分成互相独立的任务并行处理。()
A.HDFS
B.YARN
C.MapReduce
D.Spark
A.HDFS
B.YARN
C.MapReduce
D.Spark
第6题
A.Hive hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能
B.Impala Impala是Cloudera公司主导开发的新型查询系统,它提供SQL语义,能查询存储在Hadoop的HDFS和HBase中的PB级大数据
C.Kylin Kylin?是一个开源的分布式分析引擎,提供Hadoop/Spark之上的SQL查询接口及多维析(OLAP)能力以支持超大规模数据
D.HBase HBase是一个分布式的、面向列的开源数据库
第8题
A.SeconaryNN
B.Active NN
C.Standby NN
D.Journal Node
第9题
A.FSDataInputStream扩展了DataInputStream以支持随机读
B.为实现细粒度并行,输入分片(Input Split)应该越小越好
C.一台机器可能被指派从输入文件的任意位置开始处理一个分片
D.输入分片是一种记录的逻辑划分,而HDFS数据块是对输入数据的物理分割
第11题
A.对CPU,内存,外设以及各类程序和数据进行管理
B.实现主机和外设的并行处理以及异常情况的处理
C.控制用户的作业排序和运行
D.处理输入/输出事务