1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。
1.1出现的原因
hive是shark的前身,shark是sparkSQL的前身,sparkSQL产生的原因是关系数据库已经不能满足各种在大数据时代新增的用户需求。在不断的发展中,用户的需求不断提高,需要执行像机器 学习和图像处理等等高级分析。SparkSQL的前身Shark对于Hive的太多依赖,制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成。
1.2SparkSQL的起源与发展
Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。
最早来说,Hive的诞生,主要是因为要让那些不熟悉Java工程师,无法深入进行MapReduce编程的数据分析师,能够使用他们熟悉的关系型数据库的SQL模型,来操作HDFS上的数据。因此推出了Hive。Hive底层基于MapReduce实现SQL功能,能够让数据分析人员,以及数据开发人员,方便的使用Hive进行数据仓库的建模和建设,然后使用SQL模型针对数据仓库中的数据进行统计和分析。但是Hive有个致命的缺陷,就是它的底层基于MapReduce,而MapReduce的shuffle又是基于磁盘的,因此导致Hive的性能异常低下。进而出现复杂的SQL ETL,要运行数个小时,甚至数十个小时的情况。
后来,Spark推出了Shark,Shark与Hive实际上还是紧密关联的,Shark底层很多东西还是依赖于Hive,但是修改了内存管理、物理计划、执行三个模块,底层使用Spark的基于内存的计算模型,从而让性能比Hive提升了数倍到上百倍。
然而,Shark还是它的问题所在,Shark底层依赖了Hive的语法解析器、查询优化器等组件,因此对于其性能的提升还是造成了制约。所以后来Spark团队决定,完全抛弃Shark,推出了全新的Spark SQL项目。Spark SQL就不只是针对Hive中的数据了,而且可以支持其他很多数据源的查询
SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的提升。
SparkSQL的出现,解决了对不同数据源和不同数据的操作,例如结构化和非结构化数据。还有可以支持融合关系查询和复杂分析算法。
2. 简述RDD 和DataFrame的联系与区别
3.之前子框架如Streaming,mlib,graph都是采用RDD API来编写,现在都是采用DF API来重新编写。
4.调用DF API生成DF,但DF 的action算子触发执行后最终还是生成RDD,通过Spark Core框架来进行调度计算。DF API+SparkSQL代替之前的RDD API,目的就是为了提供更简单的API,让Spark做统一优化,在rdd计算时更高效.
描述从不同文件类型生成DataFrame的区别。
text文件生成的DataFrame只有value属性;而json文件生成的DataFrame会识别到文件中的键值
用相同的txt或json文件,同时创建RDD,比较RDD与DataFrame的区别。
3.2 DataFrame的保存
4.选择题:
4.1单选(2分)关于Shark,下面描述正确的是:c
4.2单选(2分)下面关于Spark SQL架构的描述错误的是:b
A.在Shark原有的架构上重写了逻辑执行计划的优化部分,解决了Shark存在的问题
4.4多选(3分)Shark的设计导致了两个问题:ac
A.执行计划优化完全依赖于Hive,不方便添加新的优化策略
B.执行计划优化不依赖于Hive,方便添加新的优化策略
4.5 多选(3分)下面关于为什么推出Spark SQL的原因的描述正确的是:ab
B.可以支持大量的数据源和数据分析算法,组合使用Spark SQL和Spark MLlib,可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力
4.6多选(3分)下面关于DataFrame的描述正确的是:abcd
5. PySpark-DataFrame各种常用操作
5.1 基于df的操作:
筛选年龄为空的人员信息
5.3 pyspark中DataFrame与pandas中DataFrame
分别从文件创建两种DataFrame查看两种df的区别
pyspark中DataFrame
pandas中DataFrame转换为Pyspark中DataFrame
Pyspark中DataFrame转换为pandas中DataFrame
6.从RDD转换得到DataFrame
6.1 利用反射机制推断RDD模式
每个RDD元素转换成 Row
由Row-RDD转换到DataFrame
6.2 使用编程方式定义RDD模式
#下面生成“表头”
#下面生成“表中的记录”
#下面把“表头”和“表中的记录”拼装在一起
6.选择题
6.1单选(2分)以下操作中,哪个不是DataFrame的常用操作:D
6.2多选(3分)从RDD转换得到DataFrame包含两种典型方法,分别是:AB
A.利用反射机制推断RDD模式
B.使用编程方式定义RDD模式
C.利用投影机制推断RDD模式
D.利用互联机制推断RDD模式
6.3多选(3分)使用编程方式定义RDD模式时,主要包括哪三个步骤:ABC