park阿斯顿法定

1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。

1.1出现的原因

hive是shark的前身,shark是sparkSQL的前身,sparkSQL产生的原因是关系数据库已经不能满足各种在大数据时代新增的用户需求。在不断的发展中,用户的需求不断提高,需要执行像机器              学习和图像处理等等高级分析。SparkSQL的前身Shark对于Hive的太多依赖,制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成。

1.2SparkSQL的起源与发展

Spark 1.0版本开始,推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;但是后来Spark提供了Shark;再后来Shark被淘汰,推出了Spark SQL。Shark的性能比Hive就要高出一个数量级,而Spark SQL的性能又比Shark高出一个数量级。

最早来说,Hive的诞生,主要是因为要让那些不熟悉Java工程师,无法深入进行MapReduce编程的数据分析师,能够使用他们熟悉的关系型数据库的SQL模型,来操作HDFS上的数据。因此推出了Hive。Hive底层基于MapReduce实现SQL功能,能够让数据分析人员,以及数据开发人员,方便的使用Hive进行数据仓库的建模和建设,然后使用SQL模型针对数据仓库中的数据进行统计和分析。但是Hive有个致命的缺陷,就是它的底层基于MapReduce,而MapReduce的shuffle又是基于磁盘的,因此导致Hive的性能异常低下。进而出现复杂的SQL ETL,要运行数个小时,甚至数十个小时的情况。

后来,Spark推出了Shark,Shark与Hive实际上还是紧密关联的,Shark底层很多东西还是依赖于Hive,但是修改了内存管理、物理计划、执行三个模块,底层使用Spark的基于内存的计算模型,从而让性能比Hive提升了数倍到上百倍。

然而,Shark还是它的问题所在,Shark底层依赖了Hive的语法解析器、查询优化器等组件,因此对于其性能的提升还是造成了制约。所以后来Spark团队决定,完全抛弃Shark,推出了全新的Spark SQL项目。Spark SQL就不只是针对Hive中的数据了,而且可以支持其他很多数据源的查询

SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的提升。

SparkSQL的出现,解决了对不同数据源和不同数据的操作,例如结构化和非结构化数据。还有可以支持融合关系查询和复杂分析算法。

2. 简述RDD 和DataFrame的联系与区别

3.之前子框架如Streaming,mlib,graph都是采用RDD API来编写,现在都是采用DF API来重新编写。

4.调用DF API生成DF,但DF 的action算子触发执行后最终还是生成RDD,通过Spark Core框架来进行调度计算。DF API+SparkSQL代替之前的RDD API,目的就是为了提供更简单的API,让Spark做统一优化,在rdd计算时更高效.

描述从不同文件类型生成DataFrame的区别。

text文件生成的DataFrame只有value属性;而json文件生成的DataFrame会识别到文件中的键值

用相同的txt或json文件,同时创建RDD,比较RDD与DataFrame的区别。

3.2 DataFrame的保存

4.选择题:

4.1单选(2分)‍关于Shark,下面描述正确的是:c

4.2单选(2分)‏下面关于Spark SQL架构的描述错误的是:b

A.在Shark原有的架构上重写了逻辑执行计划的优化部分,解决了Shark存在的问题

4.4多选(3分)‎Shark的设计导致了两个问题:ac

A.执行计划优化完全依赖于Hive,不方便添加新的优化策略

B.执行计划优化不依赖于Hive,方便添加新的优化策略

4.5 多选(3分)‌下面关于为什么推出Spark SQL的原因的描述正确的是:ab

B.可以支持大量的数据源和数据分析算法,组合使用Spark SQL和Spark MLlib,可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力

4.6多选(3分)‌下面关于DataFrame的描述正确的是:abcd

5. PySpark-DataFrame各种常用操作

5.1 基于df的操作:

筛选年龄为空的人员信息

5.3 pyspark中DataFrame与pandas中DataFrame

分别从文件创建两种DataFrame查看两种df的区别

pyspark中DataFrame

pandas中DataFrame转换为Pyspark中DataFrame

Pyspark中DataFrame转换为pandas中DataFrame

6.从RDD转换得到DataFrame

6.1 利用反射机制推断RDD模式

每个RDD元素转换成 Row

由Row-RDD转换到DataFrame

6.2 使用编程方式定义RDD模式

#下面生成“表头”

#下面生成“表中的记录”

#下面把“表头”和“表中的记录”拼装在一起

6.选择题

6.1单选(2分)以下操作中,哪个不是DataFrame的常用操作:D

6.2多选(3分)‏从RDD转换得到DataFrame包含两种典型方法,分别是:AB

A.利用反射机制推断RDD模式

B.使用编程方式定义RDD模式

C.利用投影机制推断RDD模式

D.利用互联机制推断RDD模式

6.3多选(3分)‍使用编程方式定义RDD模式时,主要包括哪三个步骤:ABC

THE END
0.将被子植物花各部分的结构与其功能用直线连接起来.题目和参考将被子植物花各部分的结构与其功能用直线连接起来. 试题答案 在线课程 考点:果实和种子的形成 专题: 分析:传粉和受精完成以后,花的各部分发生了变化,花萼存留或凋落,花冠凋落,雌蕊的柱头和花柱凋落,只有子房继续发育,据此解答. 解答:解:雄蕊的花药中含有许多花粉粒,雌蕊的子房中含有胚珠,雄蕊和雌蕊与果实和种子的jvzq<84yyy422:5lkcpjcx3eqo5d|||1ujoukhnfa97cd:::g5
1.‍泰卦的卦画是()‏‍‏A、坤卦在上,乾卦在下B、乾卦在‍泰卦的卦画是( )‏‍‏ A、坤卦在上,乾卦在下 B、乾卦在上,坤卦在下 C、坤卦在上,坤卦在下 D、乾卦在上,乾卦在下 点击查看答案&解析在线练习手机看题 你可能感兴趣的试题 单项选择题 真空管路中,与流导关系最大的参数是() A. 管直径 jvzquC41yy}/rypcq0ipo8|cpiqf1mfcp1;g3A9686h94:976cgce;::32l4hm743;
2.Linux的用户组与权限用法及说明Linux第七列:密码过期的宽限天数,过期后的几天还是可以登陆的,如果过了宽限天数,系统将不再让此账户登陆,也不会提示账户过期,是完全禁用比如说,此字段规定的宽限天数是10,则代表密码过期10天后失效;如果是0则代表密码过期后立即失效;如果是-1则代表密码永远不会失效 第八列:账号失效时间,使用自1970年1月1日以来的jvzquC41yy}/lk:30pku1|jtxgx04B8337lry7mvo
3.三库六馆会后,他担任中共中央临时政治局委员、常委、主席,主持党中央工作。1931年1月,瞿秋白遭受王明“左”倾错误路线迫害,被解除中央领导职务。此后,他到了白色恐怖笼罩的上海,和鲁迅并肩战斗,一起领导左翼文化运动。1934年2月,瞿秋白到达中央革命根据地瑞金,任中华苏维埃共和国中央执委会委员、人民教育委员会委员、中华jvzq<84u|d4tk{y0gf{/ew4c1463486412=049743468;99490nuou
4.缘总会圆. ‍‌‍ ‏‍⁠ ‎‍‍句子摘抄“好事不怕晚 后登船者先上岸 是缘总会圆. ‍‌‍ ‏‍⁠ ‎‍‍ ⁠‎”的原作者:龙,出处:《》jvzquC41lw€j0lt1lw522kj8;6?83?j9:fhc2:h9e79:e@ic22k/j}rn
5.📕揭秘人参皂苷RG2的含服奥秘!‏‍🤔相比之下,若不慎将其吞入胃中,吸收之旅将变得漫长且低效,吸收率骤降至不足30%。因此,舌下含服,无疑是通往高效利用RG2的捷径,让每一份投入都物超所值!🌟  ‍‌ ‎⁠ ‏‍ 00:30 人参单体皂苷一点通 人参单体皂苷目前已经发现的多达30多种,目前我们接触最多的仅限于Rg2,Rh2,jvzquC41yy}/onnrkct/ew479v;6;}
6.50天后恶性肿瘤消散不见 ‌‎‏‎‍ ‌分享自「美篇」jvzquC41yy}/onnrkct/ew47:mwxys
7.南昌装修:‏‎‎‌⁠‌​‍‍​‎​​南昌装修:‏‎‎‌⁠‌​‍‍​‎​​‏‎‎‌⁠泥工师傅刷了两遍防水后第二天早上就可以放水了。放水的同时记得要通知物业楼管,告知您家开始闭水,让他们到现场查看并且做好记录。等48小时至72小时后物业楼管就会到楼下邻居家验收jvzquC41o0€iwncqdgoi7hqo1}fk}twvkgp1:;:33894=<;45=37Hhjcptfnhxqwtif?kfkfwecksn
8.谭小柏      ‌‍‎‏专辑:只有你知道 歌手:谭小柏      ‌‍‎‏ 作词:袁悠范 作曲:袁悠范 编曲:袁悠范 混音:袁悠范 制作人:袁悠范 录音室:缪思娱乐 OP:Bounce like_lab 特别鸣谢:谢谢一直爱着我的小萝卜们! 天空是蔚蓝色 迷失在星河在闪耀着 jvzquC41yy}/m~lqw0ipo8rkzuuoi8>ou3jfem3jvor
9.B:有大量气体和尘埃C:有旋臂结构D:缺少大质量恒星,星系呈‏以下关于漩涡星系描述错误的是[img=800x625]17de5f8bacfa6fb.jpg[/img]​A: 恒星运动轨道面基本与星系盘重合,运动轨道呈近圆形B: 有大量气体和尘埃C: 有旋臂结构D: 缺少大质量恒星,星系呈黄、红色答案: D 本题目来自[网课答案]本页地址:https://www.wkda.cn/ask/zzmyzpyjjxtoooo.htmljvzquC41yy}/ytic0et0c|p1||sz|y~llzzpqxt0jvsm
10.华中科技大学计算机组成原理慕课第二章数据表示单元测验答案(+详细解析2、‍浮点数的表示范围和表示精确度分别取决于() A.尾数的位数和阶码的位数 B.机器字长和阶码的位数 C.阶码的编码和尾数的编码 D.阶码的位数和尾数的位数 解析:浮点数的表示范围和表示精确度分别取决于阶码的位数和尾数的位数,本题选D。 3‍、设G(x) = 1011,某(7,4)码为K1K2K3K4K5K6K7,仅K7出错时进行CRC校 jvzquC41dnuh0lxfp0tfv8vsa7776?;:41gsvrhng1jfvjnnu1735A:8679
11.Aurora‍‍‏‎我们使用可选的 Cookie,通过社交媒体连接等方式改善你在我们网站上的体验,并且根据你的在线活动投放个性化的广告。 如果你拒绝可选 Cookie,则我们将仅使用为你提供服务所必须的 Cookie。 你可以单击页面底部的“管理 Cookie”更改你的选择。隐私声明 第三方 Cookie 接受 拒绝 管理Cookie jvzquC41crvt0vnetqyph}3eqo5tvxwg1fkucrq1;R9DDPXMDTWQAqq?gp3bw/ln?C[
12.祥云反诈中心提示“不用垫付资金”的连环诈骗‌‍‎‏ ‌‍‎‏ ‌‍‎‏ ‌‍‎‏ ‌‍‎‏ ‌‍‎‏ ‌‍‎ ‌‍‎‏ ‌‍‎ ‌‍‎‏ ‌‍‎‏ 真实案例 小张在抖音看到招聘兼职刷单的广告,该广告声称“无需垫付资金”,小张想着“反正不用自己付钱”,要不试试吧,小张便按照jvzq<84yyy4junsnkp4dp8xhaD765J>HGF
13.Aurora‍‍‏‎此app 可從 Microsoft Store 只需 下載。 歡迎一覽螢幕截圖,閱讀最新客戶評論,並比較 Aurora‍‍‏‎ 所獲評分。jvzquC41yy}/orhtquugv7hqo1€i/vt1r1gvtxwc1;v4eklumdxrrHfevk|fvjg?rk|pvCtxgt|jg€ycd
14.泰安三中新校高一新生家长全员陪餐,AI菜品识别结算“黑科技”获点赞ᅟᅠ        ‌‍‎‏ 走进宽敞明亮的食堂后,家长们有的与孩子头碰头地商量着要品尝哪些菜品,有的则忙着用手机拍照记录下丰富的菜品种类。“这可比孩子在家吃得好多了,在家我们一顿饭有时就做一个菜,在学校食堂孩子的选择更多了,荤素都有,还有特色小吃,你看这个菜花炒得多 jvzquC41yy}/j~grf0ipo8mwdrj0t|x1eospdrqg1kteg3jvor@exsvgpzJfF:986<19>7525>2;?58;
15.安龙县城市内涝治理综合项目县医院片区‌‍‎‏***招标公司受业主***委托,于2025-11-07在黔西南布依族苗族自治州招标网发布:安龙县城市内涝治理综合项目县医院片区‌‍‎‏。各有关单位请与公告中招标负责人接洽联系,及时开展投标及相关工作,以免错失商业机会jvzquC41skgozr3qmeot0ls1sem{497733683:8226;54<990jznn
16.浙江首个海塘遗址公园,探访萧绍平原的“海上长城”!北海塘上每隔二十丈各竖有《千字文》的石碑,它是海塘上的里程碑。相传明以前海塘是直线的,后来明朝开国大臣刘伯温沿着弯曲的着陆线,用砻糠撒牢了。 北海塘是萧绍平原的生命线,守护着一方沃土,被誉为“海上长城”,是萧绍古代人民抗击钱塘江风潮的诗史。全长41.44公里,以西兴永兴闸为起点,一路向东,经北干街道、jvzquC41yy}/frfprkth0lto1fotex{gt{523>:567<82
17.咏絮ᅟᅠ       ‌‍‎‏ nulljvzquC41yy}/su6f0eun1pjpgtgm1;63;56177mvon