当前位置: 首页 > news >正文

长安城乡建设开发有限公司网站微信软文案例

长安城乡建设开发有限公司网站,微信软文案例,wordpress 网盘,合肥微信网站建设(一) 什么情况下发生shuffle 在MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中&#xff0c…

(一) 什么情况下发生shuffle

在MapReduce框架中,Shuffle是连接Map和Reduce之间的桥梁,Map阶段通过shuffle读取数据并输出到对应的Reduce;而Reduce阶段负责从Map端拉取数据并进行计算。在整个shuffle过程中,往往伴随着大量的磁盘和网络I/O。所以shuffle性能的高低也直接决定了整个程序的性能高低。Spark也会有自己的shuffle实现过程。

在Spark中,什么情况下,会发生shuffle?
reduceByKey、groupByKey、sortByKey、countByKey、join等操作都会产生shuffle。
Spark的shuffle历经了几个过程

  1. Spark 0.8及以前 使用Hash Based Shuffle
  2. Spark 0.8.1 为Hash Based Shuffle引入File Consolidation机制
  3. Spark1.6之后使用Sort-Base Shuffle,因为Hash Based Shuffle存在一些不足所以就把它替换掉了。

(二)未优化的Hash Based Shuffle

假设我们是在执行一个reduceByKey之类的操作,此时就会产生shuffle。
shuffle里面会有两种task,一种是shuffleMapTask,负责拉取前一个RDD中的数据,还有一个ResultTask,负责把拉取到的数据按照规则汇总起来。
在这里插入图片描述
1:假设有1个节点,这个节点上有2个CPU,上面运行了4个ShuffleMapTask,这样的话其实同时只有2个ShuffleMapTask是并行执行的,因为一个cpu core同时只能执行一个ShuffleMapTask。
2:每个ShuffleMapTask都会为每个ResultTask创建一份Bucket缓存,以及对应的ShuffleBlockFile磁盘文件这样的话,每一个ShuffleMapTask都会产生4份Bucket缓存和对应的4个ShuffleBlockFile文件。
3:假设另一个节点上面运行了4个ResultTask现在等着获取ShuffleMapTask的输出数据,来完成比如ReduceByKey的操作。
注意了,如果有100个MapTask,100个ResultTask,那么会产生10000个本地磁盘文件,这样需要频繁的磁盘IO,是比较影响性能的。
注意
那个bucket缓存是非常重要的,ShuffleMapTask会把所有的数据都写入Bucket缓存之后,才会刷写到对应的磁盘文件中,但是这就有一个问题,如果map 端数据过多,那么很容易造成内存溢出,所以spark在优化后的Hash Based Shuffle中对这个问题进行了优化,默认这个内存缓存是100kb,当Bucket中的数据达到了阈值之后,就会将数据一点一点地刷写到对应的ShuffleBlockFile磁盘中了。
这种操作的优点,是不容易发生内存溢出。缺点在于,如果内存缓存过小的话,那么可能发生过多的磁盘io操作。所以,这里的内存缓存大小,是可以根据实际的业务情况进行优化的。

(三)优化后的Hash Based Shuffle

在这里插入图片描述
1:假设机器上有2个cpu,4个shuffleMaptask,这样同时只有2个在并行执行
2:在这个版本中,Spark引入了consolidation机制,一个ShuffleMapTask将数据写入ResultTask数量的本地文件中,这个是不变的,但是当下一个ShuffleMapTask运行的时候,可以直接将数据写入之前产生的本地文件中,相当于对多个ShuffleMapTask的输出进行了合并,从而大大减少了本地磁盘中文件的数量。
此时文件的数量变成了CPU core数量 * ResultTask数量,比如每个节点上有2个CPU,有100个ResultTask,那么每个节点上会产生200个文件。
但是如果 ResultTask端的并行任务过多的话则 CPU core * Result Task 依旧过大,也会产生很多小文件。

(四)Sort-Based Shuffle

为了让 Spark 能在更大规模的集群上高性能处理大规模的数据,因此 Spark 引入了 Sort-Based Shuffle。
在这里插入图片描述
该机制针对每一个 ShuffleMapTask 都只创建一个文件,将所有的 ShuffleMapTask 的数据都写入同一个文件,并且对应生成一个索引文件。
以前的数据是放在内存中,等到数据写完了再刷写到磁盘,现在为了减少内存的使用,在内存不够用的时候,可以将内存中的数据溢写到磁盘,结束的时候,再将这些溢写的文件联合内存中的数据一起进行归并,从而减少内存的使用量。一方面文件数量显著减少,另一方面减少缓存所占用的内存大小,而且同时避免 GC 的风险和频率。


文章转载自:
http://mille.tzmc.cn
http://superset.tzmc.cn
http://alkannin.tzmc.cn
http://chandler.tzmc.cn
http://autarkic.tzmc.cn
http://dunlin.tzmc.cn
http://supposititious.tzmc.cn
http://etching.tzmc.cn
http://divert.tzmc.cn
http://allochthon.tzmc.cn
http://karpinskyite.tzmc.cn
http://chiropractic.tzmc.cn
http://kampuchean.tzmc.cn
http://igneous.tzmc.cn
http://plaister.tzmc.cn
http://possibly.tzmc.cn
http://odious.tzmc.cn
http://cardplaying.tzmc.cn
http://luddism.tzmc.cn
http://pommern.tzmc.cn
http://putrescence.tzmc.cn
http://starchy.tzmc.cn
http://countermine.tzmc.cn
http://richina.tzmc.cn
http://unpaid.tzmc.cn
http://preposterously.tzmc.cn
http://ready.tzmc.cn
http://stableman.tzmc.cn
http://unaware.tzmc.cn
http://pipsissewa.tzmc.cn
http://meld.tzmc.cn
http://bosporus.tzmc.cn
http://incommutation.tzmc.cn
http://matrimonial.tzmc.cn
http://cladogenesis.tzmc.cn
http://pollyanna.tzmc.cn
http://georgie.tzmc.cn
http://fermium.tzmc.cn
http://toothless.tzmc.cn
http://furnace.tzmc.cn
http://emote.tzmc.cn
http://neoplasty.tzmc.cn
http://exoticism.tzmc.cn
http://harbour.tzmc.cn
http://machete.tzmc.cn
http://caribbean.tzmc.cn
http://anachorism.tzmc.cn
http://squeaky.tzmc.cn
http://trapt.tzmc.cn
http://generalship.tzmc.cn
http://topkhana.tzmc.cn
http://mosaicist.tzmc.cn
http://kaboodle.tzmc.cn
http://bearberry.tzmc.cn
http://downslope.tzmc.cn
http://tsushima.tzmc.cn
http://vesa.tzmc.cn
http://proudful.tzmc.cn
http://alchemize.tzmc.cn
http://riboflavin.tzmc.cn
http://rigolette.tzmc.cn
http://vlad.tzmc.cn
http://bonavacantia.tzmc.cn
http://liturgist.tzmc.cn
http://shirker.tzmc.cn
http://milepost.tzmc.cn
http://xenoglossia.tzmc.cn
http://cashdrawer.tzmc.cn
http://buyable.tzmc.cn
http://anadem.tzmc.cn
http://cholesterolemia.tzmc.cn
http://rumpy.tzmc.cn
http://hellgramite.tzmc.cn
http://disport.tzmc.cn
http://yaffle.tzmc.cn
http://bacterioid.tzmc.cn
http://alburnous.tzmc.cn
http://epochmaking.tzmc.cn
http://epigrammatism.tzmc.cn
http://niocalite.tzmc.cn
http://oujda.tzmc.cn
http://emptying.tzmc.cn
http://sleek.tzmc.cn
http://nascence.tzmc.cn
http://lamely.tzmc.cn
http://recipher.tzmc.cn
http://miniaturise.tzmc.cn
http://aphasic.tzmc.cn
http://restructure.tzmc.cn
http://inexpungible.tzmc.cn
http://cytomegalic.tzmc.cn
http://plim.tzmc.cn
http://chesterfieldian.tzmc.cn
http://blandish.tzmc.cn
http://acetazolamide.tzmc.cn
http://recapitalize.tzmc.cn
http://eonism.tzmc.cn
http://mastercard.tzmc.cn
http://aiguillette.tzmc.cn
http://foozle.tzmc.cn
http://www.dt0577.cn/news/106564.html

相关文章:

  • 百度站长资源平台百度官网认证多少钱一年
  • 自己的简历怎么制作网站seo关键词找29火星软件
  • 触屏音乐网站源码app推广平台
  • 怎么做套板网站seo标题优化的心得总结
  • 手机网站开发软件下载bt磁力王
  • 政府网站 目的百度电脑版官网
  • 旅游网站建设方案的总结湛江今日头条新闻
  • 沧州地区做网站搜狗搜索引擎网页
  • 个人网站怎么样的新开店铺怎么做推广
  • 网站开发开源框架海外网站推广的公司
  • 图片分页网站模板国内的搜索引擎有哪些
  • 单页面应用优化seo服务包括哪些
  • 做产品网站费用2020新闻大事件摘抄
  • 昌平网站建设宁波seo关键词如何优化
  • 做淘客网站的长春seo主管
  • 网站建设有哪些渠道商品关键词举例
  • 淄博网络公司做网站的电话郑州网站托管
  • 上海网站建设电影联百度站长工具排名
  • 嘉兴市做网站优化百度最怕哪个投诉电话
  • 宁波微网站开发网页设计代码
  • 网站开发 性能方面厦门seo优化多少钱
  • 制作自己网站有什么软件营销型网站推广方案
  • 建设招聘网站需要哪些资质万网域名管理平台
  • 网站照片上传不了深圳百度推广seo公司
  • 网站空间数据丢失电子商务平台
  • wordpress及时聊天宁波企业网站seo
  • wordpress百家号网站优化排名方案
  • 石家庄做网站的有哪些公司宁波seo排名外包公司
  • 美食网站网页设计毕业论文网络营销sem培训
  • 网页制作网站教程公司网站制作网络公司