当前位置: 首页 > news >正文

重庆公司网站建设价格推广论坛有哪些

重庆公司网站建设价格,推广论坛有哪些,网络营销的6大特点,哪个网站可以做经济模拟题MapReduce 的 Shuffle 过程指的是 MapTask 的后半程,以及ReduceTask的前半程,共同组成的。 从 MapTask 中的 map 方法结束,到 ReduceTask 中的 reduce 方法开始,这个中间的部分就是Shuffle。是MapReduce的核心,心脏。 …

MapReduce 的 Shuffle 过程指的是 MapTask 的后半程,以及ReduceTask的前半程,共同组成的。
从 MapTask 中的 map 方法结束,到 ReduceTask 中的 reduce 方法开始,这个中间的部分就是Shuffle。是MapReduce的核心,心脏。

map端:

1、map中的context.write方法,对外写出的时候,其实是写入到了一个环形缓冲区内(内存形式的),这个环形缓冲区大小是100M,可以通过参数设置。如果里面的数据大于80M,就开始溢写(从内存中将数据写入到磁盘上)。溢写的文件存放地址可以设置。


2、在溢写过程中,环形缓冲区不会停止工作,是会利用剩余的20%继续存入环形缓冲区的。除非是环形缓冲区的内存满了,map任务就被阻塞了。
在溢写出来的文件中,是排过序的,排序规则:快速排序算法。在排序之前,会根据分区的算法,对数据进行分区。在内存中,先分区,在每一个分区中再排序,接着溢写到磁盘上的。


3、溢写出来的小文件需要合并为一个大文件,因为每一个MapTask只能有一份数据。就将相同的分区文件合并,并且排序(此处是归并排序)。每次合并的时候是10个小文件合并为一个大文件,进行多次合并,最终每一个分区的文件只能有一份。
假如100个小文件,需要合并几次呢?
100  每10分合并一次,第一轮:100个文件合并为了10个文件,这10个文件又合并为一个大文件,总共合并了11次。

4、将内存中的数据,溢写到磁盘上,还可以指定是否需要压缩,以及压缩的算法是什么。

reduce端: 

1、reduce端根据不同的分区,拉取每个服务器上的相同的分区的数据。
reduce任务有少量复制线程,因此能够并行取得map输出。默认值是5个线程,但这个默认值可以修改,设置mapreduce.reduce.shuffle. parallelcopies 属性即可。


2、如果map上的数据非常的小,该数据会拉取到reduce端的内存中,如果数据量比较大,直接拉取到reduce端的硬盘上。

http://www.dt0577.cn/news/12449.html

相关文章:

  • 松桃县住房和城乡建设局网站百度搜索热度排名
  • 移动 网站模板百度外链查询工具
  • 做网站页面提供的图结构优秀软文范例100字
  • 织梦园模板网站免费b2b网站大全免费
  • 做网站要用服务器吗制作网站教程
  • 不用框架做网站北京网站
  • 公司做网站图片2023新一轮病毒叫什么名字
  • 网络主题设计图幼儿园蔡甸seo排名公司
  • 做网站的图片的内存网站建设黄页
  • 广州做网站哪家公司好搜索引擎优化哪些方面
  • 建网站用什么系统超级外链在线发布
  • 政府网站设计seo技术有哪些
  • 网站备案时要不要关闭免费b站推广网站不用下载
  • 做php网站需要什么软件东莞做网站最好的是哪家
  • 网站右侧浮动微信二维码深圳网站公司排名
  • flash网站模板 asp百度一下就知道百度首页
  • 那个网站是专门做机械设备百度seo排名优化提高流量
  • jquery做背景的网站赏析商品seo优化是什么意思
  • 杭州网站建设方案推广网站专业术语中seo意思是
  • 汉沽网站建设上海网络推广平台
  • 免费网站模板mbxzb微信小程序怎么做
  • 邯郸网站设计报价怎么做百度关键词排名
  • 网页建设与网站设计网络运营推广怎么做
  • 做网站视频上传到哪儿aso榜单优化
  • 重庆有哪些做网站公司怎么做网站宣传
  • ps做的网站模板品牌策划推广方案
  • 建设电影网站数据库脚本淘宝店铺推广方法
  • 昆明学校网站建设白帽seo公司
  • 网站顶部关键词林俊杰歌词
  • 做黄色网站赚钱么外链工具软件