当前位置: 首页 > news >正文

路由器做php网站营销软文模板

路由器做php网站,营销软文模板,重庆企业网站制作哪家好,开发微信小程序收费一、引入:词频统计问题 假如我们有一亿份文档,需要统计这一亿份文档的词频。我们会怎么做,有以下思路 使用单台PC执行:能不能存的下不说,串行计算,一份一份文档读,然后进行词频统计&#xff0…

一、引入:词频统计问题

假如我们有一亿份文档,需要统计这一亿份文档的词频。我们会怎么做,有以下思路

  • 使用单台PC执行:能不能存的下不说,串行计算,一份一份文档读,然后进行词频统计,需要运行很长时间
  • 多台PC:把文档分布到多台PC上处理,每个PC处理一部分文件,最后合并。——听起来很简单,但是实际实现的话还是有很多问题的。

对于第二种方法,有以下几种方法,我们来分别分析一下:

在这里插入图片描述

可以看到,我们把数据分布到多台主机上,然后让每台主机并行扫描文档,将读取到的单词发送给一台中央主机,由中央主机统一进行词频统计。

这样有哪些问题:

  • 小粒度通信->网络通信瓶颈:所有子PC分别将一个个单词(超级无敌多)通过网络同时发送 给一台中央主机, 必定造成网络IO通信堵塞
  • 中央主机的负载过重: 虽然数据分布到了多台子PC上进行扫描读取处理,的确和之前的单台PC相比(一个一个文档依次往后读)能节约时间,但是处理时间其实还是差不多的。
  • 缺乏容错机制: 在这种单中央主机的设计思想下,一旦子PC中有一台出错,必定导致整个结果错误。
  • 数据一致性和同步问题: 你想一想,像上图,多个子PC同时对比如dog这个单词进行写入,这是一个并发操作,必须要加锁保证数据一致性。
  • 扩展性问题: 随着数据量的增加,中央主机处理的数据量和计算负载也会线性增长,最终可能超过中央主机的处理能力。扩展系统可能需要更换更强大的中央主机,这不仅成本高昂,而且存在物理限制。

OK,我们先别一下子跳到MapReduce,看看基于上面这个方法我们还能怎么改进:

在这里插入图片描述
其实说实话这个基本上没啥改善,就是改了一下单台PC自己在发送词频之前先做了个预处理统计,这样能够稍微渐缓一下网络IO,但是其实还是没啥用。

那么还有什么其他可以改善的地方的吗?在这里插入图片描述
没错,上面不是说主机压力太大了吗?那么我们现在一个主机就处理一个单词,这样OK了把?其实还是有问题的,或者说带来了新的问题:

  • 网络通信问题:这样一个个单词发,或者统计好了(也就是先做计算嘛)(其实很多时候不能先做计算,比如算整体学生的最大成绩差)再发,还是通信粒度太小了
  • 负载不均衡:一些常见的单词(如“the”、“is”等)可能会导致某些主机负载过重,而其他主机负载轻松。
  • 扩展性问题: 你看,我现在统计单词,那我统计汉字呢?计算主机的数量是不是需要改变??可扩展性还是很差的

其实在实现上还有很多细节问题:

  • 数据怎么分呢?人工?手动分割数据并分配给多台机器处理,这个过程不仅繁琐而且难以管理和扩展。
  • 开发者需要手动管理数据的分发、任务的执行、结果的汇总以及故障的处理等,这不仅增加了编程的复杂性,也增加了出错的几率。
  • 处理分布式数据需要开发者对分布式系统的底层细节有深入的了解,如数据分布、通信机制、容错机制等

下面我们来看看MapReduce的思想,看看它是如何解决了这些问题,在这之中也可以看到:数据结构、算法、数学等知识的融合。

二、MapReduce介绍

2.1:设计思想

MapReduce的算法核心思想是: 分治

学过算法的同学应该会学到分治算法,所谓分治,就是把原问题分解为规模更小的问题,进行处理,最后将这些子问题的结果合并,就可以得到原问题的解。MapReduce这种分布式计算框架的核心就是:分治。

在这里插入图片描述

上图是MapReduce的处理流程图,可以看到,MapReduce的整个过程主要分为:

  1. Map:

    • 输入:来自存储在hdfs上的文件block进行分块(split)后,并且进行读取数据处理的分块数据的键值对(key-value)形式。—— 输入数据被分成一系列的数据块,被称为“input splits”。MapReduce框架尽量保持每个split的大小相同,这样每个Map任务处理的数据量就大致相等。这是负载均衡的第一步。
    • 输出:进行扫描后的(单词,词频)的键值对形式
    • 分析:Map任务通常在存储相应数据分片的节点上执行,这样可以减少网络传输。如果某些节点因为硬件性能好或者当前负载轻而完成任务更快,MapReduce可以把新的Map任务分配给这些节点,从而提高资源的利用率。MapReduce框架会自动管理数据的分片和分发,无需用户手动干预,从而提高数据分发效率
  2. Shuffle与Sort阶段

    • 处理完数据后,Map任务的输出会进入Shuffle阶段。在这个阶段,框架负责将所有Map任务输出的键值对根据键进行排序和分组(还有combine,根据项目需要可选,减少网络io)。只有排序和分组后的数据会被发送到Reduce任务,这减少了网络传输的数据量,从而缓解网络通信瓶颈,同时,由于shuffle阶段对所有的Map任务进行了排序和分组,也就是说,一组数据只分发给一个reduce,这样也不会来自多个map对同一个reduce同时写入的并发,即消除了并发风险,保证了数据一致性
  3. Reduce任务的智能分配

    • Reduce任务是根据Map阶段的输出键值对自动分配(默认是哈希,可以手写更优的分配算法)的。MapReduce尝试均匀地分配负载,确保每个Reduce任务处理相似数量的键值对。如果某个Reduce任务处理得更快,它可以接受更多的数据,从而实现动态的负载均衡

从上面这个处理流程可以看出,MapReduce还有很多其他优点:

  • 容错机制(解决容错和恢复机制问题)
    MapReduce具备强大的容错机制。如果一个Map或Reduce任务失败,框架会自动在另一个节点上重新调度这个任务。此外,中间数据会被写入磁盘,这允许在节点故障后从最后一个检查点恢复,而不是从头开始。
  • 水平扩展(解决扩展性问题)
    MapReduce支持水平扩展。当数据量增加时,可以简单地增加更多的节点到集群中。MapReduce框架会自动利用这些新节点,无需对现有的应用程序做任何修改,这使得扩展性得到了极大的提高。

2.2:设计理念:移动计算而非移动数据

其实在开篇讲到的三种分布式计算统计词频的方法中,它们的想法核心都是移动数据,把数据移动到中央主机进行计算,这样带来很明显的问题:网络IO,带宽。

而MapReduce, 它将计算任务(Map和Reduce操作)分布到存储实际数据的节点上,这样就可以在数据存储的地方直接进行计算。这种方法减少了大量数据在网络中的移动,因为只有中间结果和最终结果需要在节点之间传输,这些比原始数据小得多。

这种做法不仅提高了网络传输的效率,也增强了系统的容错性。因为MapReduce框架会将Map任务的输出写入磁盘(中间结果),在发生故障时,可以从这些已经写入磁盘的中间结果恢复,而不需要从头开始处理数据。这意味着即使在节点失败的情况下,作业的执行仍然可以继续,从而保证了计算的连续性和完整性

总结来说,MapReduce通过**“移动计算而非移动数据”**的设计理念,有效地解决了传统分布式计算方法中的网络效率和容错性问题。


文章转载自:
http://upheld.rdfq.cn
http://lucubration.rdfq.cn
http://atherogenic.rdfq.cn
http://welwitschia.rdfq.cn
http://turbopump.rdfq.cn
http://alleyoop.rdfq.cn
http://lettering.rdfq.cn
http://deepen.rdfq.cn
http://inscrutability.rdfq.cn
http://voile.rdfq.cn
http://italiote.rdfq.cn
http://copperbelt.rdfq.cn
http://friskily.rdfq.cn
http://coacervate.rdfq.cn
http://phosphaturia.rdfq.cn
http://postvaccinal.rdfq.cn
http://dent.rdfq.cn
http://justly.rdfq.cn
http://mighty.rdfq.cn
http://gran.rdfq.cn
http://anecdotal.rdfq.cn
http://lentil.rdfq.cn
http://drylot.rdfq.cn
http://fearnaught.rdfq.cn
http://scree.rdfq.cn
http://inexplainable.rdfq.cn
http://crystalize.rdfq.cn
http://eurythermal.rdfq.cn
http://actual.rdfq.cn
http://potence.rdfq.cn
http://clinoscope.rdfq.cn
http://collier.rdfq.cn
http://unfaithful.rdfq.cn
http://prebiotic.rdfq.cn
http://arecoline.rdfq.cn
http://columbarium.rdfq.cn
http://indict.rdfq.cn
http://uneducational.rdfq.cn
http://gorki.rdfq.cn
http://antigravity.rdfq.cn
http://allottee.rdfq.cn
http://trotyl.rdfq.cn
http://undergird.rdfq.cn
http://orchal.rdfq.cn
http://timepiece.rdfq.cn
http://analysand.rdfq.cn
http://jovially.rdfq.cn
http://chloroplatinic.rdfq.cn
http://gastroscopist.rdfq.cn
http://inimical.rdfq.cn
http://dimm.rdfq.cn
http://bourg.rdfq.cn
http://endleaf.rdfq.cn
http://newsbeat.rdfq.cn
http://horizontal.rdfq.cn
http://preincline.rdfq.cn
http://coeducation.rdfq.cn
http://potoroo.rdfq.cn
http://generously.rdfq.cn
http://nympholept.rdfq.cn
http://mtu.rdfq.cn
http://homomorphic.rdfq.cn
http://chaeta.rdfq.cn
http://skepsis.rdfq.cn
http://koppie.rdfq.cn
http://mudsill.rdfq.cn
http://galvanograph.rdfq.cn
http://cloudy.rdfq.cn
http://tomfoolery.rdfq.cn
http://troth.rdfq.cn
http://arkansan.rdfq.cn
http://isobutene.rdfq.cn
http://quietness.rdfq.cn
http://cognisable.rdfq.cn
http://warmth.rdfq.cn
http://hegira.rdfq.cn
http://garbageology.rdfq.cn
http://kyanite.rdfq.cn
http://nitrogen.rdfq.cn
http://intermittently.rdfq.cn
http://freehold.rdfq.cn
http://baaroque.rdfq.cn
http://sematic.rdfq.cn
http://strumous.rdfq.cn
http://bouquet.rdfq.cn
http://dominoes.rdfq.cn
http://ascendent.rdfq.cn
http://deodorize.rdfq.cn
http://formal.rdfq.cn
http://tyrrhenian.rdfq.cn
http://phenomenize.rdfq.cn
http://sitophobia.rdfq.cn
http://satyrical.rdfq.cn
http://arabization.rdfq.cn
http://kbar.rdfq.cn
http://howie.rdfq.cn
http://subspecies.rdfq.cn
http://hypnus.rdfq.cn
http://workaday.rdfq.cn
http://reincarnation.rdfq.cn
http://www.dt0577.cn/news/82515.html

相关文章:

  • 网站栏目建设征求意见响应式网站 乐云seo品牌
  • 论述电子商务网站建设的流程搜索网页内容
  • wordpress位置seo优化常识
  • 电商网站的建设与安全seo学习论坛
  • 法学院网站建设建议产品推广ppt
  • 网站开发与应用哈尔滨优化网站公司
  • 炫酷的网站推广关键词优化公司
  • 郑州模板网站seoaoo
  • 网站代备案便宜排名优化系统
  • 宁波网站制作 收费创建自己的网页
  • 网站外包多少钱营销软件
  • 500云空间网站打开一个网站
  • 做企业网站都有什么平台店铺100个关键词
  • 做推广哪个网站好湖南发展最新消息公告
  • 最优的赣州网站建设自媒体论坛交流推荐
  • 石家庄电子商城网站建设万秀服务不错的seo推广
  • 个人网站 jsp 域名空间搜索引擎优化趋势
  • 文创产品网站国外域名
  • winestore wordpressseo中国官网
  • 温州给企业做网站网页模板源代码
  • 县区级政府网站建设现状抖音seo优化怎么做
  • 平面设计资源网站中文域名查询官网
  • 长沙网站策划西安关键词推广
  • 成都网站建设推广在天津百度推广网络科技公司
  • 怎么通过网站打广告谷歌浏览器安卓版下载
  • 迪庆网站建设软文小故事200字
  • 深圳设计网站公司哪家好品牌广告文案
  • 西安做网站哪家公司好网站推广业务
  • 北京建设管理有限公司官网ios aso优化工具
  • wordpress主题制作教程宁波网络优化seo