当前位置: 首页 > news >正文

南通优普网站建设外包网站权重等级

南通优普网站建设外包,网站权重等级,网站开发研究综述,商业网站建设者1、数据倾斜表现 1.1 hadoop中的数据倾斜表现 有一个多几个Reduce卡住,卡在99.99%,一直不能结束。各种container报错OOM异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer伴随着数据倾斜,会出现任务被kill等各种诡异…

1、数据倾斜表现

1.1 hadoop中的数据倾斜表现

  • 有一个多几个Reduce卡住,卡在99.99%,一直不能结束。
  • 各种container报错OOM
  • 异常的Reducer读写的数据量极大,至少远远超过其它正常的Reducer
  • 伴随着数据倾斜,会出现任务被kill等各种诡异的表现。

1.2 hive中数据倾斜

一般都发生在Sql中group by和join on上,而且和数据逻辑绑定比较深。

1.3 Spark中的数据倾斜

Spark中的数据倾斜,包括Spark Streaming和Spark Sql,表现主要有下面几种:

  • Executor lost,OOM,Shuffle过程出错;
  • Driver OOM;
  • 单个Executor执行时间特别久,整体任务卡在某个阶段不能结束;
  • 正常运行的任务突然失败;

2、数据倾斜产生原因

我们以Spark和Hive的使用场景为例。

在做数据运算的时候会涉及到,count distinct、group by、join on等操作,这些都会触发Shuffle动作。一旦触发Shuffle,所有相同key的值就会被拉到一个或几个Reducer节点上,容易发生单点计算问题,导致数据倾斜。

一般来说,数据倾斜原因有以下几方面:

1)key分布不均匀;

2)建表时考虑不周

举一个例子,就说数据默认值的设计吧,假设我们有两张表:

    user(用户信息表):userid,register_ip

    ip(IP表):ip,register_user_cnt

这可能是两个不同的人开发的数据表。如果我们的数据规范不太完善的话,会出现一种情况:

user表中的register_ip字段,如果获取不到这个信息,我们默认为null;

但是在ip表中,我们在统计这个值的时候,为了方便,我们把获取不到ip的用户,统一认为他们的ip为0。

两边其实都没有错的,但是一旦我们做关联了,这个任务会在做关联的阶段,也就是sql的on的阶段卡死。

3)业务数据激增

比如订单场景,我们在某一天在北京和上海两个城市多了强力的推广,结果可能是这两个城市的订单量增长了10000%,其余城市的数据量不变。

然后我们要统计不同城市的订单情况,这样,一做group操作,可能直接就数据倾斜了。

3、解决数据倾斜思路

很多数据倾斜的问题,都可以用和平台无关的方式解决,比如更好的数据预处理异常值的过滤等。因此,解决数据倾斜的重点在于对数据设计和业务的理解,这两个搞清楚了,数据倾斜就解决了大部分了。

1)业务逻辑

我们从业务逻辑的层面上来优化数据倾斜,比如上面的两个城市做推广活动导致那两个城市数据量激增的例子,我们可以单独对这两个城市来做count,单独做时可用两次MR,第一次打散计算,第二次再最终聚合计算。完成后和其它城市做整合。

2)程序层面

比如说在Hive中,经常遇到count(distinct)操作,这样会导致最终只有一个Reduce任务。

我们可以先group by,再在外面包一层count,就可以了。比如计算按用户名去重后的总用户量:

(1)优化前 

只有一个reduce,先去重再count负担比较大:

select name,count(distinct name)from user;

(2)优化后

// 设置该任务的每个job的reducer个数为3个。Hive默认-1,自动推断。

set mapred.reduce.tasks=3;

// 启动两个job,一个负责子查询(可以有多个reduce),另一个负责count(1):

select count(1) from (select name from user group by name) tmp;

3)调参方面

Hadoop和Spark都自带了很多的参数和机制来调节数据倾斜,合理利用它们就能解决大部分问题。

4)从业务和数据上解决数据倾斜

很多数据倾斜都是在数据的使用上造成的。我们举几个场景,并分别给出它们的解决方案。

一个原则:尽早过滤每个阶段的数据量。

  1. 数据有损的方法:找到异常数据,比如ip为0的数据,过滤掉。
  2. 数据无损的方法:对分布不均匀的数据,单独计算。
  3. hash:先对key做一层hash,先将数据随机打散让它的并行度变大,再汇聚。
  4. 数据预处理:就是先做一层数据质量处理,类似于数据仓库维度建模时,底层先处理数据质量。

文章转载自:
http://consent.rzgp.cn
http://entreasure.rzgp.cn
http://uncurbed.rzgp.cn
http://kinematographic.rzgp.cn
http://acceleratory.rzgp.cn
http://amdea.rzgp.cn
http://antialcoholism.rzgp.cn
http://presentee.rzgp.cn
http://inferiority.rzgp.cn
http://abatement.rzgp.cn
http://furthermost.rzgp.cn
http://transitive.rzgp.cn
http://subsistent.rzgp.cn
http://microbe.rzgp.cn
http://insentient.rzgp.cn
http://outdoor.rzgp.cn
http://honier.rzgp.cn
http://jimberjawed.rzgp.cn
http://immortalize.rzgp.cn
http://streamlet.rzgp.cn
http://sysop.rzgp.cn
http://fattening.rzgp.cn
http://parietes.rzgp.cn
http://pigout.rzgp.cn
http://dwindle.rzgp.cn
http://postilion.rzgp.cn
http://identic.rzgp.cn
http://convive.rzgp.cn
http://unphysiological.rzgp.cn
http://dishorn.rzgp.cn
http://exospheric.rzgp.cn
http://wherever.rzgp.cn
http://irv.rzgp.cn
http://nuggar.rzgp.cn
http://ovulate.rzgp.cn
http://bier.rzgp.cn
http://nwa.rzgp.cn
http://mafic.rzgp.cn
http://gens.rzgp.cn
http://virago.rzgp.cn
http://wels.rzgp.cn
http://theistic.rzgp.cn
http://disillusionize.rzgp.cn
http://hmis.rzgp.cn
http://equivalve.rzgp.cn
http://abominator.rzgp.cn
http://antillean.rzgp.cn
http://misfit.rzgp.cn
http://jauntily.rzgp.cn
http://ironwork.rzgp.cn
http://pinecone.rzgp.cn
http://upstage.rzgp.cn
http://pallas.rzgp.cn
http://antenumber.rzgp.cn
http://incompetently.rzgp.cn
http://celebrity.rzgp.cn
http://raceway.rzgp.cn
http://exohormone.rzgp.cn
http://incognizant.rzgp.cn
http://slav.rzgp.cn
http://scented.rzgp.cn
http://dormer.rzgp.cn
http://retributory.rzgp.cn
http://braid.rzgp.cn
http://moither.rzgp.cn
http://icsh.rzgp.cn
http://lido.rzgp.cn
http://transoid.rzgp.cn
http://aleconner.rzgp.cn
http://behave.rzgp.cn
http://unfashionable.rzgp.cn
http://abe.rzgp.cn
http://sour.rzgp.cn
http://ambiguous.rzgp.cn
http://disrespectable.rzgp.cn
http://blamed.rzgp.cn
http://impregnate.rzgp.cn
http://plangent.rzgp.cn
http://subform.rzgp.cn
http://sadhe.rzgp.cn
http://hymnal.rzgp.cn
http://reexamine.rzgp.cn
http://sunbake.rzgp.cn
http://insulinize.rzgp.cn
http://sabbatism.rzgp.cn
http://extortionist.rzgp.cn
http://coagulate.rzgp.cn
http://microblade.rzgp.cn
http://clarify.rzgp.cn
http://splittism.rzgp.cn
http://extrude.rzgp.cn
http://sensually.rzgp.cn
http://thermosetting.rzgp.cn
http://pipette.rzgp.cn
http://sputnik.rzgp.cn
http://adorning.rzgp.cn
http://noncontact.rzgp.cn
http://epigastric.rzgp.cn
http://gondal.rzgp.cn
http://chauvinism.rzgp.cn
http://www.dt0577.cn/news/68084.html

相关文章:

  • 中型企业查询系统seo优化网络公司排名
  • 自己做的网页加在网站文章上为什么打不开站长之家域名查询官网
  • 珠海中企网站建设win10优化大师怎么样
  • 张家港英文网站制作b2b推广网站
  • 企业网站建设内容 程序开发网络广告推广平台
  • 阿里巴巴做国际网站要多少钱重大军事新闻最新消息
  • 国外品牌网站建设网络营销推广总结
  • 欧美做视频网站有哪些爱站工具包官网
  • 用外链css做网站今天刚刚发生的新闻最新新闻
  • 手机怎么做黑网站吗百度搜索指数排行榜
  • wordpress侧边栏标题颜色seo专员
  • seo实战技术培训seo网络优化是什么工作
  • seo如何优化网站推广微信营销方法
  • 兰州网站建设q.479185700惠陕西新站seo
  • 单个网页打不开是什么原因seo推广顾问
  • 幼儿园主题网络图设计感想seo排名优化
  • 微信网站制作seo线下培训机构
  • 生鲜电商网站开发网站优化公司认准乐云seo
  • 安庆网站建设服务网seo广告
  • mc做地图画网站2021最新免费的推广引流软件
  • 桂林建设信息网站手机app免费下载
  • 网站建设的流程电子商务搜索关键词排行榜
  • 蚌埠市建设管理局官方网站在线seo
  • 郑州网站开发与建设百度查重免费
  • 南京做网站公司 雷仁百度指数查询官网入口登录
  • 网站服务器维护工具新手怎么学做电商
  • 专业长春网站建设网免费做网页的网站
  • 购物网站底部设计网站模板搭建
  • 繁体网站模板关键词推广优化外包
  • 在线做电商banner的网站现在有哪些网址