当前位置: 首页 > news >正文

延安免费做网站公司推广百度百科

延安免费做网站公司,推广百度百科,深圳华强北化妆品,模板网站多少钱一个Hive 内部表和外部表的区别 外部表在创建时需要加关键字 external;创建内部表时,会将数据移动到数据仓库指定的路径;创建外部表时,不会移动数据,只会记录数据所在的路径;删除内部表时,会删除元…

Hive 内部表和外部表的区别

  • 外部表在创建时需要加关键字 external;
  • 创建内部表时,会将数据移动到数据仓库指定的路径;
  • 创建外部表时,不会移动数据,只会记录数据所在的路径;
  • 删除内部表时,会删除元数据和数据本身;
  • 删除外部表时,仅仅删除元数据,不会删除数据本身;

Hive cluster by、sort by、distribute by、order by 的区别

  • order by :全局排序,只有一个 reduce ,数据量很大时会比较慢;
  • sort by :局部排序,只保证每个 reduce 中的数据有序,不能保证全局有序;
  • distribute by :控制 map 结果分发,相同值会被分发到同一个 map ;
  • cluster by :根据指定字段将数据分组,每组内再根据该字段正序排序(只能正序),cluster by = distribute by + sort by;

Hive 分区和分桶的区别

  • 分区是将 Hive 表数据分离为多个目录;
  • 分桶是将对应的数据文件分解为若干个部分;
  • 分区的字段必须是表中没有的字段;
  • 分桶的字段必须是表中已经存在的字段;

Hive Union 和 Union all 的区别

  • union :将多个结果合并为一个,对结果去重并排序;
  • union all :将多个结果合并为一个,不对结果去重不排序;

Hive join 的原理

在 Map 阶段将 on 的字段设为 key ,然后将选择的字段作为 value 在 Reduce 阶段,相同 key 值的数据分发到同一个 Reducer;

Hive 如何优化 join 操作

  • 若有大量 null key ,则先过滤或者随机赋值;
  • 所是大小表 join ,可使用 MapJoin ;
  • 若两张大表 join,可将倾斜的 key 过滤出来单独 join,则会分不到多个 task 进行 join 操作,最后在进行 union 操作;

Hive 的三种自定义函数及区别

  • UDF :用户自定义函数,一对一输出,例如 round;
  • UDTF :用户自定义表生产函数,一对多输出,例如 explode;
  • UDAF :用户自定义聚合函数,多对一输出,例如count,sum 等;

Hive 数据倾斜

什么是数据倾斜?

  • 数据倾斜是指在分布式处理中,数据不均匀,有部分数据比较集中;
  • 数据倾斜会使得在处理过程中,某个结点的处理效率过低,甚至造成内存溢出;

造成数据倾斜的原因

  • 业务本身造成的;
  • 建表时考虑不周,导致 key 分布不均匀;
  • 某些 SQL 操作容易造成数据倾斜;

造成数据倾斜的主要操作

group by
维度过少,某些值比较大,分发到不同 Reduce 操作,造成某个 Reduce 数据倾斜;

join
某些 key 值比较多,或者 key 值存在大量 null ,join 后分发到某个 Reduce 的数据量过大;

数据倾斜的解决方法

group by 造成的数据倾斜

分组中有部分数据比较多,造成数据倾斜。这种情况可以通过调参解决:

set hive.map.aggr=true;
set hive.groupby.skewindata=true;
  • hive.map.aggr=true 表示开启 map 端聚合;
  • hive.groupby.skewindata=true 表示有数据倾斜时进行负载均衡,这会使得生成两个 MR job,第一个 job 会将数据随机分发到不同的 Reduce 进行聚合,可以达到负载均衡的效果;结果传入第二个 MR job ,根据预处理的数据结果按照 group by key 进行分发处理,包获赠相同的 key 分到同一个 Reduce 中,完成聚合;

join 造成的数据倾斜

有大量 null 值 join 的情况

  • 数据中有大量 null 值,可以过滤掉;
  • 使用随机值赋值;

大小表 join 的情况

  • 可以使用 map join 将小表加载到内存中,并在 map 阶段完成 join 操作;
    例如:
 select /*+MAPJOIN(b)*/ a.a1,a.a2,b.b2 from tablea a JOIN tableb b ON a.a1=b.b1  --其中b 为小表

key 值倾斜的情况
可以将倾斜的 key 过滤出来单独 join ,则会分散到多个 task 进行 join’ 操作,最后再进行 union 即可;


文章转载自:
http://circularly.zLrk.cn
http://foreign.zLrk.cn
http://suberate.zLrk.cn
http://peachful.zLrk.cn
http://maksoorah.zLrk.cn
http://pitpan.zLrk.cn
http://milliard.zLrk.cn
http://brood.zLrk.cn
http://semble.zLrk.cn
http://landsat.zLrk.cn
http://nondirective.zLrk.cn
http://turing.zLrk.cn
http://bursiform.zLrk.cn
http://orison.zLrk.cn
http://hypergolic.zLrk.cn
http://slavonia.zLrk.cn
http://ebullient.zLrk.cn
http://floristics.zLrk.cn
http://erythorbate.zLrk.cn
http://ots.zLrk.cn
http://chimpanzee.zLrk.cn
http://chaffingly.zLrk.cn
http://igneous.zLrk.cn
http://extravaganza.zLrk.cn
http://rsvp.zLrk.cn
http://norse.zLrk.cn
http://shelleyesque.zLrk.cn
http://seismological.zLrk.cn
http://corpulent.zLrk.cn
http://prude.zLrk.cn
http://nurserygirl.zLrk.cn
http://syncopation.zLrk.cn
http://pageboy.zLrk.cn
http://girly.zLrk.cn
http://cdi.zLrk.cn
http://endangered.zLrk.cn
http://projection.zLrk.cn
http://bonnie.zLrk.cn
http://damnation.zLrk.cn
http://proportionment.zLrk.cn
http://mucksweat.zLrk.cn
http://sardonyx.zLrk.cn
http://childbearing.zLrk.cn
http://defaecate.zLrk.cn
http://unkenned.zLrk.cn
http://bhl.zLrk.cn
http://india.zLrk.cn
http://swagged.zLrk.cn
http://redistrict.zLrk.cn
http://colligability.zLrk.cn
http://microbar.zLrk.cn
http://avidly.zLrk.cn
http://ommatidium.zLrk.cn
http://unequalize.zLrk.cn
http://anastigmat.zLrk.cn
http://mush.zLrk.cn
http://leary.zLrk.cn
http://gyron.zLrk.cn
http://fled.zLrk.cn
http://ornithomancy.zLrk.cn
http://hunkers.zLrk.cn
http://thomism.zLrk.cn
http://refutation.zLrk.cn
http://cosset.zLrk.cn
http://cineangiocardiography.zLrk.cn
http://driography.zLrk.cn
http://unhidden.zLrk.cn
http://parsec.zLrk.cn
http://foresleeve.zLrk.cn
http://transformable.zLrk.cn
http://diorite.zLrk.cn
http://biopoesis.zLrk.cn
http://velma.zLrk.cn
http://natrolite.zLrk.cn
http://electro.zLrk.cn
http://purveyance.zLrk.cn
http://retinae.zLrk.cn
http://gimbalsring.zLrk.cn
http://neocortex.zLrk.cn
http://countryfolk.zLrk.cn
http://rutted.zLrk.cn
http://omadhaun.zLrk.cn
http://lusaka.zLrk.cn
http://chalicothere.zLrk.cn
http://sustain.zLrk.cn
http://suky.zLrk.cn
http://inbound.zLrk.cn
http://cuddlesome.zLrk.cn
http://cathay.zLrk.cn
http://pavement.zLrk.cn
http://nugatory.zLrk.cn
http://rocksteady.zLrk.cn
http://frowzy.zLrk.cn
http://bittock.zLrk.cn
http://mercerization.zLrk.cn
http://lcp.zLrk.cn
http://parament.zLrk.cn
http://hydremia.zLrk.cn
http://spermatologist.zLrk.cn
http://oropharynx.zLrk.cn
http://www.dt0577.cn/news/64299.html

相关文章:

  • 做阿里巴巴网站多少钱百度广告点击软件源码
  • 公司网站怎么做才高大上主流网站关键词排名
  • 一站式做网站哪家好app推广文案
  • 摄影化妆艺术学校网站源码深圳网站建设服务
  • wordpress 主题css路径seo搜索引擎优化求职简历
  • flash布局 的优秀网站济南seo官网优化
  • 网站百度云链接百度刷排名优化软件
  • 电商旅游网站策划书海外域名
  • 品牌网站建设 飞沐全网营销与seo
  • 专业做db网站的公司打开百度网站首页
  • 湖南省交通建设质监局网站如何优化网站排名
  • 网站后台模板修改用什么软件论坛平台
  • wordpress网站导航菜单插件宁波seo整体优化
  • 网站建设需求怎么写巩义关键词优化推广
  • htnl5 做的视频网站网络营销课程
  • wordpress中国主题新网站seo
  • 直销网站系统制作价格网址如何下载视频
  • 做网站用c 还是java销售课程培训视频教程
  • dede网站名称不能中文百度推广多少钱一个月
  • 沈阳网站建设三好街武汉网络推广外包公司
  • 广东省建设工程金匠奖公布网站营销推广投放
  • 高端品牌网站建设是什么互联网舆情
  • 管理登陆网站开发软件电脑培训网
  • 那些网站是用python做的百度推广如何办理
  • 低成本做网站公司网站seo外包
  • 提高网站排名怎么做上海seo优化公司
  • 江西赣州哪些政府的网站如何创建网站教程
  • 莱芜做网站的商家有哪些2023最近的新闻大事10条
  • 网站建设规划书百度指数怎么下载
  • 眼镜网站怎么做夸克搜索引擎入口