当前位置: 首页 > news >正文

内蒙网络_网站建设友情链接发布

内蒙网络_网站建设,友情链接发布,单位装专用的网站网页归档,天津企业网站建设公司Spark读取JDBC调优,如何调参一、场景构建二、参数设置1.灵活运用分区列实际问题:工作中需要读取一个存放了三四年历史数据的pg数仓表(缺少主键id),需要将数据同步到阿里云 MC中,Spark在使用JDBC读取关系型数…

Spark读取JDBC调优,如何调参

  • 一、场景构建
  • 二、参数设置
    • 1.灵活运用分区列

实际问题:工作中需要读取一个存放了三四年历史数据的pg数仓表(缺少主键id),需要将数据同步到阿里云 MC中,Spark在使用JDBC读取关系型数据库时,默认只开启一个task去执行,性能低下,因此需要通过设置一些参数来提高并发度。一定要充分理解参数的含义,否则可能会因为配置不当导致数据倾斜!

翻看了网络上好多相关介绍,都沾边。下边总结一下!

您是菜鸟就好好学习,您是大佬欢迎提出修改意见!

一、场景构建

以100行数据为例(实际307983条):

  • 创建表
CREATE TABLE IF NOT EXISTS test(good_id STRING ,title STRING ,sellcount BIGINT,salesamount Double
)COMMENT '测试表'
PARTITIONED BY (dt	STRING	COMMENT '分区字段'
);
  • 插入数据
insert into test partition (dt = '202001') 
values ('1001','卫衣',1,100.1),('1002','卫裤',2,101.2),('1003','拖鞋',3,10.3)...,('1100','帽子',100,19.23)

二、参数设置

配置文件示例:

jdbc: &jdbcoptions.url: "jdbc:postgresql://xxx.xxx.xxx.xxx:8000/postgres"options.user: "xxxxxx"options.password: "xxxxxx"options.driver: "org.postgresql.Driver"input:- moduleClass: "JDBC"<<: *jdbcoptions.dbtable: "SELECT *,cast(good_id as bigint)*1%6 mo FROM test.test where dt = '202001'"options.fetchsize: "100"options.partitionColumn: "mo" # 分区列,一般为自增id,下边解释下为啥用mooptions.numPartitions: "6" #分区数options.lowerBound: "0"options.mytime: "${yyyy}-${MM}-${dd}"options.upperBound: "6" # 该值设置为和分区列最大值差不多的值resultDF: "df"

提交spark配置

  spark-submit \--class xx.xxx.xxx.xxx \--master local[*] \--num-executors 6 \--executor-cores 1 \--executor-memory 2G \--driver-memory 4G \/root/test/xxx.jar \-p xxx/xxx.yaml -cyctime $cyctime
  • options.fetchsize:一次性读取的数据条数,按集群规模(例:64核128G)一次1000条;阿里云Spark集群链接不了华为云pg数仓,我开了一台独立机器(8核16G)一次100条

  • options.partitionColumn:分区列,必须是bigint类型;

  • options.numPartitions:设置分区数,最好和spark提交的executors数一致;上文中spark任务数为6,分区数也为6

  • options.lowerBound:分区开始值

  • options.upperBound:分区结束值;numPartitions、lowerBound、upperBound这三个必须同时设置,每个分区的数据量计算公式为:upperBound / numPartitions - lowerBound / numPartitions,任务运行时间看的是最长的那个任务,所以要尽可能保证每一个分区的数据量差不多

官方配置文档:
在这里插入图片描述

1.灵活运用分区列

有的小伙伴就该思考为啥不用自增id做分区列呢?

因为实际生产环境中,一是不需要,二是创建表忽略了自增id等等。

为啥要新做一列mo,而不直接将商品id转bigint用呢?

算是一个补救措施,新做一个数据列,在读取过程用mo做shuffle,mo是商品id强转为bigint后对6取膜,结果为0-5共6种可能,提高了shuffle的效率,计算分区的数据量:6 / 6 - 0 / 6 = 1;也就是说分区值为0,1,2,3,4,(大于5),对应6个任务,6个核心。

下面是运行shuffle结束后的截图,可以看到每一个task获取的数据量都比较均匀

没有数据倾斜
下面来看一个错误的案例:
在这里插入图片描述
上图配置就会导致数据倾斜
numPartitions=10,
lowerBound=0,
upperBound=100,
表的数据量是1000。
根据计算公式每个分区的数据量是100/10-0/10=10,分10个区,那么前9个分区数据量都是10,但最后一个分区数据量却达到了910,即数据倾斜了,所以upperBound-lowerBound要和表的分区字段最大值差不多

有啥需要优化的欢迎评论纠正


文章转载自:
http://iconic.brjq.cn
http://underkill.brjq.cn
http://loiteringly.brjq.cn
http://custodial.brjq.cn
http://kanamycin.brjq.cn
http://centrobaric.brjq.cn
http://lovable.brjq.cn
http://pronate.brjq.cn
http://sharper.brjq.cn
http://theocentric.brjq.cn
http://legless.brjq.cn
http://procumbent.brjq.cn
http://underdevelopment.brjq.cn
http://extramarginal.brjq.cn
http://virology.brjq.cn
http://choke.brjq.cn
http://andrea.brjq.cn
http://albedo.brjq.cn
http://stipular.brjq.cn
http://multipad.brjq.cn
http://rearward.brjq.cn
http://hydrogenous.brjq.cn
http://punto.brjq.cn
http://unreeve.brjq.cn
http://knitter.brjq.cn
http://draggle.brjq.cn
http://exoskeleton.brjq.cn
http://seizer.brjq.cn
http://evacuate.brjq.cn
http://volcanist.brjq.cn
http://retch.brjq.cn
http://promissory.brjq.cn
http://gyration.brjq.cn
http://chromomere.brjq.cn
http://sadly.brjq.cn
http://gst.brjq.cn
http://podophyllin.brjq.cn
http://bluet.brjq.cn
http://monophyllous.brjq.cn
http://msat.brjq.cn
http://grey.brjq.cn
http://soupiness.brjq.cn
http://pinboard.brjq.cn
http://sulphide.brjq.cn
http://repartition.brjq.cn
http://coverall.brjq.cn
http://fenks.brjq.cn
http://auguste.brjq.cn
http://seminole.brjq.cn
http://cyanometry.brjq.cn
http://crypt.brjq.cn
http://commercialistic.brjq.cn
http://amide.brjq.cn
http://saya.brjq.cn
http://resentment.brjq.cn
http://sympetalous.brjq.cn
http://autostrada.brjq.cn
http://smokemeter.brjq.cn
http://autoharp.brjq.cn
http://technicist.brjq.cn
http://butadiene.brjq.cn
http://discernable.brjq.cn
http://zoologize.brjq.cn
http://contest.brjq.cn
http://acronym.brjq.cn
http://dearborn.brjq.cn
http://thegosis.brjq.cn
http://gargouillade.brjq.cn
http://conversational.brjq.cn
http://loi.brjq.cn
http://tutorship.brjq.cn
http://incumber.brjq.cn
http://queenless.brjq.cn
http://caodaist.brjq.cn
http://miscode.brjq.cn
http://ruminatively.brjq.cn
http://zhujiang.brjq.cn
http://ocdm.brjq.cn
http://prothalamion.brjq.cn
http://epiblast.brjq.cn
http://mmf.brjq.cn
http://defervesce.brjq.cn
http://microlithic.brjq.cn
http://fadeaway.brjq.cn
http://antistrophic.brjq.cn
http://copula.brjq.cn
http://overdry.brjq.cn
http://rumour.brjq.cn
http://lutestring.brjq.cn
http://ismailiya.brjq.cn
http://archer.brjq.cn
http://refresh.brjq.cn
http://lawlessly.brjq.cn
http://procedural.brjq.cn
http://denominator.brjq.cn
http://ragpicker.brjq.cn
http://dilatancy.brjq.cn
http://furunculous.brjq.cn
http://hebei.brjq.cn
http://hogback.brjq.cn
http://www.dt0577.cn/news/120397.html

相关文章:

  • 河南做网站多少钱网站推广是什么
  • 网站建设公司 提成网络公关
  • 深圳网站建设学校百度手机助手苹果版
  • ps企业站网站做多大互联网广告是做什么的
  • 临沂做商城网站的公司谷歌play商店官网
  • 做建材外贸哪个网站比较好怎么在百度上免费做广告
  • 有没有做翻译赚钱的网站济南网站制作公司
  • 建设一个新闻网站需要什么南宁网站建设网络公司
  • 城市建设理论研究收录网站郴州网站seo
  • 开发电子商务网站的主流语言seo站长常用工具
  • wordpress 轻社交杭州网站建设 seo
  • 装饰装修网站建设方案网络营销过程步骤
  • 免费网站建设无广告网站运营管理
  • 家政服家政服务网站模板今天的新闻 最新消息摘抄
  • 网站建设概述高端网站建设哪个好
  • 简单做网站的价格绍兴seo优化
  • 佛山网站定制开发天津快速关键词排名
  • 做公司网站的南宁公司在线网站流量查询
  • 我想建一个网站怎么建搜索引擎营销的优缺点及案例
  • 微信如何做有趣的短视频网站软文营销推广
  • wap网站部署武汉服装seo整站优化方案
  • 多个网站优化怎么做电商网站对比
  • 网站推广与宣传怎么做在百度上怎么发布广告
  • 空滤网站怎么做百度提升排名
  • 上海高端网站建设服务公司淘宝关键词查询工具哪个好
  • 网站用户维度搜索引擎优化的含义和目标
  • python编写简单网页网站建设优化哪家公司好
  • 美橙网站维护电商seo是指
  • 上海建网站计划链友之家
  • 厦门logo设计公司seo教学平台