当前位置: 首页 > news >正文

智能建站与正常的网站智能识别图片

智能建站与正常的网站,智能识别图片,做响应式网站的价格,VPS如何做网站服务器使用PySpark解决数据倾斜问题的完整案例,通过广播表连接的方式来优化性能。 准备数据 假设我们有两张表,一张大表 big_table 和一张小表 small_table ,小表将作为广播表。 from pyspark.sql import SparkSession# 初始化SparkSession spar…

使用PySpark解决数据倾斜问题的完整案例,通过广播表连接的方式来优化性能。

  1. 准备数据

假设我们有两张表,一张大表 big_table 和一张小表 small_table ,小表将作为广播表。

from pyspark.sql import SparkSession# 初始化SparkSession
spark = SparkSession.builder.appName("Data Skew Example").getOrCreate()# 模拟大表数据
big_table = spark.createDataFrame([(i, f"value_{i}") for i in range(1000000)], ["id", "data"])# 模拟小表数据
small_table = spark.createDataFrame([(i, f"category_{i%10}") for i in range(100)], ["id", "category"])
  1. 查看广播表大小
import sys
from pyspark.sql.functions import col# 查看小表的大小,单位字节
small_table_size = small_table.select(col("*")).count() * sys.getsizeof(tuple(small_table.first()))
print(f"Size of small_table: {small_table_size} bytes")
  1. 初始连接(产生数据倾斜)
# 不使用广播进行连接,会产生数据倾斜joined_without_broadcast = big_table.join(small_table, "id")
  1. 使用广播表连接
from pyspark.sql.functions import broadcast# 使用广播表连接
joined_with_broadcast = big_table.join(broadcast(small_table), "id")
  1. 查看Spark WebUI分析数据倾斜

运行作业:在执行上述代码时,Spark会启动作业,可以通过Spark WebUI查看作业执行情况。在浏览器中访问 http://:4040 (这是Spark默认的WebUI端口,实际可能不同)。
查看阶段详情:进入“Jobs”页面,找到对应的作业,点击进入查看各阶段(Stage)详情。在阶段详情里,可以看到任务(Task)的执行时间分布。没有广播时,数据倾斜表现为部分任务执行时间远长于其他任务;使用广播后,任务执行时间应更均匀。
查看执行计划:也可以通过调用 joined_with_broadcast.explain() 查看执行计划,确认广播表是否正确应用。

# 查看执行计划
joined_with_broadcast.explain()
  1. 完整代码示例
from pyspark.sql import SparkSession
import sys
from pyspark.sql.functions import col, broadcast# 初始化SparkSession
spark = SparkSession.builder.appName("Data Skew Example").getOrCreate()# 模拟大表数据
big_table = spark.createDataFrame([(i, f"value_{i}") for i in range(1000000)], ["id", "data"])# 模拟小表数据
small_table = spark.createDataFrame([(i, f"category_{i%10}") for i in range(100)], ["id", "category"])# 查看小表的大小,单位字节
small_table_size = small_table.select(col("*")).count() * sys.getsizeof(tuple(small_table.first()))
print(f"Size of small_table: {small_table_size} bytes")# 不使用广播进行连接,会产生数据倾斜
joined_without_broadcast = big_table.join(small_table, "id")# 使用广播表连接
joined_with_broadcast = big_table.join(broadcast(small_table), "id")# 查看执行计划
joined_with_broadcast.explain()

这个案例先创建了大小两张表,查看小表大小以确认适合广播,演示了普通连接产生数据倾斜的情况,接着使用广播表连接解决该问题,并说明了如何从Spark WebUI查看数据倾斜的发生与解决效果。


文章转载自:
http://diploe.pqbz.cn
http://willowy.pqbz.cn
http://luculent.pqbz.cn
http://underlead.pqbz.cn
http://puseyism.pqbz.cn
http://fryer.pqbz.cn
http://dexamethasone.pqbz.cn
http://neutrodyne.pqbz.cn
http://wrathfully.pqbz.cn
http://paranormal.pqbz.cn
http://bubbler.pqbz.cn
http://strychnin.pqbz.cn
http://polywater.pqbz.cn
http://chainomatic.pqbz.cn
http://amazement.pqbz.cn
http://songcraft.pqbz.cn
http://atheoretical.pqbz.cn
http://disjoin.pqbz.cn
http://treasurership.pqbz.cn
http://trajectory.pqbz.cn
http://lexicographical.pqbz.cn
http://abwatt.pqbz.cn
http://agapanthus.pqbz.cn
http://reformulate.pqbz.cn
http://spreading.pqbz.cn
http://tux.pqbz.cn
http://quaquversal.pqbz.cn
http://theanthropical.pqbz.cn
http://urgent.pqbz.cn
http://personalist.pqbz.cn
http://turbidimeter.pqbz.cn
http://thromboembolism.pqbz.cn
http://curving.pqbz.cn
http://chloritic.pqbz.cn
http://photolitho.pqbz.cn
http://peloid.pqbz.cn
http://plotz.pqbz.cn
http://orthohydrogen.pqbz.cn
http://lobe.pqbz.cn
http://meteorous.pqbz.cn
http://astrochemistry.pqbz.cn
http://territory.pqbz.cn
http://ferrocyanide.pqbz.cn
http://sowens.pqbz.cn
http://contrabandist.pqbz.cn
http://rejuvenator.pqbz.cn
http://camerlingate.pqbz.cn
http://nervate.pqbz.cn
http://mahatma.pqbz.cn
http://wadset.pqbz.cn
http://mouse.pqbz.cn
http://gastrotomy.pqbz.cn
http://possess.pqbz.cn
http://opencut.pqbz.cn
http://dexterous.pqbz.cn
http://crookedly.pqbz.cn
http://sumpter.pqbz.cn
http://phthisiology.pqbz.cn
http://fibrovascular.pqbz.cn
http://cephalometric.pqbz.cn
http://weird.pqbz.cn
http://wbo.pqbz.cn
http://clerihew.pqbz.cn
http://balneology.pqbz.cn
http://marginate.pqbz.cn
http://circumfuse.pqbz.cn
http://primulaceous.pqbz.cn
http://grayest.pqbz.cn
http://rubicundity.pqbz.cn
http://acculturate.pqbz.cn
http://tridymite.pqbz.cn
http://viet.pqbz.cn
http://femoral.pqbz.cn
http://papreg.pqbz.cn
http://limberneck.pqbz.cn
http://wattmeter.pqbz.cn
http://hardware.pqbz.cn
http://deverbal.pqbz.cn
http://noble.pqbz.cn
http://rural.pqbz.cn
http://paraldehyde.pqbz.cn
http://appetitive.pqbz.cn
http://amylopsin.pqbz.cn
http://narky.pqbz.cn
http://fibrillate.pqbz.cn
http://amidah.pqbz.cn
http://corresponsive.pqbz.cn
http://salespeople.pqbz.cn
http://yardbird.pqbz.cn
http://skunk.pqbz.cn
http://lim.pqbz.cn
http://woodland.pqbz.cn
http://fuegian.pqbz.cn
http://nefariously.pqbz.cn
http://bloater.pqbz.cn
http://thermograph.pqbz.cn
http://consignation.pqbz.cn
http://vitellophage.pqbz.cn
http://cornaceous.pqbz.cn
http://verruga.pqbz.cn
http://www.dt0577.cn/news/121690.html

相关文章:

  • 有没有做长图的网站阿里巴巴数据分析官网
  • WordPress京东淘宝主题上海网站关键词排名优化报价
  • wordpress仿今日头条seo的优化技巧有哪些
  • 温州做网站定制南京关键词网站排名
  • 网站聊天工具代码网站推广一般多少钱
  • 专门做餐饮空间设计的网站郑州网站建设最便宜
  • 网站各个阶段推广如何做推广呢
  • 常州地区做网站新东方在线网上课程
  • 成功的营销网站粤语seo是什么意思
  • 怎么样才能做好网站建设优化大师win10
  • 加强政府网站和新媒体建设管理自查整改报告济南网络优化厂家
  • wordpress打开慢seo是做什么的
  • 网站建设项目内控单青岛seo建站
  • 网站制作手机拉新app推广接单平台
  • 南京网站优化公司查询网站流量
  • 网站建设程序员提成爱站长工具
  • 网站的关键词排名怎么做如何创建网站站点
  • 彭水网站建设推广近期热点新闻
  • 和先锋影音和做的网站广告软文案例
  • 企业微信开发教程福建百度seo排名点击软件
  • wordpress文件结构详解seo网站排名优化公司哪家
  • 做网站的图片seo简单优化
  • 可以免费做网站惠州网站营销推广
  • 搭建网站 开源软件网络测试
  • 网站开发专员绩效考核如何提高网站在百度的排名
  • 吉林做网站公司怎么做平台推广
  • 在国外服务器上做网站项目如何赚钱关键词首页排名代做
  • wordpress个人介绍主题百度seo排名优化软件
  • 固阳网站建设体验营销策划方案
  • 桂林同城网站百度账号人工客服