当前位置: 首页 > news >正文

鞍山做网站的公司广告联盟平台自动赚钱

鞍山做网站的公司,广告联盟平台自动赚钱,体育新闻网,wordpress log文件大小Spark与Iceberg集成落地实践(一) 文章目录 Spark与Iceberg集成落地实践(一)清理快照与元数据配置表维度自动清理元数据文件属性手动清理 清理孤岛文件合并数据文件 清理快照与元数据 配置表维度自动清理元数据文件属性 每一次写…

Spark与Iceberg集成落地实践(一)

文章目录

  • Spark与Iceberg集成落地实践(一)
    • 清理快照与元数据
      • 配置表维度自动清理元数据文件属性
      • 手动清理
    • 清理孤岛文件
    • 合并数据文件

清理快照与元数据

配置表维度自动清理元数据文件属性

每一次写入数据和表变更都会进行一次元数据的版本迭代,默认保存所有。

PropertyDescription
write.metadata.delete-after-commit.enabled每次表提交后是否删除旧的跟踪的元数据文件
write.metadata.previous-versions-max要保留的旧元数据文件的数量

SPARK DDL语句

建表时确认metadata生命周期

		sparkSession.sql("CREATE TABLE local.iceberg_db.table2( id bigint, data string, ts timestamp) USING iceberg PARTITIONED BY (day(ts)) TBLPROPERTIES('write.metadata.delete-after-commit.enabled'='true','write.metadata.previous-versions-max'='3')");

更改表的metadata生命周期

        sparkSession.sql("ALTER TABLE local.iceberg_db.table2 SET TBLPROPERTIES(" +"'write.metadata.delete-after-commit.enabled'='true'," +"'write.metadata.previous-versions-max'='3'" +")");

作用

这只会删除元数据日志中跟踪的元数据文件,而不会删除孤立的元数据文件。

清理从metadata.json链路开始的至data的所有文件,如下图:

数据层
元数据层
data file1
data file2
data file3
data file4
v2.metadata.json
Manifest list1
Manifest file1
Manifest file2

手动清理

        org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");long tsToExpire = System.currentTimeMillis() - (1000 * 60 * 60 * 24); // 保留一天org.apache.iceberg.spark.actions.SparkActions.get().expireSnapshots(table).expireOlderThan(tsToExpire).execute();

清理孤岛文件

孤岛文件的产生:

在 Spark 和其他分布式处理引擎中,任务或作业失败可能会留下未被表元数据引用的文件,在某些情况下,正常快照过期可能无法确定文件不再需要并将其删除。任务失败之后,最好进行一次清理表孤岛文件,若表相关任务成功,则不需要进行清理孤岛文件操作。

		org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");org.apache.iceberg.spark.actions.SparkActions.get().deleteOrphanFiles(table).execute();

合并数据文件

目前发现,需要分区类有标记删除的记录才会进行合并,why?

		org.apache.iceberg.Table table = org.apache.iceberg.spark.Spark3Util.loadIcebergTable(spark, "local.iceberg_db.table2");org.apache.iceberg.spark.actions.SparkActions.get().rewriteDataFiles(table).filter(Expressions.equal("ts", "2024-09-29")).option("target-file-size-bytes", Long.toString(500 * 1024 * 1024)) // 目标大小500 MB.execute();
http://www.dt0577.cn/news/22361.html

相关文章:

  • 怎么做网站竞价百度浏览器网页版入口
  • 软件界面设计教程企业站seo案例分析
  • linux做网站武汉seo优化公司
  • 巨野做网站的北京seo工程师
  • 湖南营销网站建设简述在线推广网站的方法
  • 如何做网站弹窗网络营销案例视频
  • 重庆市建设工程信息网怎么查优化seo哪家好
  • flash翻页效果网站模板保定seo网络推广
  • 自己怎么做商城网站吗长春网站建设方案优化
  • 免费看电视剧网站2020上海网站推广排名公司
  • 网站推广排名优化多少钱河北网站推广
  • 网站建设项目需求概要说明书市场营销推广方案怎么做
  • 币客bkex是一群外行人做的网站百度账号一键登录
  • vs加数据库做网站友情链接查询友情链接检测
  • 今日最新疫情最新数据兰州网络推广优化服务
  • 做俄语网站建设百度爱采购优化
  • 无人在线观看高清完整视频seo网站诊断报告
  • 淘宝店可以做团购的网站优化搜索引擎营销
  • 做网站抽奖系统湘潭seo快速排名
  • 可信网站认证 服务中心一个关键词要刷多久
  • 西安企业网站建设哪家好郑州全域静态管理
  • 重庆 网站 建设 公司集客营销软件
  • 帮赌博网站做推广被抓会判刑吗怎么看app的下载网址
  • 电脑网站建设产品线下推广方式都有哪些
  • 网站是否上线360建站和凡科哪个好
  • 重庆市建设工程信息网官网造价晋中网站seo
  • 南昌网上服务上海网站快速优化排名
  • 鲜花网站怎么做网址查询站长工具
  • 网站上线之前怎么做推广域名注册服务网站
  • 网站开发自我介绍代码徐州seo企业