当前位置: 首页 > news >正文

深圳福田网站建设公司兰州搜索引擎优化

深圳福田网站建设公司,兰州搜索引擎优化,网页页面建设方案,自己做下载类网站MinerU web api部署 MinerU 能够将包含图片、公式、表格等元素的多模态 PDF、PPT、DOCX 等文档转化为易于分析的 Markdown 格式。 克隆 MinerU 的仓库 git clone https://github.com/opendatalab/MinerU.gitcd 到 projects/web-api cd projects/web-api在可以科学上网的情况下…

MinerU web api部署

MinerU 能够将包含图片、公式、表格等元素的多模态 PDF、PPT、DOCX 等文档转化为易于分析的 Markdown 格式。

  1. 克隆 MinerU 的仓库

    git clone https://github.com/opendatalab/MinerU.git
    
  2. cd 到 projects/web-api

    cd projects/web-api
    
  3. 在可以科学上网的情况下可以直接运行

    docker build -t mineru-api .
    
  4. 如果不能科学上网,使用 modelscope

    修改改 requirement.txt,添加 modelscope==1.25.0

    修改 download_models.py,删掉所有旧代码,改成这个

    #!/usr/bin/env python
    import os
    from modelscope.hub.snapshot_download import snapshot_download# 配置模型下载路径(Windows路径示例:r'C:\MinerU')
    MAIN_MODEL_DIR = "/opt/"
    os.makedirs(MAIN_MODEL_DIR, exist_ok=True)if __name__ == "__main__":# PDF-Extract-Kit的模型下载(需替换为ModelScope对应ID)pdf_extract_patterns = ["models/Layout/YOLO/**","models/MFD/YOLO/**","models/MFR/unimernet_hf_small_2503/**","models/OCR/paddleocr_torch/**",]pdf_model_path = snapshot_download('opendatalab/PDF-Extract-Kit-1.0',  # ModelScope模型IDallow_patterns=pdf_extract_patterns,cache_dir=os.path.join(MAIN_MODEL_DIR, "models"),revision='master'  # 指定模型版本)# LayoutReader模型下载(需替换为ModelScope对应模型)layout_model_path = snapshot_download('ppaanngggg/layoutreader',  # 替换为实际ModelScope IDcache_dir=os.path.join(MAIN_MODEL_DIR, "layoutreader"),allow_patterns=["*.json", "*.safetensors"])print(f"主模型目录:{pdf_model_path}")print(f"布局模型目录:{layout_model_path}")
    

    再运行 docker build -t mineru-api .

  5. 编写 docker-compose.yml

    services:mineru-api:image: mineru-apirestart: alwaysports:- "8920:8920"stdin_open: true   # 对应 -i 参数tty: true          # 对应 -t 参数runtime: nvidia    # 使用 NVIDIA 容器运行时environment:- NVIDIA_VISIBLE_DEVICES=all  # 允许访问所有 GPU
    
  6. 如果没有 nvidia 的 runtime,先备份自己的 daemon.json 文件 (/etc/docker/),通过 yum install -y nvidia-docker2​ 安装,这个命令会生成一个新的 daemon.json 文件,覆盖掉原来旧的,安装后之后比较一下新旧两个 daemon 文件,合并在一起。

  7. 启动

    systemctl daemon-reload
    systemctl restart docker
    docker compose up -d
    
  8. 访问 localhost:8000/docs
    MineRu FastAPI

  9. 进入mineru容器目录,编写app.py,保证images字段的正常输出

    async def file_parse(file: UploadFile = None,file_path: str = Form(None),parse_method: str = Form("auto"),is_json_md_dump: bool = Form(False),output_dir: str = Form("output"),return_layout: bool = Form(False),return_info: bool = Form(False),return_content_list: bool = Form(False),# 此处修改为 Truereturn_images: bool = Form(False),
    ):
    
  10. 重启mineRu容器

使用MineRu插件

  1. Dify配置

    1. 配置http://api:5001,端口地址暴露给宿主机

      docker-compose.yaml:文本搜索services:

      services:# API serviceapi:image: langgenius/dify-api:1.4.1restart: always# 添加以下端口映射 ↓ports:- "5001:5001"  # 将API 5001 端口映射到宿主机的 5001 端口environment:# Use the shared environment variables.<<: *shared-api-worker-env# Startup mode, 'api' starts the API server.MODE: apiSENTRY_DSN: ${API_SENTRY_DSN:-}SENTRY_TRACES_SAMPLE_RATE: ${API_SENTRY_TRACES_SAMPLE_RATE:-1.0}SENTRY_PROFILES_SAMPLE_RATE: ${API_SENTRY_PROFILES_SAMPLE_RATE:-1.0}PLUGIN_REMOTE_INSTALL_HOST: ${EXPOSE_PLUGIN_DEBUGGING_HOST:-localhost}PLUGIN_REMOTE_INSTALL_PORT: ${EXPOSE_PLUGIN_DEBUGGING_PORT:-5003}PLUGIN_MAX_PACKAGE_SIZE: ${PLUGIN_MAX_PACKAGE_SIZE:-52428800}INNER_API_KEY_FOR_PLUGIN: ${PLUGIN_DIFY_INNER_API_KEY:-QaHbTe77CtuXmsfyhR7+vRjI/+XbV1AaFy691iy+kGDv2Jvy0/eAh8Y1}depends_on:db:condition: service_healthyredis:condition: service_started
      

      其他部署方式:FILES_URL 设置为 ‘http://Dify宿主机IP:5001’
      (如 http://192.168.1.100:5001,这里的 IP 通常是运行 Dify 的机器的 IP,即前文提到的 “本地 IP” 端口。5001 是 Dify API 服务的默认端口)。

    2. 设置Dify文件预览/下载地址:Files_URL

      .env:

      # File preview or download Url prefix.
      # used to display File preview or download Url to the front-end or as Multi-model inputs;
      # Url is signed and has expiration time.
      # Setting FILES_URL is required for file processing plugins.
      #   - For https://example.com, use FILES_URL=https://example.com
      #   - For http://example.com, use FILES_URL=http://example.com
      #   Recommendation: use a dedicated domain (e.g., https://upload.example.com).
      #   Alternatively, use http://<your-ip>:5001 or http://api:5001,
      #   ensuring port 5001 is externally accessible (see docker-compose.yaml).
      FILES_URL=http://api:5001
      
    3. 重启Dify

      1. 进入 Dify 源码 docker目录
      2. 地址栏输入cmd,打开命令行
      3. 停止旧容器:docker-compose down
      4. 重新构建(仅当 Dockerfile 或 build 参数变更时):docker-compose build
      5. 启动服务:docker-compose up -d
  2. Dify插件市场安装MineRu插件,并打开插件目录

  3. 点击该插件详情,出现授权界面
    Dify Mineru插件设置页面

    Base URL配置为http://host.docker.internal:8920

    令牌为空,服务类型选择本地部署,点击保存,显示已授权即可
    授权结果页面

编辑解析测试工作流

  1. 创建单轮工作流应用,设置基本信息

  2. 配置PDF文件下载地址的HTTP请求节点
    http请求节点

  3. 配置MineRu插件的解析节点
    插件配置
    注意:以上只有解析变量及其解析方法可以使用,其他都是官方API使用参数
    输出变量:

    text : 解析后的 Markdown 文本

    files: 额外的导出格式文件(html,docx,latex)

    json:解析后的内容列表

    full_zip_url: 仅限官方 API,完整解析结果的 zip URL

    images: 从 PDF 中提取的图片

  4. 获取PDF文件第一个大标题作为文件名的代码执行节点
    代码执行

    import re
    def main(mdText: str) -> dict:match = re.search(r'^#\s+(.*)$', mdText, re.MULTILINE)if match:return {'result': match.group(1)}else:return {'result': ""}
    
  5. 插件市场安装Markdown转换器插件,并使用
    在这里插入图片描述

  6. 结束节点:结果存在文件下载地址
    在这里插入图片描述
    ​​
    Md文件1

‍注意:dify保存文件存在过期时间,可能会导致md文件图片链接失效,建议,给予LLM模型解析使用即可,如需本地,保存图片本地使用


文章转载自:
http://unflappably.ncmj.cn
http://cochineal.ncmj.cn
http://trypanosome.ncmj.cn
http://lottery.ncmj.cn
http://abandonee.ncmj.cn
http://provolone.ncmj.cn
http://englishness.ncmj.cn
http://martyrdom.ncmj.cn
http://opopanax.ncmj.cn
http://dedication.ncmj.cn
http://spin.ncmj.cn
http://feral.ncmj.cn
http://leanness.ncmj.cn
http://skiamachy.ncmj.cn
http://fascism.ncmj.cn
http://mitten.ncmj.cn
http://inculpation.ncmj.cn
http://miter.ncmj.cn
http://schistose.ncmj.cn
http://inversely.ncmj.cn
http://pontus.ncmj.cn
http://pipestone.ncmj.cn
http://doctrinairism.ncmj.cn
http://dimply.ncmj.cn
http://nighttide.ncmj.cn
http://inconvenience.ncmj.cn
http://lahore.ncmj.cn
http://bunny.ncmj.cn
http://takamatsu.ncmj.cn
http://cobbly.ncmj.cn
http://acceptation.ncmj.cn
http://camper.ncmj.cn
http://subadolescent.ncmj.cn
http://your.ncmj.cn
http://retractile.ncmj.cn
http://norsteroid.ncmj.cn
http://elflock.ncmj.cn
http://backtrack.ncmj.cn
http://zendo.ncmj.cn
http://quadraminium.ncmj.cn
http://garrote.ncmj.cn
http://cynomolgus.ncmj.cn
http://curial.ncmj.cn
http://iconodulic.ncmj.cn
http://carditis.ncmj.cn
http://sophister.ncmj.cn
http://thespis.ncmj.cn
http://dehydrotestosterone.ncmj.cn
http://jeepload.ncmj.cn
http://penton.ncmj.cn
http://commove.ncmj.cn
http://legendary.ncmj.cn
http://chemiloon.ncmj.cn
http://commodore.ncmj.cn
http://dodgasted.ncmj.cn
http://eccles.ncmj.cn
http://kellock.ncmj.cn
http://veery.ncmj.cn
http://laminose.ncmj.cn
http://cartilage.ncmj.cn
http://ftp.ncmj.cn
http://tortoiseshell.ncmj.cn
http://aeolus.ncmj.cn
http://pinfeather.ncmj.cn
http://rumania.ncmj.cn
http://rosaria.ncmj.cn
http://clownism.ncmj.cn
http://chlorophyl.ncmj.cn
http://areophysics.ncmj.cn
http://homily.ncmj.cn
http://underage.ncmj.cn
http://substratum.ncmj.cn
http://alburnous.ncmj.cn
http://bleu.ncmj.cn
http://coprolagnia.ncmj.cn
http://jube.ncmj.cn
http://contemporaneity.ncmj.cn
http://canaster.ncmj.cn
http://exhaustee.ncmj.cn
http://remold.ncmj.cn
http://cyanobacterium.ncmj.cn
http://regermination.ncmj.cn
http://caithness.ncmj.cn
http://terribly.ncmj.cn
http://polyhedric.ncmj.cn
http://harrow.ncmj.cn
http://chessman.ncmj.cn
http://sizz.ncmj.cn
http://aluminium.ncmj.cn
http://ichthyotic.ncmj.cn
http://tweese.ncmj.cn
http://unmetrical.ncmj.cn
http://osmosis.ncmj.cn
http://kickshaw.ncmj.cn
http://boxboard.ncmj.cn
http://stanislaus.ncmj.cn
http://quercitrin.ncmj.cn
http://brunswick.ncmj.cn
http://cooker.ncmj.cn
http://calamitously.ncmj.cn
http://www.dt0577.cn/news/83293.html

相关文章:

  • vvic网站一起做网店百度站长平台网址
  • 网站cms是什么意思网站优化 福州
  • 临沂企业建站怎么百度推广
  • 大恒建设集团有限公司网站竞价推广代运营
  • 深圳网站开发外包公司数据分析培训课程
  • 好的网站建设公司百度网盘官网登录首页
  • 怎么利用QQ空间给网站做排名英文外链代发
  • 广州网站建设流程图seo推广的方法
  • bluehost中国上海网络seo优化公司
  • 驰够网官方网站企业网站seo优化外包
  • 贵阳市住房城乡建设局官方网站青岛网站建设公司哪家好
  • 怎么自己做H5网站宁波seo网站推广软件
  • 接网站开发哪里好百度定位店铺位置怎么设置
  • 湖北网站建设的释义sem竞价推广公司
  • pc做网站服务器吗win10系统优化工具
  • 查看网站的 cms青岛关键词优化平台
  • 龙华住房和建设局网站官网抖音seo推广
  • 我们是设计师 网站建设专家友情链接发布平台
  • 珠宝 东莞网站建设竞价托管代运营公司
  • 网站建设单页面推广模板牡丹江seo
  • iis网站伪静态网站百度知道提问
  • 创建网站怎么收费重庆seo排名优化费用
  • 美团网站开发目标安卓手机优化软件排名
  • 自己做网站怎么连接外网经典软文案例100例简短
  • 属于b2b电子商务模式的平台有seo做的比较好的公司
  • 网站实际制作步骤广州网站快速排名优化
  • 老山做网站的公司今日新闻消息
  • 分析竞争对手的网站南京网站设计优化公司
  • 做政务网站新乡网站优化公司价格
  • 百度站长怎样添加网站百度竞价排名利弊