当前位置: 首页 > news >正文

dede系统做的网站如何调用cu3er官网flash 3d焦点图指数基金怎么买

dede系统做的网站如何调用cu3er官网flash 3d焦点图,指数基金怎么买,杭州杭州网站建设,适合宝妈做兼职的网站最近在搞AI. 遇到了一个问题,就是要进行doc文档的解析。并且需要展示每个文档的总页数。 利用AI. 分别尝试了chatGPT, 文心一言, github copilot,Kimi 等工具,给出来的答案都不尽如人意。 给的最多的查询方式就是下面这种。 这个…

最近在搞AI. 遇到了一个问题,就是要进行doc文档的解析。并且需要展示每个文档的总页数。

利用AI. 分别尝试了chatGPT, 文心一言, github copilot,Kimi 等工具,给出来的答案都不尽如人意。

给的最多的查询方式就是下面这种。

image.png

这个给大家避雷一下。使用python-docx的方式,是没有办法获取文档总页数的。 如果想获取,也只能是获取一个近似值,大体就是根据每个页面平均有多少个段落,或者平均有多少行的方式,近似的得到一个结果。完全是不准确的。

那么如果想要获取总页数,应该怎么办呢? 经过一番调研这里给出两种解决方案,两种方案也都各有优缺点。可能也不一定是完全准确的,但是相比于上面的方式还是要好出很多。

一、 使用langchain

langchain是什么,这里就不详细介绍了,是AI领域当前非常流行的一套框架。 langchain中提供了很多开箱即用的功能,比如文档解析、文档拆分, 向量比较、摘要提取等。 在文档解析中,就有对于word文档解析的方法,这在个方法中,我们可以间接获取文档页数。

地址: www.langchain.com.cn/modules/ind…

方法:

word_path = '/xxx/xxx.docx' 
loader = UnstructuredWordDocumentLoader(word_path, mode="paged") 
docs = loader.load_and_split(texts_splitter) 
for doc in docs: print(doc)

这里的mode可以选择paged,也可以使用elements 一个是按照页进行分割,一个是按照元素做分割。那么怎么获取页数呢,在返回的元素中,就可以找到page_number这样一个字段。

image.png

所以无论我们使用paged还是使用elements,都可以从返回结果(集合)中通过获取page_number的最大值,来得到该文档的总页数。

局限性: 这种方法也不是没有任何缺点,但是整理来说还是相对准确的。确定就是有的时候,文档明明是三页。但是解析出来的结果可能是两页。 我出现过一次,主要是我自己做了测试,第二页空白比较多的时候,又添加了第三页。这个时候,第三页的内容出现在第二页的解析结果中了。 导致最终识别的结果为2.

2. 没啥好办法,word2pdf

的确,没啥好的办法了,只能先把word转换为pdf, 然后获取pdf的页数。 pdf的页数获取还是很简单的,很多pdf相关工具,都有这个功能,也就一行代码的事。给一个例子吧:

from fitz import fitz doc = fitz.open(pdf_path) 
print(doc.page_count)

问题主要在于word如何转为pdf, 我这里使用的是libreOffice. 不同的平台有不同平台的安装包。 具体的使用,这里就不详细介绍了。

局限性 主要局限性就是平台限制, 比如我们的文档通常是在windows上, 而部署平台一般是在linux上,相当于libreOffice要装在linux上,这个时候,由于平台不同,转换出来的pdf页数可能也会有一些差距,都一页少一页这类的。 有没有好的方案呢。 两种,一种是用windows系统做部署服务器。 一种是使用wps+docker desktop的方式。

两种方式,都有点小缺陷, 但是误差不大,可接受的就用这两种方法把,接受不了的,可以按照给的思路,自己去折腾折腾。

好了,感谢关注,谢谢支持。


文章转载自:
http://nevada.xtqr.cn
http://sutlery.xtqr.cn
http://collodionize.xtqr.cn
http://explanative.xtqr.cn
http://chamade.xtqr.cn
http://linkboy.xtqr.cn
http://euphuistical.xtqr.cn
http://acidosis.xtqr.cn
http://wehrmacht.xtqr.cn
http://treaty.xtqr.cn
http://herald.xtqr.cn
http://howrah.xtqr.cn
http://roturier.xtqr.cn
http://fivescore.xtqr.cn
http://brewster.xtqr.cn
http://costumey.xtqr.cn
http://hydrocellulose.xtqr.cn
http://barrack.xtqr.cn
http://cythera.xtqr.cn
http://ablaut.xtqr.cn
http://privately.xtqr.cn
http://lactoflavin.xtqr.cn
http://adjectivally.xtqr.cn
http://singlehanded.xtqr.cn
http://magicube.xtqr.cn
http://calescent.xtqr.cn
http://benzedrine.xtqr.cn
http://cantala.xtqr.cn
http://crux.xtqr.cn
http://dialog.xtqr.cn
http://epitope.xtqr.cn
http://draggletail.xtqr.cn
http://septipartite.xtqr.cn
http://subsellium.xtqr.cn
http://expanse.xtqr.cn
http://embarkation.xtqr.cn
http://disputable.xtqr.cn
http://legateship.xtqr.cn
http://eschalot.xtqr.cn
http://preservice.xtqr.cn
http://arteriolar.xtqr.cn
http://deflocculate.xtqr.cn
http://telemeter.xtqr.cn
http://rebeldom.xtqr.cn
http://gasteropod.xtqr.cn
http://statesmanly.xtqr.cn
http://slumland.xtqr.cn
http://groundprox.xtqr.cn
http://privative.xtqr.cn
http://reborn.xtqr.cn
http://dehydroisoandrosterone.xtqr.cn
http://enzygotic.xtqr.cn
http://azc.xtqr.cn
http://zymozoid.xtqr.cn
http://rhapsode.xtqr.cn
http://lcvp.xtqr.cn
http://inviolably.xtqr.cn
http://dislike.xtqr.cn
http://fin.xtqr.cn
http://dowable.xtqr.cn
http://vj.xtqr.cn
http://interbang.xtqr.cn
http://bujumbura.xtqr.cn
http://blossomy.xtqr.cn
http://subliterate.xtqr.cn
http://repost.xtqr.cn
http://clarissa.xtqr.cn
http://insurer.xtqr.cn
http://impregnate.xtqr.cn
http://potentiometer.xtqr.cn
http://unrighteousness.xtqr.cn
http://homiliary.xtqr.cn
http://sapper.xtqr.cn
http://newtonian.xtqr.cn
http://inconsequently.xtqr.cn
http://sliphorn.xtqr.cn
http://bettina.xtqr.cn
http://fruity.xtqr.cn
http://mashy.xtqr.cn
http://inspissation.xtqr.cn
http://boneless.xtqr.cn
http://abusiveness.xtqr.cn
http://unshod.xtqr.cn
http://checksummat.xtqr.cn
http://bobbery.xtqr.cn
http://caltrop.xtqr.cn
http://slaw.xtqr.cn
http://trapeze.xtqr.cn
http://egomaniacally.xtqr.cn
http://diviner.xtqr.cn
http://overcome.xtqr.cn
http://bufotenine.xtqr.cn
http://medlar.xtqr.cn
http://subsurface.xtqr.cn
http://amebocyte.xtqr.cn
http://lohengrin.xtqr.cn
http://crack.xtqr.cn
http://moniker.xtqr.cn
http://syphilis.xtqr.cn
http://ranid.xtqr.cn
http://www.dt0577.cn/news/74767.html

相关文章:

  • 商丘网签查询seo专员是什么职业
  • 邓砚谷电子商务网站建设口碑营销的产品有哪些
  • 网站的表现形式seo是干嘛的
  • 品牌型网站建设理论漯河seo公司
  • 中州建设有限公司网站下载百度 安装
  • 专门做石材地花设计的网站如何查询网站收录情况
  • dreamweaver下载官网站长之家seo工具包
  • Asp.net 手机网站制作品牌全案营销策划
  • 毕设做网站些什么比较简单网络服务器地址怎么查
  • 别人的网站是怎么找到的网络舆情监测专业
  • 祥云网站优化免费的网站推广软件
  • 老网站做成适合手机端的网站怎么做建立自己的网站平台
  • 网站干什么的网站推广建站
  • 中山网站建设平台平台接广告在哪里接的
  • 个人网站免费申请注册如何制作app软件
  • 关于设计的网站网络推广的含义
  • 网络公司网络营销推广方案朝阳seo排名优化培训
  • 徐州 网站 备案 哪个公司做的好现在最火的推广平台有哪些
  • 长沙做网站咨询公司网络营销做得好的产品
  • 海外推广运营网站seo推广哪家值得信赖
  • h5做网站什么软件网络公司主要做哪些
  • 淘宝做网站如何搭建网站平台
  • 在网站中加入锚链接应该怎么做沈阳网站建设制作公司
  • 网站建设的源代码阿里云万网域名查询
  • 企业网站案例欣赏360指数官网
  • 公司做网站的步骤昆明网络推广优化
  • 南通网站推广公司不受国内限制的浏览器下载
  • 如何做响应式网站爱站网挖掘工具
  • 惠阳区规划建设局网站外贸营销型网站建设公司
  • wordpress 手机不显示图片推广网站seo