当前位置: 首页 > news >正文

长治网站制作的流程山东潍坊疫情最新消息

长治网站制作的流程,山东潍坊疫情最新消息,做网站的版式会侵权吗,网站建设服务商的网站建设流程(注:本文为小报童精选文章,已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费) 想采集网页数据却不会写 Python 爬虫?不会就不会吧,ChatGPT 会就可以了 😂 问题描述 朋友最近遇到了一点儿…

(注:本文为小报童精选文章,已订阅小报童或加入知识星球「玉树芝兰」用户请勿重复付费

想采集网页数据却不会写 Python 爬虫?不会就不会吧,ChatGPT 会就可以了 😂

0e84b9e77fa812b08e2ab1e2dbc93b87.jpeg

问题描述

朋友最近遇到了一点儿技术障碍,找我帮忙。起因是他想获取一个网站上面的信息。

一般网站的信息,获取起来并不麻烦。怕就怕这种网站 —— 活动通知。

27503cf2d5f659e68a7d90d380567530.jpeg

要知道,过期的活动,是没有什么「通知」的意义的。所以网站对于过期活动的态度比较明确 —— 直接删掉。所以主页面的内容,是每天甚至每个小时都会改变的。

刚才的图片,是今天早上网站的内容,而下面这个是前几天他保存的页面存档内容。

ef5b9d7d71b19f785992e3f1c9d84bd3.jpeg

他发现不仅主页上面活动列表里过期活动信息找不到了,就连存档里过期活动的链接也全都点不开了。

痛定思痛,他决心干脆每天把当日的活动信息都弄下来。可是他又不懂 Python 爬虫技术。每天分别手动摘取活动的名称、日期、时间、地点、URL,以及还得打开对应 URL ,拷贝其中的活动描述正文内容,实在是太麻烦了。

一天两天还好说,如果要坚持一年,那可就是愚公移山的精神了……

所以,他找我求助。

这种事儿吧,「会者不难难者不会」。我虽然曾经写过简单的爬虫教程,但是也已经很久没有摸索了。现在不仅手生,也没有时间去对要提取的各项信息一一定位、抽取,觉得太过繁琐。

好在,咱们不是有 ChatGPT 吗?

本文我就给你演示一下,如何用 ChatGPT 来帮助咱们从网页上把想要的信息抽取出来。

脾性

ChatGPT 的每一个模式,都有自己的「脾性」。其中 Advanced Data Analysis 的脾性,重要的是以下两点:

  • 无法联网。所以你不要指望它能够获得最新的 API ,也不要希望它能够帮你下载任何东西。这里「任何东西」当然包括网页,也包括 ChatGPT 的 Advanced Data Analysis 模式虚拟机中未安装的软件包。很多读者反馈给我,说是 scikit-learn 机器学习框架在 Advanced Data Analysis 里面能用,但是 Tensorflow 不能用,也装不上。就是这个原因;

  • 能上传数据。你可以把数据直接喂给它。这样它在进行分析的时候,可以有非常强烈的上下文。

这里我们着重说说第二点。假设我们让 ChatGPT 「去,帮我把一个网页中的日期、时间、地点、活动名称、URL 爬取下来」,它因为啥都看不到,多半会根据经验,给你胡写一个根本不能用的结果。而对于一个输入数据文件作为样例,情况就会好很多。

只不过,网页里面一般也有很多内容。与其让 ChatGPT 帮你在文件里面瞎猜乱试,然后需要你参与进来不断纠错,还不如一上来你就把真正需要查找的内容以样例方式精确清楚传递给ChatGPT。而且是越清楚越好

下面,我就来给你演示,怎么把内容样例的精确定位获取到,并且传递给 Advanced Data Analysis 。

你看,这是我下载的活动日程通知主页面的例子。

3ef2027137328736927168b2fa230f58.jpeg

你可以在浏览器里面 Inspect (检视)页面的源码。

40f78270b2a9c8dbd1a2c9cbfef318d2.jpeg

这里,你可以通过区域选择按钮,让浏览器帮忙定位到选定区域对应的源代码位置。

b36ada5d35762266b661f0db2f0f33a5.jpeg

操作效果就像这样:

9138f6591d5ffc69a60a289f2ca4d5f0.gif

然后,你就可以用这种方式,拷贝具体文本段落的 xpath 。

我分别拷贝了某个活动对应的时间、地点、URL 等信息。然后连同这个 HTML 文件,一股脑扔给了 Advanced Data Analysis。

http://www.dt0577.cn/news/21783.html

相关文章:

  • 好用的cms网站广告优化
  • 柚段子wordpresswin7优化大师免安装版
  • vs设置网站开发环境广西seo优化
  • 法院举报网站建设的要求百度下载app下载安装到手机
  • 网站解决访问量超载做网站推广公司
  • 手机做网站用什么软件日本域名注册网站
  • 学软件工程专业后悔了seo排名优化推广
  • 请人开发一个小程序要多少钱seo主要做哪些工作
  • 哈尔滨公共资源交易网建设工程烟台seo快速排名
  • 北京新闻网站百度指数指的是什么
  • 大型网站建设设备seo权重优化软件
  • 网站运营课程网络软营销
  • 千图网免费素材图库ppt排名优化
  • 科技公司网站设百度小说排行榜完本
  • 做网站为什么能赚钱吗许昌seo推广
  • 汉中免费做网站公司设计本网站
  • wordpress 附件占用id优化方案电子版
  • 长春招聘网官网app优化排名
  • wordpress时间几天前攀枝花seo
  • 我想花钱做网站百度seo算法
  • 玉林住房和城乡规划建设委员会网站免费推广网站大全
  • 大良营销网站建设流程免费加客源
  • cdn网络对网站开发有影响吗企业官方网站有哪些
  • 网站做1920px好吗网站seo方案
  • 淘宝客服推销做网站的技巧百度站长之家工具
  • 网站ftp管理工具关键词挖掘爱站网
  • 河北网络建站谷歌sem推广
  • 外贸流程全步骤流程图seo学习论坛
  • 制作免费个人网页漯河搜狗关键词优化排名软件
  • 手机怎么建网站2345网止导航