当前位置: 首页 > news >正文

用python做的网站多吗重庆网站

用python做的网站多吗,重庆网站,深圳企业高端网站建设,wordpress主题微博我们以百度贴吧的1吧举例 目录 1 把网页搞下来 2 收集url 3 处理url 4 空的src 5 容错 6 不使用数字作为文件名 7 并不是所有的图片都用img标签表示 8 img标签中src请求下来不一定正确 9 分页 1 把网页搞下来 搞下来之后,双击打开是这样的 2 收…

我们以百度贴吧的1吧举例

目录

1  把网页搞下来

2  收集url

3  处理url

4  空的src

5  容错

6  不使用数字作为文件名

7  并不是所有的图片都用img标签表示

8  img标签中src请求下来不一定正确

9  分页


 

1  把网页搞下来

搞下来之后,双击打开是这样的

2  收集url

我们实际拿的就是 img标签中src的内容,比如这个

我们通过正则获取一下

我们得到了这些结果

3  处理url

我们发现上面好多url都没有协议,那么我们需要给协议加上,然后发起请求,保存。我们用数字作为保存图像的名称

运行后发现报错了

4  空的src

错误的原因是我们获取的结果,第三条是空的

这种就是前端用来占位的,我们在保存的html中可以看到确实是没东西

这时候如果不确定的话,可以用浏览器访问,然后搜一下,发现在浏览器中它也是空的

5  容错

除了空的src,之后还可能会有很多问题,比起通过if来判断是否为空,在调试阶段中,我更倾向用try还except来捕获错误

这一次我们保存了很多的图片

但我们发现重复的图像太多了

6  不使用数字作为文件名

现在有很多方法来进行数据去重,比如使用hash库,我们这里使用文件名的方式去重,如果html中引入的文件相同,那他们的文件名也应该相同

我们发现有两种格式的url,一种是红色箭头的url以文件格式结尾,另一种是不以文件格式做结尾。但他们都有一个共同点,文件名都在最后一个斜杠的后面

那么我们可以这样写

  • 这样写有个缺点,对于查询字符串的url直接给了数字与png做名字

至此img的src内容已经全搞下来了

7  并不是所有的图片都用img标签表示

比如这张图

还有这张图

8  img标签中src请求下来不一定正确

比如这里,我保存的网页是这样的

但实际是这样的

我们这个时候就要关注img标签的其他属性,比如这里的 data-original与bpic,用浏览器访问data-original的地址,会得到缩略图

用浏览器访问bpic的地址会得到这张大图

9  分页

像这种分页一般由于url挂钩,第一页pn是0

第二页pn是50

之后的pn就会是100,150,200这种,我们可以利用这个特性爬取多页

发现可以成功爬取一些图片

http://www.dt0577.cn/news/55363.html

相关文章:

  • 做网站行业的动态seo的主要内容
  • 网站菜单分类怎么做宁德市疫情
  • 简单的网页案例seo就业指导
  • 公司有多少做网站互联网营销方式有哪些
  • 建一个网站大概多少钱seo公司赚钱吗
  • 网站建设客户需求分析调研表如何弄一个自己的网站
  • web是做网站的吗免费网站开发平台
  • 网站建设的流程电子商务拉新项目官方一手平台
  • 营销网站开发规划搜索引擎营销的特征
  • 网站建设与web前端区别网址链接查询
  • 免费微网站与公众号平台对接免费写文章的软件
  • 做的网站在ie会乱码百度竞价入门教程
  • 游戏官网做的好的网站网络营销制度课完整版
  • 做视频网站多大服务器搜索引擎优化文献
  • 怎样做彩票网站seo公司怎么样
  • 株洲做网站优化口碑营销方案
  • 网站编辑怎么做二级域名网站查询入口
  • 如何用asp.net做网站石家庄网站建设seo
  • 京山网站开发深圳营销型网站
  • 科技医疗网站建设昆明seo
  • 上海专业网站建设多少钱seo在线培训课程
  • 西安手机网站开发开发做一个网站需要多少钱
  • 兰州有做百度网站的吗无经验能做sem专员
  • 网站 页面 结构济南网站seo优化
  • 制作软件的工作叫什么北京搜索关键词优化
  • 外贸建立网站怎么做企业文化培训
  • 网站制作百度网盘企业管理培训
  • 平面设计师兼职网站青岛网站seo优化
  • 上海市网站制作海外推广是做什么的
  • 网站优化外包顾问seo推广代运营