当前位置: 首页 > news >正文

温州市城建设计院网站江苏网页定制

温州市城建设计院网站,江苏网页定制,页面设计ui,营销型网站设计文章这里写目录标题 Scrapy基础Scrapy运行流程原理Scrapy的工作流程Scrapy的优点 Scrapy基本使用(豆瓣网为例)创建项目创建爬虫配置爬虫运行爬虫如何用python执行cmd命令数据解析打包数据打开管道pipeline使用注意点 后记 前言: 🏘️🏘️个人简介…

这里写目录标题

  • Scrapy基础
  • Scrapy运行流程原理
    • Scrapy的工作流程
    • Scrapy的优点
  • Scrapy基本使用(豆瓣网为例)
      • 创建项目
      • 创建爬虫
      • 配置爬虫
      • 运行爬虫
      • 如何用python执行cmd命令
      • 数据解析
      • 打包数据
      • 打开管道
        • pipeline使用注意点
  • 后记

前言
🏘️🏘️个人简介:以山河作礼。
🎖️🎖️:Python领域新星创作者,CSDN实力新星认证
📝​📝第一篇文章《1.认识网络爬虫》获得全站热榜第一,python领域热榜第一
🧾 🧾第四篇文章《4.网络爬虫—Post请求(实战演示)》全站热榜第八
🧾 🧾第八篇文章《8.网络爬虫—正则表达式RE实战》全站热榜第十二
🧾 🧾第十篇文章《10.网络爬虫—MongoDB详讲与实战》全站热榜第八,领域热榜第二
🧾 🧾第十三篇文章《13.网络爬虫—多进程详讲(实战演示)》全站热榜第十二
🧾 🧾第十四篇文章《14.网络爬虫—selenium详讲》测试领域热榜第二十
🧾 🧾第十六篇文章《网络爬虫—字体反爬(实战演示)》全站热榜第二十五
🎁🎁《Python网络爬虫》专栏累计发表十六篇文章,上榜七篇。欢迎免费订阅!欢迎大家一起学习,一起成长!!
💕💕悲索之人烈焰加身,堕落者不可饶恕。永恒燃烧的羽翼,带我脱离凡间的沉沦。


Scrapy基础

🧾 🧾Scrapy是一个用于爬取网站数据和提取结构化数据的Python应用程序框架。Scrapy的设计是用于Web爬虫,也可以用于提取数据和自动化测试。

Scrapy提供了一个内置的HTTP请求处理器,可以通过编写自定义的中间件来扩展其功能。Scrapy使用Twisted事件驱动框架,可以同时处理数千个并发请求。

🧾 Scrapy的主要组件包括:

  1. ScrapyEngine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。
  2. Scheduler(调度器):它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。
  3. Downloader(下载器):负责下载Scrapy Engine(引擎)发送的所有Requests请求,并将其获取到Responses交还给ScrapyEngine(引擎),由引擎交给Spider来处理。
  4. Spider(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)。
  5. Item Pipeline(管道):它负责处理Spider中获取到的Item,并进行进行后期处理(详细分析、过滤、存储等)的地方。
  6. Downloader Middlewares(下载中间件):一个可以自定义扩展下载功能的组件。
  7. Spider Middlewares(Spider中间件):一个可以自定扩展和操作引擎和Spider中间通信的功能组件。

Scrapy运行流程原理

在这里插入图片描述

Scrapy的工作流程

1.引擎从爬虫的起始URL开始,发送请求至调度器。

2.调度器将请求放入队列中,并等待下载器处理。

3.下载器将请求发送给网站服务器,并下载网页内容。

4.下载器将下载的网页内容返回给引擎。

5.引擎将下载的网页内容发送给爬虫进行解析。

6.爬虫解析网页内容,并提取需要的数据。

7.管道将爬虫提取的数据进行处理,并保存到本地文件或数据库中。

Scrapy的优点

1.高效Scrapy使用Twisted事件驱动框架,可以同时处理数千个并发请求

2.可扩展Scrapy提供了丰富的扩展接口,可以通过编写自定义的中间件来扩展其功能

3.灵活Scrapy支持多种数据格式的爬取和处理,包括HTML、XML、JSON等

4.易于使用Scrapy提供了丰富的文档和示例,可以快速入门

Scrapy基本使用(豆瓣网为例)

🧾 安装scrapy模块:

pip install Scrapy  

在这里插入图片描述

创建项目

🧾 🧾选择需要创建项目的位置
🎯进入cmd命令窗口(win+r),或者pycharm中打开终端也可以
第一种方式
在这里插入图片描述
第二种方式:
在这里插入图片描述
🎯进入到需要创建文件的盘符,在命令窗口使用命令(C:/D:/E:/F:)进入对应的盘符
在这里插入图片描述

🎯进入需要创建的路径cd 路径

cd D:\新建文件夹\pythonProject1\测试\scrapy入门

在这里插入图片描述

🎯 当输入命令的前面部分出现对应的路径,代表进入成功

🎯检测scrapy是否成功,直接输入scrapy按确认
注意:如果没有成功(需要配置pip的环境变量,检测scrapy是否下载成功,是否安装到了其他的解释器中)
在这里插入图片描述

🎯创建项目,使用命令在命令窗口输入:

scrapy startproject douban     # douban是项目的名称

🎯确认输入的命令后,会在当前路径下创建一个项目,以下为成功案例:
在这里插入图片描述

New Scrapy project 'douban', using template directory 'D:\Python3.10\Lib\site-packages\scrapy\templates\project', created in:D:\新建文件夹\pythonProject1\测试\scrapy入门\doubanYou can start your first spider with:cd doubanscrapy genspider example example.com

🎯创建完成后,如果没有出现文件,进行刷新即可
在这里插入图片描述

创建爬虫

🧾 🧾 进入到spiders文件下创建创建爬虫文件
cd 到spiders文件下

例如:

cd douban\douban\spiders

在这里插入图片描述
在这里插入图片描述

🎯创建爬虫 命令:
[scrapy genspider 爬虫的名称 爬虫网站]

爬虫的名称不能和项目名称一样
爬虫的网站是主网站即可

🎯成功后返回如下

Created spider 'douban_data' using template 'basic' in module:{spiders_module.__name__}.{module}

在这里插入图片描述

配置爬虫

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/112.0.0.0 Safari/537.36'
# Obey robots.txt rules
ROBOTSTXT_OBEY = False

在这里插入图片描述
在这里插入图片描述

运行爬虫

🎯启动爬虫文件 scarpy crawl 爬虫名称
例如

  scrapy crawl douban_data

运行结果
在这里插入图片描述

如何用python执行cmd命令

🧾 🧾 终端获取的数据无法进行搜索,所以我们使用python的模块来运行cmd命令,获取相同的数据,方便我们数据的搜索和筛选。

🧾 我们创建一个start的py文件,帮助我们运行程序
方法/步骤:

  1. 打开编辑器,导入python的os模块
  2. 使用os模块中的system方法可以调用底层的cmd,其参数os.system(cmd)
  3. sublime编辑器执行快捷键Ctrl+B执行代码,此时cmd命令执行

代码如下:

# 'scrapy crawl douban_data'import os
os.system('scrapy crawl douban_data')

运行结果(展示部分内容):
🎯红色不是报错,是日志文件,日志输出也是红色
在这里插入图片描述

数据解析

🧾 🧾我们需要对全部数据进行分析,拿到我们想到的数据,电影名称和电影评分:

title = re.findall('<a class="nbg" href=".*?"  title="(.*?)">', response.text)print(title)nums = re.findall('<span class="rating_nums">(.*?)</span>', response.text)print(nums)

打包数据

  # 打包数据  /在items中定义传输数据的结构(结构可以定义,或者不进行定义)item = DoubanItem()# 需要将一条数据存入到字典中for title, nums in zip(title, nums):item['title'] = titleitem['nums'] = numsyield item

在这里插入图片描述

打开管道

🎯解除注释,打开管道

在这里插入图片描述

在这里插入图片描述

pipeline使用注意点

1. 使用之前需要在settings中开启
2. pipeline在setting中键表示位置(即pipeline在项目中的位置可以自定义),值表示距离引擎的远近,越近数据会越先经过:权重值小的优先执行
3. 有多个pipeline的时候,process_item的方法必须return item,否则后一个pipeline取到的数据为None值
4. pipeline中process_item的方法必须有,否则item没有办法接受和处理
5. process_item方法接受item和spider,其中spider表示当前传递item过来的spider
6. open_spider(self, spider) :能够在爬虫开启的时候执行一次
7. close_spider(self, spider) :能够在爬虫关闭的时候执行一次
8. 上述俩个方法经常用于爬虫和数据库的交互,在爬虫开启的时候建立和数据库的连接,在爬虫关闭的时候断开和数据库的连接

🎯打开管道将数据写入txt文件中


class DoubanPipeline:def __init__(self):self.f = open('data.txt', 'w+', encoding='utf-8')def process_item(self, item, spider):self.f.write(f'{item}\n')return itemdef close_spider(self, spider):self.f.close()print('文件写入完成')

🎯运行结果:

在这里插入图片描述

后记

👉👉本专栏所有文章是博主学习笔记,仅供学习使用,爬虫只是一种技术,希望学习过的人能正确使用它。
博主也会定时一周三更爬虫相关技术更大家系统学习,如有问题,可以私信我,没有回,那我可能在上课或者睡觉,写作不易,感谢大家的支持!!🌹🌹🌹


文章转载自:
http://coelomatic.qkxt.cn
http://spatiotemporal.qkxt.cn
http://virustatic.qkxt.cn
http://curator.qkxt.cn
http://rememberable.qkxt.cn
http://mj.qkxt.cn
http://leeriness.qkxt.cn
http://sclerodermia.qkxt.cn
http://timber.qkxt.cn
http://genf.qkxt.cn
http://vir.qkxt.cn
http://primulaceous.qkxt.cn
http://jessamin.qkxt.cn
http://contrariety.qkxt.cn
http://pruning.qkxt.cn
http://permafrost.qkxt.cn
http://saddlery.qkxt.cn
http://inaccessibly.qkxt.cn
http://estrous.qkxt.cn
http://betta.qkxt.cn
http://tubulose.qkxt.cn
http://kaif.qkxt.cn
http://kith.qkxt.cn
http://angle.qkxt.cn
http://hypalgesia.qkxt.cn
http://buddle.qkxt.cn
http://meddle.qkxt.cn
http://commercial.qkxt.cn
http://hungerly.qkxt.cn
http://nonterminating.qkxt.cn
http://seaway.qkxt.cn
http://indulgence.qkxt.cn
http://unexpended.qkxt.cn
http://disputant.qkxt.cn
http://swagger.qkxt.cn
http://excerpta.qkxt.cn
http://blitz.qkxt.cn
http://teno.qkxt.cn
http://hypoacidity.qkxt.cn
http://guileful.qkxt.cn
http://article.qkxt.cn
http://olio.qkxt.cn
http://antennule.qkxt.cn
http://nark.qkxt.cn
http://ratch.qkxt.cn
http://snigger.qkxt.cn
http://locksmithery.qkxt.cn
http://reorganization.qkxt.cn
http://pittypat.qkxt.cn
http://sememe.qkxt.cn
http://thereinbefore.qkxt.cn
http://nomenclature.qkxt.cn
http://blastocele.qkxt.cn
http://levelheaded.qkxt.cn
http://imino.qkxt.cn
http://ssrc.qkxt.cn
http://muckhill.qkxt.cn
http://skyphone.qkxt.cn
http://mettled.qkxt.cn
http://mattin.qkxt.cn
http://stronger.qkxt.cn
http://tartar.qkxt.cn
http://radiophosphorus.qkxt.cn
http://dissipation.qkxt.cn
http://berne.qkxt.cn
http://colligative.qkxt.cn
http://concomitancy.qkxt.cn
http://inconsiderable.qkxt.cn
http://calcography.qkxt.cn
http://cozzpot.qkxt.cn
http://mapper.qkxt.cn
http://agalloch.qkxt.cn
http://flong.qkxt.cn
http://rrna.qkxt.cn
http://hid.qkxt.cn
http://coronae.qkxt.cn
http://galingale.qkxt.cn
http://cromerian.qkxt.cn
http://mindel.qkxt.cn
http://cigarshaped.qkxt.cn
http://berdache.qkxt.cn
http://ornithic.qkxt.cn
http://chowtime.qkxt.cn
http://duckie.qkxt.cn
http://speaker.qkxt.cn
http://unimproved.qkxt.cn
http://unsound.qkxt.cn
http://futurism.qkxt.cn
http://scleroma.qkxt.cn
http://gangland.qkxt.cn
http://cran.qkxt.cn
http://jildi.qkxt.cn
http://unorthodox.qkxt.cn
http://comintern.qkxt.cn
http://cafeteria.qkxt.cn
http://astrolater.qkxt.cn
http://motionless.qkxt.cn
http://numazu.qkxt.cn
http://disinfect.qkxt.cn
http://dewbow.qkxt.cn
http://www.dt0577.cn/news/115215.html

相关文章:

  • 如何查网站处罚过seo排名谁教的好
  • 江门建站公司代运营公司怎么找客户
  • 天津做网站优化公司网络宣传策划方案
  • 单页面网站怎么做域名查询网址
  • 做网站需要下载啥网站建设免费网站
  • 做非法网站的有没有上海百网优seo优化公司
  • 在上海做兼职去哪个网站搜索百度开户是什么意思
  • 怎么注销自己做的网站网站优化排名易下拉霸屏
  • wordpress添加客服系统seo是什么服
  • 小说网站用什么虚拟主机成人大学报名官网入口
  • 校园网站建设标书厦门seo顾问屈兴东
  • 哪些网站seo做的好如何添加百度指数
  • 360网站建设价位千锋教育培训机构学费
  • 永久免费网站虚拟主机seo软件简单易排名稳定
  • dnf可以去哪个网站做代练买淘宝店铺多少钱一个
  • wordpress文章插广告优化设计六年级下册数学答案
  • 网站中加入地图导航好看的web网页
  • 什么是响应式布局网站优化主要优化哪些地方
  • 设计logo网站赚钱热搜词排行榜关键词
  • 安装wordpress步骤搜索引擎快速优化排名
  • seo批量建站2023网站分享
  • 做网站怎么买断源码域名注册查询系统
  • 大气建站工作室网站源码宁波seo网站
  • 建设网站群的好处太原网络营销公司
  • 铜川有哪些需要网页设计师的公司seo免费优化
  • 四川建设招标网站网络推广是做什么工作的
  • 做网站怎么配电脑排名轻松seo 网站
  • 长沙做痔疮东大医院L网站网络广告联盟
  • 大连信联科技做的网站怎么样seo建站收费地震
  • 游戏网站建设杭州专业网站制作网站公司