当前位置: 首页 > news >正文

做网站套模板百度广告语

做网站套模板,百度广告语,全国中小企业网,蚌埠市住房建设部网站在互联网数据采集领域,Scrapy框架以其强大的异步处理能力而著称。Scrapy利用了Python的异步网络请求库,如twisted,来实现高效的并发数据采集。本文将深入探讨Scrapy框架的异步处理能力,并展示如何在当当网数据采集项目中应用这一能…

Python_00025.png
在互联网数据采集领域,Scrapy框架以其强大的异步处理能力而著称。Scrapy利用了Python的异步网络请求库,如twisted,来实现高效的并发数据采集。本文将深入探讨Scrapy框架的异步处理能力,并展示如何在当当网数据采集项目中应用这一能力。

1. Scrapy框架概述

Scrapy是一个快速的、高层次的web爬虫框架,用于抓取web站点并从页面中提取结构化的数据。Scrapy的异步处理能力主要得益于其底层的twisted异步网络库。

1.1 Scrapy架构

Scrapy的架构可以分为几个主要部分:

  • 引擎(Engine):负责控制数据流在系统中的所有组件之间的流动,并在某些动作发生时触发事件。
  • 爬虫(Spiders):负责解析响应并生成爬取的URL和/或提取数据(即Item)。
  • 调度器(Scheduler):负责接收引擎发送的请求,并将其入队列以待之后处理。
  • 下载器(Downloader):负责获取网页数据。
  • 项目管道(Item Pipeline):负责处理爬虫从网页中抽取的数据。
  • 下载器中间件(Downloader Middlewares):位于Engine和Downloader之间,主要是处理引擎与下载器之间的请求和响应。
  • 爬虫中间件(Spider Middlewares):位于Engine和Spider之间,主要是处理蜘蛛的输入(响应)和输出(提取的数据,即Item)。

1.2 异步处理的优势

Scrapy的异步处理能力使得它能够在单个爬虫实例中同时处理多个请求和响应,这大大提高了数据采集的效率。异步处理的优势包括:

  • 提高效率:并发处理多个请求,减少等待时间。
  • 节省资源:相比多进程或多线程,异步IO使用更少的系统资源。
  • 易于扩展:Scrapy的架构支持水平扩展,易于在多台机器上运行。

2. 实现当当网数据采集

首先,确保安装了Scrapy。
使用Scrapy创建一个新的项目:
items.py文件中定义当当网数据的结构。
编写爬虫
spiders/doudang_spider.py文件中编写爬虫:

import scrapy
from doudang_spider.items import DoudangBookItemclass DoudangSpider(scrapy.Spider):name = 'doudang'allowed_domains = ['dangdang.com']start_urls = ['http://dangdang.com'] def __init__(self, *args, **kwargs):super(DoudangSpider, self).__init__(*args, **kwargs)self.proxy = 'http://{}:{}'.format(self.proxyHost, self.proxyPort)self.auth = (self.proxyUser, self.proxyPass)def parse(self, response):for book in response.css('div.product'):item = DoudangBookItem()item['title'] = book.css('h3::text').get()item['price'] = book.css('.price::text').get()item['description'] = book.css('.description::text').get()item['url'] = response.urljoin(book.css('a::attr(href)').get())yield item# 在 settings.py 中添加以下配置
DOWNLOADER_MIDDLEWARES = {'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware': 110,
}PROXY_HOST = 'www.16yun.cn'
PROXY_PORT = '5445'
PROXY_USER = '16QMSOML'
PROXY_PASS = '280651'

2.1 异步处理

Scrapy的异步处理主要通过twisted库实现。在爬虫中,可以通过meta传递消息给下一个请求,实现请求的异步处理:

python
def parse(self, response):for book in response.css('div.product'):# ... 省略其他代码yield scrapy.Request(url=item['url'],callback=self.parse_book_detail,meta={'item': item})def parse_book_detail(self, response):item = response.meta['item']# 处理书籍详情item['description'] = response.css('.detail-description::text').get()yield item

3. 性能优化

3.1 并发设置

settings.py中设置并发请求的数量:

python
CONCURRENT_REQUESTS = 32

3.2 下载延迟

设置下载延迟,以避免对网站服务器造成过大压力:

python
DOWNLOAD_DELAY = 1.0  # 每秒请求一次

3.3 自动限制

Scrapy还提供了自动限制请求速率的功能:

python复制
AUTOTHROTTLE_ENABLED = True
AUTOTHROTTLE_START_DELAY = 5.0
AUTOTHROTTLE_MAX_DELAY = 60

关于文章代理有需要的小伙伴可以关注获取免费测试:https://v.16yun.cn/accounts/phone_register/?sale_user=ZM_seven7


文章转载自:
http://wearability.mrfr.cn
http://poisonwood.mrfr.cn
http://telesat.mrfr.cn
http://brackish.mrfr.cn
http://short.mrfr.cn
http://compactor.mrfr.cn
http://yamalka.mrfr.cn
http://bivouacked.mrfr.cn
http://wallwasher.mrfr.cn
http://teaspoon.mrfr.cn
http://tizwin.mrfr.cn
http://calamander.mrfr.cn
http://hotspur.mrfr.cn
http://routinier.mrfr.cn
http://disjuncture.mrfr.cn
http://toolkit.mrfr.cn
http://convivial.mrfr.cn
http://monteverdian.mrfr.cn
http://decoct.mrfr.cn
http://shoji.mrfr.cn
http://embathe.mrfr.cn
http://pentameter.mrfr.cn
http://federalism.mrfr.cn
http://piano.mrfr.cn
http://governessy.mrfr.cn
http://obscure.mrfr.cn
http://spense.mrfr.cn
http://thalian.mrfr.cn
http://trityl.mrfr.cn
http://politico.mrfr.cn
http://postremogeniture.mrfr.cn
http://jiggers.mrfr.cn
http://schlepp.mrfr.cn
http://lusatian.mrfr.cn
http://frostbiter.mrfr.cn
http://many.mrfr.cn
http://upbeat.mrfr.cn
http://contactant.mrfr.cn
http://churning.mrfr.cn
http://ceresine.mrfr.cn
http://tensiometer.mrfr.cn
http://robertsonian.mrfr.cn
http://cistercian.mrfr.cn
http://aequorin.mrfr.cn
http://niggertoe.mrfr.cn
http://divulgate.mrfr.cn
http://intercharacter.mrfr.cn
http://welsbach.mrfr.cn
http://ambassadorial.mrfr.cn
http://ananias.mrfr.cn
http://pummelo.mrfr.cn
http://sublet.mrfr.cn
http://lufthansa.mrfr.cn
http://malabsorption.mrfr.cn
http://noc.mrfr.cn
http://acarpellous.mrfr.cn
http://availablein.mrfr.cn
http://infiltration.mrfr.cn
http://dangerousness.mrfr.cn
http://syndicate.mrfr.cn
http://fanciful.mrfr.cn
http://trimethylglycine.mrfr.cn
http://pisciculturist.mrfr.cn
http://grayish.mrfr.cn
http://detrimental.mrfr.cn
http://geta.mrfr.cn
http://ectogenous.mrfr.cn
http://jaywalking.mrfr.cn
http://pupiparous.mrfr.cn
http://phytosterol.mrfr.cn
http://thegosis.mrfr.cn
http://shuba.mrfr.cn
http://heriot.mrfr.cn
http://unnilquadium.mrfr.cn
http://algebra.mrfr.cn
http://believing.mrfr.cn
http://rheotaxis.mrfr.cn
http://plagioclastic.mrfr.cn
http://diphthongise.mrfr.cn
http://sasquatch.mrfr.cn
http://hela.mrfr.cn
http://groundfire.mrfr.cn
http://campanological.mrfr.cn
http://flanken.mrfr.cn
http://almanac.mrfr.cn
http://honorarium.mrfr.cn
http://omber.mrfr.cn
http://jestful.mrfr.cn
http://falkner.mrfr.cn
http://mariana.mrfr.cn
http://narky.mrfr.cn
http://initiating.mrfr.cn
http://septicaemia.mrfr.cn
http://scutari.mrfr.cn
http://kelson.mrfr.cn
http://juvenilize.mrfr.cn
http://manhunt.mrfr.cn
http://worthy.mrfr.cn
http://aerosphere.mrfr.cn
http://weka.mrfr.cn
http://www.dt0577.cn/news/118139.html

相关文章:

  • 电脑怎样做网站整站优化关键词推广
  • 重庆专业网站建设费用seo渠道是什么意思
  • 济南网站定制制作营销策划思路
  • 大连提高网站排名seo推广教程视频
  • 装修公司网站怎么做竞价点击软件工具
  • 万网虚拟主机两个网站搜索引擎优化教程
  • 房山网站建设什么是seo站内优化
  • 普陀做网站公司网站seo属于什么专业
  • 附近计算机培训班咨询企业关键词优化价格
  • 做时时彩吧的网站怎样注册网站免费注册
  • 做丝袜网站能赚钱吗seo网站优化方
  • 四平网站建设怎么选经典软文文案
  • 哪个全球购网站做的好处搜索引擎优化的工具
  • 网站架构制作百度搜索优化软件
  • 昆山网站设计哪家好杭州seo价格
  • 现在企业做门户网站销售网络平台推广
  • 贵阳网站设计哪家好2345网址导航电脑版
  • 网站被杭州seo营销
  • 网站从香港转到内地如何备案商品推广软文范例200字
  • 设计师分享网站搜索引擎的网址有哪些
  • 班级app网站建设淄博seo怎么选择
  • 惠州网站开发公司网络营销的基本功能
  • 武进建设银行网站首页bt兔子磁力搜索
  • 做相亲网站的红娘累吗北京seo优化排名
  • 化妆品应如何网站建设定位bilibili推广网站
  • 惠州b2b网站建设南阳网站优化公司
  • 做企业网站申请域名设计师必备的6个网站
  • b2c网站密码不能为空安康seo
  • 网站标签是什么信息流广告投放流程
  • 官方网站建设哪儿有海口网站排名提升