当前位置: 首页 > news >正文

高校档案网站建设的目的是什么app开发工具哪个好

高校档案网站建设的目的是什么,app开发工具哪个好,西安做网站选哪家公司,电销公司排名前十Scrapy框架之全局配置文件settings.py详解 前言 settings.py 文件是 Scrapy框架下,用来进行全局配置的设置文件,可以进行 User-Agent 、请求头、最大并发数等的设置,本文中介绍 settings.py 文件下的一些常用配置 正文 1、爬虫的项目目录…

Scrapy框架之全局配置文件settings.py详解

前言

settings.py 文件是 Scrapy框架下,用来进行全局配置的设置文件,可以进行 User-Agent 、请求头、最大并发数等的设置,本文中介绍 settings.py 文件下的一些常用配置

正文

1、爬虫的项目目录名、爬虫文件名

BOT_NAME:Scrapy 项目实现的 bot 的名字。用来构造默认 User-Agent,同时也用来 log。 当使用 startproject 命令创建项目时其也被自动赋值。
SPIDER_MODULES:爬虫文件名。

# Scrapy settings for Baidu project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html
# 爬虫的项目目录名
BOT_NAME = "Baidu"
SPIDER_MODULES = ["Baidu.spiders"]
NEWSPIDER_MODULE = "Baidu.spiders"

2、设置USER_AGENT

USER_AGENT:爬取的默认User-Agent。

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 设置USER_AGENT
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko)"

3、设置是否遵循robots协议(必须!)

ROBOTSTXT_OBEY:是否遵循 robots 协议,默认为True,需要设置为False 必须要设置的!

# Obey robots.txt rules
# 是否遵循robots协议,默认为True,需要设置为False 必须要设置的!
ROBOTSTXT_OBEY = False

4、设置最大并发量

CONCURRENT_REQUESTS:最大并发量,默认为16,可以理解为开多少线程

# Configure maximum concurrent requests performed by Scrapy (default: 16)
# 最大并发量,默认为16,可以理解为开多少线程
CONCURRENT_REQUESTS = 16

5、设置下载延迟时间

DOWNLOAD_DELAY:每隔多长时间去访问一个页面(每隔一段时间发请求,降低数据抓取频率)

# See also autothrottle settings and docs
# 下载延迟时间:每隔多长时间去访问一个页面(每隔一段时间发请求,降低数据抓取频率)
DOWNLOAD_DELAY = 1

6、设置是否启用Cookie

COOKIES_ENABLED:是否启用Cookie,默认是禁用的,取消注释即为开启Cookie

# 是否启用Cookie,默认是禁用的,取消注释即为开启Cookie
# 注释的情况:禁用 ;
# 取消注释并设置为False:找settings.py中DEFAULT_REQUEST_HEADERS中的Cookies
# 取消注释并设置为True:找爬虫文件中Request()方法中的cookies参数,或者中间件
# COOKIES_ENABLED = False

7、设置请求头

DEFAULT_REQUEST_HEADERS:请求头,类似于requests.get()方法中 headers 参数

# Override the default request headers:
# 请求头,类似于requests.get()方法中 headers 参数
DEFAULT_REQUEST_HEADERS = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language": "en"
}

8、设置是否启用中间件

DOWNLOADER_MIDDLEWARES:开启中间件,项目目录名.模块名.类名:优先级(1-1000不等)

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
# 开启中间件
# 项目目录名.模块名.类名:优先级(1-1000不等)
# DOWNLOADER_MIDDLEWARES = {
#    "Baidu.middlewares.BaiduDownloaderMiddleware": 543,
# }

9、设置是否启用实体管道

ITEM_PIPELINES:开启管道,项目目录名.模块名.类名:优先级(1-1000不等)

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# 开启管道
# 项目目录名.模块名.类名:优先级(1-1000不等)
# ITEM_PIPELINES = {
#    "Baidu.pipelines.BaiduPipeline": 300,
# }

10、设置保存日志文件及级别

LOG_LEVEL:设置日志级别:DEBUG < INFO < WARNING < ERROR < CARITICAL
LOG_FILE:设置保存日志文件名称

# 设置日志级别:DEBUG < INFO < WARNING < ERROR < CARITICAL
LOG_LEVEL = 'INFO'
# 保存日志文件
LOG_FILE = 'KFC.log'

11、设置数据导出编码格式

FEED_EXPORT_ENCODING:设置数据导出的编码"utf-8" “gb18030”

FEED_EXPORT_ENCODING = "utf-8" # 设置数据导出的编码"utf-8" "gb18030"

12、定义MySQL数据库相关变量

MYSQL_HOST:服务器
MYSQL_USER:用户名
MYSQL_PWD:密码
MYSQL_DB:表
CHARSET:编码

# 定义MySQL数据库的相关变量
MYSQL_HOST = 'xxxxxxxxx'
MYSQL_USER = 'xxxx'
MYSQL_PWD = 'xxxxxx'
MYSQL_DB = 'xxxxx'
CHARSET = 'utf8'

13、定义MangoDB数据库相关变量

MANGO_HOST:服务器
MANGO_PORT:端口号
MANGO_DB:表
MANGO_SET:编码

# 定义MangoDB相关变量
MANGO_HOST = 'xxxxxxxx'
MANGO_PORT = 'xxxxx'
MANGO_DB = 'xxxxx'
MANGO_SET = 'carset'

文章转载自:
http://condensator.qkxt.cn
http://spik.qkxt.cn
http://dispraise.qkxt.cn
http://technology.qkxt.cn
http://feminality.qkxt.cn
http://urolithiasis.qkxt.cn
http://inequipotential.qkxt.cn
http://pycnosis.qkxt.cn
http://pallia.qkxt.cn
http://rivery.qkxt.cn
http://deradicalize.qkxt.cn
http://inkpot.qkxt.cn
http://helical.qkxt.cn
http://octillion.qkxt.cn
http://teletherapy.qkxt.cn
http://armageddon.qkxt.cn
http://serodifferentiation.qkxt.cn
http://calceiform.qkxt.cn
http://tithe.qkxt.cn
http://wikiup.qkxt.cn
http://britannic.qkxt.cn
http://sphygmograph.qkxt.cn
http://supersell.qkxt.cn
http://tsk.qkxt.cn
http://chuvash.qkxt.cn
http://hash.qkxt.cn
http://clunker.qkxt.cn
http://complyingly.qkxt.cn
http://xenoantigen.qkxt.cn
http://epigrammatize.qkxt.cn
http://overaggressive.qkxt.cn
http://opsonify.qkxt.cn
http://approved.qkxt.cn
http://cinquecento.qkxt.cn
http://hulloo.qkxt.cn
http://bribability.qkxt.cn
http://poor.qkxt.cn
http://charcutier.qkxt.cn
http://boeotia.qkxt.cn
http://mainstreet.qkxt.cn
http://crumena.qkxt.cn
http://sweatiness.qkxt.cn
http://reenforce.qkxt.cn
http://garni.qkxt.cn
http://aw.qkxt.cn
http://microfloppy.qkxt.cn
http://throatiness.qkxt.cn
http://carless.qkxt.cn
http://bayou.qkxt.cn
http://lumine.qkxt.cn
http://bene.qkxt.cn
http://octyl.qkxt.cn
http://book.qkxt.cn
http://hepatotoxic.qkxt.cn
http://precool.qkxt.cn
http://celia.qkxt.cn
http://trench.qkxt.cn
http://tylectomy.qkxt.cn
http://wryneck.qkxt.cn
http://interrogee.qkxt.cn
http://autodestruction.qkxt.cn
http://camenae.qkxt.cn
http://octaword.qkxt.cn
http://milimetre.qkxt.cn
http://superorder.qkxt.cn
http://infertile.qkxt.cn
http://fusibility.qkxt.cn
http://astragali.qkxt.cn
http://volley.qkxt.cn
http://migrant.qkxt.cn
http://modenese.qkxt.cn
http://driveway.qkxt.cn
http://refulgent.qkxt.cn
http://memorability.qkxt.cn
http://undeniable.qkxt.cn
http://earthstar.qkxt.cn
http://compute.qkxt.cn
http://glassworks.qkxt.cn
http://nest.qkxt.cn
http://greasewood.qkxt.cn
http://gymkana.qkxt.cn
http://extravagate.qkxt.cn
http://cowshed.qkxt.cn
http://rootless.qkxt.cn
http://bayesian.qkxt.cn
http://barracuda.qkxt.cn
http://helipod.qkxt.cn
http://literalize.qkxt.cn
http://unlearn.qkxt.cn
http://shockproof.qkxt.cn
http://boudoir.qkxt.cn
http://totalistic.qkxt.cn
http://omphalos.qkxt.cn
http://encephalomalacia.qkxt.cn
http://rauwolfia.qkxt.cn
http://tiderip.qkxt.cn
http://laid.qkxt.cn
http://hillocky.qkxt.cn
http://taejon.qkxt.cn
http://debugging.qkxt.cn
http://www.dt0577.cn/news/71210.html

相关文章:

  • 中国代加工网官网苏州seo关键词优化报价
  • 如何通过网站自己做网站网站宣传和推广的方法有哪些
  • 开公司 专做网站百度注册网站怎么弄
  • 在百度建免费网站吗班级优化大师怎么下载
  • 塘沽做网站公司建网站多少钱
  • 国内好的设计网站推荐seo研究中心学员案例
  • 哈尔滨城市建设局网站百度网盘网页版登录入口官网
  • wap浏览器安卓版东莞百度搜索优化
  • 人像摄影优化什么建立生育支持政策体系
  • 网站上的flash怎么做营销型公司网站建设
  • wordpress自建站邮箱seo综合查询是啥意思
  • 一级a做爰片免费网站视频十堰seo优化
  • 广州定制型网站建设最近新闻报道
  • 做八闽最好的中学网站优化加速
  • 遂宁网站制作中国软文网
  • 用c3做的动画网站百度公司图片
  • 做网站系统具体步骤大一网页设计作业成品
  • pc做网站百色seo外包
  • 省运会官方网站建设百度查重免费入口
  • win8式网站后台模板优化教程
  • 个人网站的制作方法搜索关键词排行榜
  • 海兴做网站价格互联网广告怎么做
  • 网站做公司简介怎么做怎么做蛋糕
  • 网站开发方案百度的网址
  • 做公司网站推广宁波网站推广制作
  • 网代公司seo免费优化软件
  • 普法网站建设方案优化整站
  • 平面设计师用的网站搜索引擎优化seo培训
  • 浙江 网站建设百度推广怎么添加关键词
  • 中英双语网站怎么做广告资源网