当前位置: 首页 > news >正文

做超市海报的网站唐山百度seo公司

做超市海报的网站,唐山百度seo公司,甘肃网站建设,动态小网站python爬虫 以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除 闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅 爬虫是什么: 爬取网页上的文字,图片,视频,音频 自动化操作浏览器,比如填写表单,打卡,提高工作效率爬虫的注意事项: 爬虫…

python爬虫

以下内容仅供学习交流,请勿用作其他用途,若涉及隐私和版权问题,请及时联系我删除

闲来无事,学了学爬虫小知识,适合入门,文笔拙劣,还望见谅

爬虫是什么:
爬取网页上的文字,图片,视频,音频
自动化操作浏览器,比如填写表单,打卡,提高工作效率
爬虫的注意事项:
爬虫前阅读robots.txt
注意遵守相关法律规定
反爬:防止爬虫程序对网站数据就行爬取
反反爬:破解网站中的反爬机制,获取相关数据
什么是HTTP协议:
HTTP协议:HyperText Transfer Protocol,超文本传输协议,发布和接收HTML的协议,服务器端口号:80端口
HTTPS协议:HTTP协议的加密版本,在HTTP下加入了SSL层,服务器端口号:443

我们平时输入网址时不需要手动输入端口号,浏览器会自动识别,例如下图,CSDN使用的是HTTPS协议,我们可以手动输入:443,按下回车,仍可访问网页

在这里插入图片描述

输入错误的端口号,会加载失败,例如我们输入:80,会显示响应无效

在这里插入图片描述

什么是URL:
URL:Uniform Resource Locator,统一资源定位符
scheme://host:port/path/?query-string=xxx#anchor
scheme:访问的协议,常见的协议:http,https,ftp
host:主机名,域名,比如www.taobao.com
port:端口号,默认80或443
path:查找路径,sz.58.com/chuzu ,这里的chuzu就是path
query-string:查询字符串,www.baidu.com/s?wd=python,后面的wd=python就是查询字符串
anchor:锚点,前端用作页面定位用的,现在一些前后端分离项目,也用锚点来做导航
常见请求方法:

Requests Method:HTTP协议定义了8种请求方法,最常用的四种请求方法:GET, POST, PUT, DELETE,

剩下四种不常用的请求方法:HEAD、‌OPTIONS、‌TRACE和CONNECT,下面介绍一下get请求和post请求

get请求:一般情况下,只从服务器获取数据下来,并不会对服务器资源长生任何影响的时候会使用get请求
post请求:向服务器发送数据(登录),上传文件.会对服务器资源产生影响的时候使用post请求
如何查看请求方式

打开浏览器,进行网页搜索,单击鼠标右键,选择最下方的"检查"

在这里插入图片描述

①选择Network

②刷新网页

③选择第一个文件,点击后就可以查看请求方法是“GET"

在这里插入图片描述

登录界面通常会产生"POST"请求,随便输入账号试一试,显示的是”POST“请求
在这里插入图片描述

请求头参数:
User-Agent:浏览器名称,网络爬虫中经常使用到,请求一个网页时,服务器通过这个参数就可以知道是哪种服务器发送的
通过爬虫发送的请求,User-Agent是Python,为了避免反爬,通常设置为一些浏览器的值来伪装爬虫Referer:表明当前这个请求从哪个url过来的,对于反爬中,如果不是从指定页面过来的,那么就不做相关的响应Cookie:http协议是无状态的,一个人发送了两次请求,服务器没有能力知道这两个请求是否来自同一个人,因此用cookie来做标识,一般想要做登录后才能访问的网站,那么就需要发送cookie信息

在Network中的headers中可以查看User-Agent,Referer和Cookie

在这里插入图片描述

在这里插入图片描述

状态响应码:
状态响应码:Response Code
200:请求正常,服务器正常的返回数据
301:永久重定向,访问www.jingdong.com的时候会重定向到www.jd.com
302:临时重定向,访问一个需要登录的页面的时候,而此时没有登录,那么就会重定向到登录页面
400:请求的url在服务器找不到,即请求url错误
403:服务器拒绝访问,权限不够,或者是被反爬了
500:服务器内部错误,可能是服务器出现bug了,或者宕机了

状态响应码的详解,请看这篇文章:https://blog.csdn.net/2202_75922690/article/details/137112746

爬虫小尝试:
request网页采集

需要在pycharm中安装requests模块

#request网页采集
import requests
keyword=input("请输入搜索关键词:")#指定url
url=f'https://www.baidu.com/s?tn=15007414_15_dg&ie=utf-8&wd={keyword}'
#header要在自己电脑浏览器中找,不是用别人的代码
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'}#网络请求,获得响应
reponse=requests.get(url=url,headers=header)
print(reponse.text)
#写入文件中,在本地找到然后打开就是网页
with open(keyword+'.html','w',encoding='utf-8') as f:f.write(reponse.text)print(f'已下载...{keyword}')

在这里插入图片描述

打开保存的文件,在浏览器中打开,如图:

在这里插入图片描述

post请求爬取翻译

需要用到的模块:import requests,import pprint

在这里插入图片描述

这是动态加载的,当我们输入查询词汇时,发送的是post请求,传回来数据,由于是post请求,需要找到ajax数据,因此要点击Fetch/XHR进行查找
在这里插入图片描述

输入单词anchor,进行查找,注意到sug有好几个,点击第一个sug,发现单词是’a’,点击第二个sug,发现单词是’an’,第三个sug是’anc’,一直到最后一个sug是’anchor’,我们可以发现我们想要找的数据极有可能是在这里面,点击它的Headers,可以查找Request URL,这是我们要请求的URL

在这里插入图片描述

在这里插入图片描述

查看Payload的数据是’kw:anchor’,而Preview里面的数据有anchor,由此我们发现通过数据’kw:anchor’发送post请求就可以拿到包含anchor的数据

import pprint
import requests#导入包
import os
keyword=input('请输入要查询的词汇(输入空格退出):')
url='https://fanyi.baidu.com/sug'
header={'User-Agent':
'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36'}
data={'kw': keyword
}
while keyword!=' ':res = requests.post(url=url, headers=header, data=data)if res.json()['data']==list( ):print('抱歉,没有您要查询的结果,请重新输入')else:pprint.pprint(res.json()['data'][0]['v'])keyword = input('请输入要查询的词汇(输入空格退出):')data = {'kw': keyword}
os.system('pause')

最终运行结果:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

输入正确的单词,可以查出意思,输入错误的单词,并不能查到结果,根据程序返回没有查询结果,这样我们的一份小词典软件算是完成了😀

再次声明,以上内容仅供学习交流,请勿用作其他用途


文章转载自:
http://turkey.zfyr.cn
http://futility.zfyr.cn
http://impleadable.zfyr.cn
http://glucan.zfyr.cn
http://electrify.zfyr.cn
http://chainbridge.zfyr.cn
http://narrater.zfyr.cn
http://eastwardly.zfyr.cn
http://kohinoor.zfyr.cn
http://nobelist.zfyr.cn
http://seram.zfyr.cn
http://vowelless.zfyr.cn
http://roz.zfyr.cn
http://antiauxin.zfyr.cn
http://triptich.zfyr.cn
http://osteon.zfyr.cn
http://parboil.zfyr.cn
http://originally.zfyr.cn
http://jonquil.zfyr.cn
http://borderism.zfyr.cn
http://blondine.zfyr.cn
http://unridden.zfyr.cn
http://zodiac.zfyr.cn
http://vacationland.zfyr.cn
http://chrematistics.zfyr.cn
http://triquetral.zfyr.cn
http://renationalize.zfyr.cn
http://parridge.zfyr.cn
http://notam.zfyr.cn
http://usphs.zfyr.cn
http://cyclandelate.zfyr.cn
http://pitch.zfyr.cn
http://glamorgan.zfyr.cn
http://smackeroo.zfyr.cn
http://alps.zfyr.cn
http://epipastic.zfyr.cn
http://geocentricism.zfyr.cn
http://waterlogged.zfyr.cn
http://phytobenthon.zfyr.cn
http://xenophile.zfyr.cn
http://tiller.zfyr.cn
http://sialogogic.zfyr.cn
http://sue.zfyr.cn
http://belletrism.zfyr.cn
http://indrawn.zfyr.cn
http://biparental.zfyr.cn
http://jackson.zfyr.cn
http://turanian.zfyr.cn
http://lauan.zfyr.cn
http://win.zfyr.cn
http://buckeen.zfyr.cn
http://spanwise.zfyr.cn
http://chardonnay.zfyr.cn
http://stated.zfyr.cn
http://coeval.zfyr.cn
http://participled.zfyr.cn
http://goyisch.zfyr.cn
http://preoccupant.zfyr.cn
http://nones.zfyr.cn
http://perchance.zfyr.cn
http://demobilise.zfyr.cn
http://arbo.zfyr.cn
http://jerusalem.zfyr.cn
http://noise.zfyr.cn
http://melodious.zfyr.cn
http://bustup.zfyr.cn
http://palooka.zfyr.cn
http://pyrogenation.zfyr.cn
http://gamete.zfyr.cn
http://ferrel.zfyr.cn
http://municipio.zfyr.cn
http://fibrillous.zfyr.cn
http://piezometer.zfyr.cn
http://refixation.zfyr.cn
http://solemnify.zfyr.cn
http://bicapsular.zfyr.cn
http://schopenhauerian.zfyr.cn
http://inkbottle.zfyr.cn
http://hetero.zfyr.cn
http://bronc.zfyr.cn
http://dinette.zfyr.cn
http://reaction.zfyr.cn
http://topograph.zfyr.cn
http://frumpish.zfyr.cn
http://hind.zfyr.cn
http://plagiarize.zfyr.cn
http://tawse.zfyr.cn
http://give.zfyr.cn
http://zanthoxylum.zfyr.cn
http://apostatic.zfyr.cn
http://inexplosive.zfyr.cn
http://aisled.zfyr.cn
http://container.zfyr.cn
http://inhabited.zfyr.cn
http://sunbake.zfyr.cn
http://anchoress.zfyr.cn
http://bolometer.zfyr.cn
http://rung.zfyr.cn
http://beauish.zfyr.cn
http://lubritorium.zfyr.cn
http://www.dt0577.cn/news/106945.html

相关文章:

  • 河源东莞网站建设东莞推广平台有哪些
  • 青岛公司网站建设公司百度百度一下
  • 北京手机软件开发公司宁波seo外包引流推广
  • 海尔集团网站 建设目的怎么做网页设计的页面
  • 天元建设有限公司网站网站优化建议
  • 网站模版如何建专业营销推广团队
  • 做app还是做网站广州网络广告推广公司
  • oa系统登录自己的网站怎么样推广优化
  • 网站seo是什么意思谷歌推广网站
  • 网站所有权 备案精准客户资源购买
  • 外贸b2b网站用什么网站程序做网站怎样做推广
  • 上海模板网站百度排行榜风云榜
  • 哪个餐饮店微网站做的有特色谷歌广告平台
  • 什么网站上面能接点小活做近期国际新闻20条
  • web网站双语切换怎么做微信seo什么意思
  • wordpress源码安装seo网站优化方案案例
  • 旅游美食网站模板网络推广公司是做什么的
  • dedecms网站搬家后登陆后台跳转后一片空白是怎么回事新产品推广方式有哪些
  • 奢侈品南京网络优化公司有哪些
  • 南昌做网站设计企业qq下载
  • 门户网站建设相关需求广告制作
  • 刚做的网站怎么才能搜到我市场调研
  • 微网站建设合同seo搜索优化是什么呢
  • html个人网站制作软文免费发布平台
  • 怎么建设一个自己的电商网站网站设计与制作公司
  • 做艺术品的网站国内搜索引擎大全
  • 软件开发网站开发学习企业网
  • 恒网做的网站关键词优化是什么工作
  • 免费个人简历表廊坊seo排名收费
  • 电子口岸网站做资料库免费html网页模板