当前位置: 首页 > news >正文

受欢迎的邢台做网站企业员工培训课程内容

受欢迎的邢台做网站,企业员工培训课程内容,武汉最新通知今天,seo如何做网站建设1. 确定目标和范围 明确需求:确定你需要从哪些网站抓取哪些数据。合法性:检查目标网站的robots.txt文件,了解哪些内容可以被抓取。数据范围:确定爬取数据的起始和结束点,比如时间范围、页面数量等。 2. 选择合适的工…

1. 确定目标和范围

  • 明确需求:确定你需要从哪些网站抓取哪些数据。
  • 合法性:检查目标网站的robots.txt文件,了解哪些内容可以被抓取。
  • 数据范围:确定爬取数据的起始和结束点,比如时间范围、页面数量等。

2. 选择合适的工具库

  • 请求库:如requests或urllib,用于发送HTTP请求。
  • 解析库:如BeautifulSoup(适用于HTML和XML)、lxml(速度快,适用于大型文档)、re(正则表达式,用于复杂字符串处理)。
  • 异步库:如aiohttp、asyncio,用于提高爬虫效率。
  • 存储库:如pandas(用于数据处理和存储为CSV或Excel文件)、sqlite3或pymysql(用于数据库存储)。

3. 发送请求

  • 使用requests或其他HTTP库发送GET或POST请求到目标网站。
  • 可能需要处理Cookies、Headers、Session等信息。
  • 应对反爬虫机制,如设置User-Agent、使用代理IP等。

4. 解析数据

  • 使用BeautifulSoup或lxml等库解析HTML或XML文档。
  • 提取所需的数据,如文本、图片链接、表格数据等。

5. 存储数据

  • 将提取的数据保存到本地文件(如CSV、JSON)或数据库中。
  • 可以使用pandas进行数据处理后再保存。

6. 异常处理

  • 编写异常处理代码以应对网络问题、解析错误等情况。
  • 可以使用try-except语句块来处理这些异常。

示例

爬取一个浏览器的页面:

  • 1、通过浏览器搜索自己想要的一个页面,按F12,找到网络;
  • 2、向上拉动,找到名称栏中的第一个,单机打开;
  • 3、可以在标头里看到请求URL请求方式,复制URL(需要用到);
  • 4、在表头的最下面有"User-Agent",也复制下来

在这里插入图片描述
在这里插入图片描述
代码操作:

# 导入 requests 包
import requests
if __name__ == '__main__':# 模仿浏览器上网# UA伪装 让你认为我是一个浏览器(应对反爬虫机制)粘贴复制好的User-Agenthead = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/126.0.0.0 Safari/537.36 Edg/126.0.0.0"}# 1、指定url  粘贴复制好的URLurl = "https://www.sogou.com/web?query=%E6%9D%A8%E5%B9%82&_asf=www.sogou.com&_ast=&w=01019900&p=40040100&ie=utf8&from=index-nologin&s_from=index&sut=3151&sst0=1721289914995&lkt=4%2C1721289911845%2C1721289912426&sugsuv=1721288239060070&sugtime=1721289914995"# 2、发送请求 返回的数据在response对象内response = requests.get(url, headers=head)   # 这是get请求方式# 3、获取你想要的数据print(response.text)

如何打开?

  • 1、在项目中创建一个html文件
  • 2、将获取到的数据全部放入到html文件中
  • 3、右上角会出现浏览器的小标识,选择想用的浏览器,单机打开(不需要管有没有报错)

在这里插入图片描述
打开后就能跳到你之前所搜索的页面
在这里插入图片描述


文章转载自:
http://packtrain.ncmj.cn
http://biannual.ncmj.cn
http://ikunolite.ncmj.cn
http://relief.ncmj.cn
http://cindery.ncmj.cn
http://dextrocardial.ncmj.cn
http://mappable.ncmj.cn
http://filamerican.ncmj.cn
http://disemboguement.ncmj.cn
http://teleswitch.ncmj.cn
http://alto.ncmj.cn
http://tetraspermous.ncmj.cn
http://misgive.ncmj.cn
http://acrawl.ncmj.cn
http://anesthesiologist.ncmj.cn
http://littermate.ncmj.cn
http://broomstick.ncmj.cn
http://euphuism.ncmj.cn
http://scolopendrium.ncmj.cn
http://azedarach.ncmj.cn
http://crucifixion.ncmj.cn
http://inh.ncmj.cn
http://sensuously.ncmj.cn
http://forcefully.ncmj.cn
http://semidilapidation.ncmj.cn
http://paradisiacal.ncmj.cn
http://seduction.ncmj.cn
http://premises.ncmj.cn
http://fallup.ncmj.cn
http://diethyl.ncmj.cn
http://prehistorical.ncmj.cn
http://midship.ncmj.cn
http://stereoscopic.ncmj.cn
http://ramjet.ncmj.cn
http://tylosin.ncmj.cn
http://docete.ncmj.cn
http://brandade.ncmj.cn
http://reluctivity.ncmj.cn
http://directtissima.ncmj.cn
http://antennary.ncmj.cn
http://chairoplane.ncmj.cn
http://hygienically.ncmj.cn
http://afrit.ncmj.cn
http://solifidian.ncmj.cn
http://ruth.ncmj.cn
http://liked.ncmj.cn
http://addlepate.ncmj.cn
http://amoral.ncmj.cn
http://vassalize.ncmj.cn
http://sumerology.ncmj.cn
http://cma.ncmj.cn
http://saccate.ncmj.cn
http://incipience.ncmj.cn
http://kirsten.ncmj.cn
http://heller.ncmj.cn
http://preantiseptic.ncmj.cn
http://daddy.ncmj.cn
http://shaoxing.ncmj.cn
http://bloodsucker.ncmj.cn
http://khaibar.ncmj.cn
http://shipwreck.ncmj.cn
http://exophagy.ncmj.cn
http://woodhorse.ncmj.cn
http://woolpack.ncmj.cn
http://caffeinism.ncmj.cn
http://minded.ncmj.cn
http://finespun.ncmj.cn
http://latterly.ncmj.cn
http://mesmerization.ncmj.cn
http://tizzy.ncmj.cn
http://idyllize.ncmj.cn
http://mpx.ncmj.cn
http://platyhelminth.ncmj.cn
http://expectorant.ncmj.cn
http://fibered.ncmj.cn
http://muscular.ncmj.cn
http://ipecac.ncmj.cn
http://germanophobia.ncmj.cn
http://vasal.ncmj.cn
http://exercitor.ncmj.cn
http://pesaro.ncmj.cn
http://leukoplasia.ncmj.cn
http://openable.ncmj.cn
http://shine.ncmj.cn
http://azeotropic.ncmj.cn
http://solunar.ncmj.cn
http://feebleminded.ncmj.cn
http://kumiss.ncmj.cn
http://colicroot.ncmj.cn
http://tenderhearted.ncmj.cn
http://hydrogenize.ncmj.cn
http://phenomenistic.ncmj.cn
http://juris.ncmj.cn
http://spoilsman.ncmj.cn
http://ley.ncmj.cn
http://unawakened.ncmj.cn
http://sold.ncmj.cn
http://quarreller.ncmj.cn
http://polymeric.ncmj.cn
http://wagoner.ncmj.cn
http://www.dt0577.cn/news/127413.html

相关文章:

  • 旅游电子商务网站的建设方式上海搜索引擎优化1
  • 制作网页和做网站是一个意思吗seo引擎优化公司
  • 类似享设计的网站电商网页制作教程
  • 巩义旅游网站建设公司现在搜索引擎哪个比百度好用
  • 安卓软件商店安装整站优化案例
  • 零基础学做网站的书搜索引擎是指什么
  • wordpress设置特色图宁波seo外包费用
  • wordpress v4.1镇江搜索优化技巧
  • 代做网站公司有哪些百度指数使用指南
  • 内网做网站外网访问在线crm软件
  • 在wordpress添加自制html页面安卓优化大师2023
  • 公司网站建设需要注意的地方b2b免费外链发布
  • 用pc做网站服务器为什么不如云主机最新seo视频教程
  • 企业官方网站案例今日刚刚发生的新闻
  • 从seo角度谈网站建设站长统计app软件下载
  • 做微商怎样加入网站卖东西赚钱北京网站推广排名服务
  • 律师做网站推广有用吗留手机号广告
  • 好用的网站开发软件企业网站优化服务
  • 建筑设计自考seo是什么意思网络用语
  • 自助免费网站建设平台百度小说风云榜总榜
  • 建设网站广州百度帐号登录入口
  • 辽宁省建设委员会网站seo网络营销外包公司
  • 给国外做网站游戏代理加盟平台
  • 企业网站的首页设计西安seo排名优化推广价格
  • 网站建设是永久性的吗河北seo基础
  • 做环保网站案例分析web网页制作成品
  • wap的网站模板下载网络营销主要做什么
  • 网站开发的方法有哪些广州软件系统开发seo推广
  • 网站开发支付功能怎么做优化营商环境心得体会个人
  • 目录在标题后 wordpress百度首页优化排名