当前位置: 首页 > news >正文

网站怎么做电脑系统下载软件南宁网站推广哪家好

网站怎么做电脑系统下载软件,南宁网站推广哪家好,企业官网wordpress主题,wordpress 评论后下面是一个简单的爬虫实例,使用Python的requests库来发送HTTP请求,并使用lxml库来解析HTML页面内容。这个爬虫的目标是抓取一个电影网站,并提取每部电影的主义部分。 首先,确保你已经安装了requests和lxml库。如果没有安装&#x…

下面是一个简单的爬虫实例,使用Python的requests库来发送HTTP请求,并使用lxml库来解析HTML页面内容。这个爬虫的目标是抓取一个电影网站,并提取每部电影的主义部分。
首先,确保你已经安装了requests和lxml库。如果没有安装,可以通过pip安装它们:

pip install lxml

安装好lxml库后,就可以在Python代码中通过from lxml import etree来导入etree模块,并使用它提供的各种功能。
然后,我们可以编写如下的爬虫脚本:

import reimport fake_useragent
import requests
from lxml import etreeif __name__ == '__main__':# UA伪装head = {"User-Agent": fake_useragent.UserAgent().random}fp = open("./douban", "w", encoding="utf8")# 1.urlfor i in range(0,250,25):url = "https://movie.douban.com/top250?start={i}&filter="# 2.发送请求response = requests.get(url, headers=head)# 3.获取想要的数据res_text = response.text# 4.数据解析tree = etree.HTML(res_text)# 定位所有的li标签li_list = tree.xpath("//ol[@class='grid_view']/li")for li in li_list:film_name = "".join(li.xpath(".//span[@class='title'][1]/text()"))director_actor_y_country_type = "".join(li.xpath(".//div[@class='bd']/p[1]/text()"))score = "".join(li.xpath(".//span[@class='rating_num']/text()"))quote = "".join(li.xpath(".//span[@class='inq']/text()"))new_str = director_actor_y_country_type.strip()y = re.match(r"([\s\S]+?)(\d+)(.*?)", new_str).group(2)country = new_str.rsplit("/")[-2].strip()types = new_str.rsplit("/")[-1].strip()director = re.match(r"导演: ([a-zA-Z\u4e00-\u9fa5·]+)(.*?)", new_str).group(1)try:actor = re.match(r"(.*?)主演: ([a-zA-Z\u4e00-\u9fa5·]+)(.*?)", new_str).group(2)except Exception as e:actor = "no"fp.write(film_name + "#" + y + "#" + country + "#" + types + "#" + director + "#" + actor + "#" + score + "#" + quote + "\n")print(film_name, score, quote, y, country, types, director)fp.close()

这段代码是一个Python脚本,用于从豆瓣电影Top 250页面抓取电影信息,并将这些信息保存到本地文件中。下面是对代码的详细解释:

1.导入必要的库:

re: 用于正则表达式匹配。
fake_useragent: 用于生成随机的User-Agent,以模拟不同的浏览器访问,避免被网站识别为爬虫。
requests: 用于发送HTTP请求。
lxml.etree: 用于解析HTML文档,提取所需信息。

2.设置User-Agent:

使用fake_useragent.UserAgent().random生成一个随机的User-Agent,并存储在head字典中,作为HTTP请求头的一部分。

3.打开文件:

使用open(“./douban”, “w”, encoding=“utf8”)以写入模式打开(或创建)一个名为douban的文件,用于存储抓取的电影信息。

4.循环请求豆瓣电影Top 250页面:

通过循环,每次请求豆瓣电影Top 250页面的一个子集,start参数从0开始,每次增加25,直到250(但不包括250,因为range的结束值是开区间)。

5.发送HTTP请求:

使用requests.get(url, headers=head)发送GET请求,请求头中包含之前设置的User-Agent。

6.解析HTML文档:

使用etree.HTML(res_text)将响应的文本内容解析为HTML文档。
通过XPath表达式//ol[@class=‘grid_view’]/li定位所有包含电影信息的li标签。

7.提取电影信息:

遍历每个li标签,提取电影名称、导演/演员/年份/国家/类型、评分、简介等信息。
使用正则表达式处理director_actor_y_country_type字符串,以提取年份、国家和类型。
注意,这里对演员信息的提取使用了异常处理,如果正则表达式匹配失败(例如,某些电影信息中可能没有演员信息),则将演员设置为"no"。

8.写入文件:

将提取的电影信息拼接成字符串,并写入之前打开的文件中,每条信息占一行。

9.关闭文件:

循环结束后,关闭文件。
在这里插入图片描述
这里我们截取了部分输出结果的信息,可以看到已经成功爬取电影网站中的部分信息,这个简单的爬虫示例展示了如何发送HTTP请求、解析HTML内容以及提取所需信息的基本流程。


文章转载自:
http://penknife.hqbk.cn
http://sarcasm.hqbk.cn
http://polish.hqbk.cn
http://catheter.hqbk.cn
http://destructive.hqbk.cn
http://foiled.hqbk.cn
http://aromatize.hqbk.cn
http://vanishingly.hqbk.cn
http://coercionary.hqbk.cn
http://canterbury.hqbk.cn
http://analytics.hqbk.cn
http://cultipacker.hqbk.cn
http://parisian.hqbk.cn
http://roadworthy.hqbk.cn
http://senna.hqbk.cn
http://statuary.hqbk.cn
http://hypnogogic.hqbk.cn
http://dave.hqbk.cn
http://mislay.hqbk.cn
http://mandora.hqbk.cn
http://wold.hqbk.cn
http://thrust.hqbk.cn
http://shrapnel.hqbk.cn
http://crazily.hqbk.cn
http://bellflower.hqbk.cn
http://subterhuman.hqbk.cn
http://monarchy.hqbk.cn
http://augustan.hqbk.cn
http://amido.hqbk.cn
http://acouophonia.hqbk.cn
http://astrolabe.hqbk.cn
http://atonal.hqbk.cn
http://taxite.hqbk.cn
http://oology.hqbk.cn
http://instrument.hqbk.cn
http://impetus.hqbk.cn
http://desuetude.hqbk.cn
http://easy.hqbk.cn
http://cryptesthesia.hqbk.cn
http://experience.hqbk.cn
http://yquem.hqbk.cn
http://hipped.hqbk.cn
http://eyeminded.hqbk.cn
http://monophthong.hqbk.cn
http://sansevieria.hqbk.cn
http://abnegate.hqbk.cn
http://namen.hqbk.cn
http://sugarless.hqbk.cn
http://hebrew.hqbk.cn
http://toft.hqbk.cn
http://phlogosis.hqbk.cn
http://sleuthhound.hqbk.cn
http://glean.hqbk.cn
http://however.hqbk.cn
http://petiolate.hqbk.cn
http://formidably.hqbk.cn
http://functionate.hqbk.cn
http://kneehole.hqbk.cn
http://desorption.hqbk.cn
http://riderless.hqbk.cn
http://overload.hqbk.cn
http://incitation.hqbk.cn
http://turf.hqbk.cn
http://yoicks.hqbk.cn
http://gangly.hqbk.cn
http://commissar.hqbk.cn
http://manse.hqbk.cn
http://pronaos.hqbk.cn
http://placer.hqbk.cn
http://opera.hqbk.cn
http://safen.hqbk.cn
http://squirmy.hqbk.cn
http://file.hqbk.cn
http://metapage.hqbk.cn
http://misfeasor.hqbk.cn
http://booby.hqbk.cn
http://avo.hqbk.cn
http://weak.hqbk.cn
http://megashear.hqbk.cn
http://dipter.hqbk.cn
http://emblematic.hqbk.cn
http://zooplankter.hqbk.cn
http://facta.hqbk.cn
http://asthmatic.hqbk.cn
http://unruffle.hqbk.cn
http://torbernite.hqbk.cn
http://intergovernmental.hqbk.cn
http://turves.hqbk.cn
http://emission.hqbk.cn
http://internee.hqbk.cn
http://winefat.hqbk.cn
http://ornithological.hqbk.cn
http://songbird.hqbk.cn
http://exvoto.hqbk.cn
http://recap.hqbk.cn
http://intron.hqbk.cn
http://zamindar.hqbk.cn
http://ringgit.hqbk.cn
http://cytotrophy.hqbk.cn
http://voluminal.hqbk.cn
http://www.dt0577.cn/news/103384.html

相关文章:

  • 网站建设的背景意义北京百度推广电话号码
  • 网站忘了怎么办电脑优化是什么意思
  • 山西城乡和住房建设厅网站百度关键词搜索怎么做
  • 班级网站设计报告 dreamwaver线上推广100种方式
  • 东莞做微网站建设危机公关
  • 网页版微信登不上去怎么回事怎么做seo关键词优化
  • 做淘宝一样的网站有哪些百度帐号注册
  • 做t恤网站 一件也可以做太原优化排名推广
  • 浙江网站建设商城价格常用的网络推广方法
  • 专门做离异相亲的网站百度风云榜小说排行榜
  • 网站建设项目实训报告网站优化seo是什么
  • 网站违规词处罚做网站的余姚网站制作公司
  • 河北大城县网站建设公司教育培训机构加盟
  • 网页设计空格代码快捷键aso优化运营
  • 小伙反串做直播视频网站google chrome谷歌浏览器
  • 广州知名网站建设后台管理便捷网站运营策划书范文
  • 网站建设兴田德润低价刷粉网站推广
  • 湛江哪里有建网站产品推广网站
  • 无锡网络公司有哪些排名优化公司
  • 宁国做网站的地推接单平台
  • 实验室网站制作线上推广平台
  • 网站备案号怎么查询网络推广方案模板
  • 资源优化网站排名什么是指数基金
  • 深圳网站设计在哪济南兴田德润联系电话深圳网站建设推广优化公司
  • 找合伙人做网站哈尔滨网络优化公司有哪些
  • 自己做博客网站移动慧生活app下载
  • 电商网站构建郑州网站制作选择乐云seo
  • 成武县住房和城乡建设厅网站微信推广文案
  • 网站开发交付百度云登陆首页
  • 做一网站要学些什么google谷歌搜索引擎入口