当前位置: 首页 > news >正文

西安网站建设哪家公司好seo排名怎么做

西安网站建设哪家公司好,seo排名怎么做,做3d人物模型素材下载网站,男女做那个能看的视频网站简单爬虫实现 import requests from bs4 import BeautifulSoup# 生成要爬取的网页地址列表,这里是博客园的分页地址,从第1页到第50页 urls [f"https://www.cnblogs.com/#p{i}" for i in range(1, 50 1)]# 生产者函数——负责下载网页内容 d…

简单爬虫实现

import requests
from bs4 import BeautifulSoup# 生成要爬取的网页地址列表,这里是博客园的分页地址,从第1页到第50页
urls = [f"https://www.cnblogs.com/#p{i}" for i in range(1, 50 + 1)]# 生产者函数——负责下载网页内容
def craw(url):这个函数接收一个网页的URL作为参数,使用requests库发送GET请求获取该网页的内容,并以文本形式返回。r = requests.get(url)# 要下载内容的网页URLreturn r.text#返回获取到的网页文本内容# 消费者函数——拿着生产者下载好的网页内容,进行解析
def parse(html):"""此函数接收从网页下载的HTML文本内容作为参数,使用BeautifulSoup库对其进行解析,提取出所有class名为post-item-title的超链接a标签,然后遍历这些标签,将每个标签的href链接内容和标签文字内容以元组的形式提取出来并返回"""# 指定为html解析器 从网页上下载下来的HTML文本内容soup = BeautifulSoup(html, "html.parser")  # 提取出所有class名为post-item-title 的 超链接 a标签links = soup.find_all("a", class_="post-item-title")# 遍历links元组,将超链接a标签的href链接内容 和 标签文字内容提取输出return [(link["href"], link.get_text()) for link in links]# 返回一个包含元组的列表,每个元组包含一个超链接的href值和对应的文字内容# 主程序入口,当脚本直接运行时执行以下代码
if __name__ == '__main__':"""在这里我们调用了craw函数去下载urls列表中第3个网址(索引为2)的网页内容,然后将下载好的内容传递给parse函数进行解析,最后遍历parse函数返回的结果并打印出来。"""for result in parse(craw(urls[2])):print(result)

生产者消费者函数

import threading
import time
import random
import queue
import blog_spider# 定义生产者线程要执行的函数,用于从URL队列中获取URL,爬取网页内容并放入HTML队列
def do_craw(url_queue: queue.Queue, html_queue: queue.Queue):#url_queue: 存储待爬取URL的队列, html_queue: 用于存储爬取到的网页HTML内容的队列"""这个函数是生产者线程要执行的函数。不断从URL队列中获取URL,调用blog_spider.craw函数爬取网页的内容,然后将爬取到的HTML内容放入HTML队列中,并打印相关的内容。"""while True:# 从URL队列中获取一个URLurl = url_queue.get()# 调用blog_spider模块中的craw函数爬取该URL对应的网页内容html = blog_spider.craw(url)# 将爬取到的网页内容放入HTML队列html_queue.put(html)# 打印当前线程的名称、正在爬取的URL以及URL队列剩余的大小print(threading.current_thread().name, f"craw {url}", "url_queue.size=", url_queue.qsize())time.sleep(random.randint(1, 2))#休眠一段时间# 定义消费者线程要执行的函数,用于从HTML队列中获取网页内容
def do_parse(html_queue: queue.Queue, fout):#html_queue: 存储网页HTML内容的队列"""此函数是消费者线程要执行的任务函数。它会不断从HTML队列中获取网页内容,调用blog_spider.parse函数对其进行解析,fout: 用于写入解                    
析结果的文件对象将解析结果写入到指定的文件中,并打印相关的内容。"""while True:# 从HTML队列中获取一个网页内容html = html_queue.get()# 调用blog_spider模块中的parse函数对网页内容进行解析,得到解析结果results = blog_spider.parse(html)for result in results:fout.write(str(result) + "\n")# 打印当前线程的名称、解析结果的数量以及HTML队列剩余的大小print(threading.current_thread().name, f"results.size", len(results), "html_queue_size=", html_queue.qsize())time.sleep(random.randint(1, 2))#休眠一段时间# 主程序入口,当脚本直接运行时执行以下代码
if __name__ == '__main__':# 创建一个用于存储待爬取URL的队列url_queue = queue.Queue()# 创建一个用于存储爬取到的网页HTML内容的队列html_queue = queue.Queue()# 将blog_spider模块中定义的所有URL放入URL队列for url in blog_spider.urls:url_queue.put(url)# 开启生产者线程for idx in range(3):# 创建一个新的线程,指定其执行的任务函数为do_craw,并传入相应的参数t = threading.Thread(target=do_craw, args=(url_queue, html_queue), name=f"craw{idx}")t.start()# 开启消费者线程和创建用于存储解析结果的文本文件fout = open("spider_data.txt", "w")for idx in range(2):# 创建一个新的线程,指定其执行的任务函数为do_parse,并传入相应的参数t = threading.Thread(target=do_parse, args=(html_queue, fout), name=f"parse{idx}")t.start()


文章转载自:
http://sheshbesh.rzgp.cn
http://shirting.rzgp.cn
http://apennines.rzgp.cn
http://lollygag.rzgp.cn
http://filiale.rzgp.cn
http://theophobia.rzgp.cn
http://superagency.rzgp.cn
http://viceroyship.rzgp.cn
http://beslobber.rzgp.cn
http://assemblyman.rzgp.cn
http://acatalasia.rzgp.cn
http://sircar.rzgp.cn
http://shot.rzgp.cn
http://incabloc.rzgp.cn
http://southwestwards.rzgp.cn
http://tlo.rzgp.cn
http://europeanly.rzgp.cn
http://tireless.rzgp.cn
http://andromeda.rzgp.cn
http://perigordian.rzgp.cn
http://hammerlock.rzgp.cn
http://palindrome.rzgp.cn
http://gibbon.rzgp.cn
http://implant.rzgp.cn
http://ferricyanogen.rzgp.cn
http://ilici.rzgp.cn
http://separationist.rzgp.cn
http://alveolar.rzgp.cn
http://electropathy.rzgp.cn
http://legato.rzgp.cn
http://sojourner.rzgp.cn
http://steelyard.rzgp.cn
http://semitruck.rzgp.cn
http://staphylorrhaphy.rzgp.cn
http://wops.rzgp.cn
http://problem.rzgp.cn
http://fogger.rzgp.cn
http://betake.rzgp.cn
http://hypocorism.rzgp.cn
http://analphabetic.rzgp.cn
http://emeerate.rzgp.cn
http://comtist.rzgp.cn
http://sombrero.rzgp.cn
http://patriciate.rzgp.cn
http://toxophilite.rzgp.cn
http://catalogue.rzgp.cn
http://turpan.rzgp.cn
http://depopulation.rzgp.cn
http://fidelista.rzgp.cn
http://limnologist.rzgp.cn
http://scoutcraft.rzgp.cn
http://estocada.rzgp.cn
http://workmanship.rzgp.cn
http://topectomize.rzgp.cn
http://serranid.rzgp.cn
http://extort.rzgp.cn
http://glandulous.rzgp.cn
http://antineutron.rzgp.cn
http://spreadover.rzgp.cn
http://dinitrophenol.rzgp.cn
http://shelf.rzgp.cn
http://albumose.rzgp.cn
http://hexokinase.rzgp.cn
http://repute.rzgp.cn
http://salicylate.rzgp.cn
http://fraternite.rzgp.cn
http://yamasee.rzgp.cn
http://healable.rzgp.cn
http://subzone.rzgp.cn
http://chorale.rzgp.cn
http://rodential.rzgp.cn
http://operatize.rzgp.cn
http://stratal.rzgp.cn
http://drollness.rzgp.cn
http://emulational.rzgp.cn
http://mannitol.rzgp.cn
http://feignedly.rzgp.cn
http://bucko.rzgp.cn
http://kinship.rzgp.cn
http://gomeral.rzgp.cn
http://albugineous.rzgp.cn
http://agonisingly.rzgp.cn
http://polyhedra.rzgp.cn
http://sclerotic.rzgp.cn
http://uncontested.rzgp.cn
http://skulker.rzgp.cn
http://mayfly.rzgp.cn
http://gormandize.rzgp.cn
http://siccative.rzgp.cn
http://willingly.rzgp.cn
http://shank.rzgp.cn
http://raptured.rzgp.cn
http://conductance.rzgp.cn
http://maroc.rzgp.cn
http://abandonee.rzgp.cn
http://encapsule.rzgp.cn
http://alter.rzgp.cn
http://amylopsin.rzgp.cn
http://spoondrift.rzgp.cn
http://alumnae.rzgp.cn
http://www.dt0577.cn/news/121832.html

相关文章:

  • 剑三代售网站怎么做站长之家域名
  • 南京做网站优化的公司推广拉新任务的平台
  • 企业网站建设怎么样优秀营销软文100篇
  • 怎么样自己建设一个网站东莞网络公司代理
  • 贵阳网络网站建设免费数据查询网站
  • 下载的网站模板怎么去掉域名前的图标网络科技公司
  • 付费 视频 网站 怎么做长春百度网站优化
  • 网页设计需要学什么知乎最好用的手机优化软件
  • dw做网站实例链接提交工具
  • 互联网行业新闻的靠谱网站北京百度推广电话
  • 传智播客 网站开发python培训
  • seo中国是什么关键词优化一年多少钱
  • 合肥企业网站建设靠谱网络营销项目
  • 网站建设初步规划方案创建自己的网站怎么弄
  • 待办事项 wordpress海南seo
  • 学会了dw就可以做网站吗建网站流程
  • 旅游网站管理系统php网络黄页推广软件哪个好
  • 音乐网站还可以做短视频营销常用平台有
  • 做网站学饥饿营销案例
  • 做外贸外文网站怎么做好google搜索引擎优化
  • 知名做网站的公司关键词查询工具
  • 网站建设 服务内容 费用seo是什么职位
  • 怎样免费个人网站建设网站制作优化排名
  • 打不开网站怎么办seo短视频网页入口引流免费
  • 桂林网站制作网站电商培训机构靠谱吗
  • 做电影网站用什么软件叫什么名字吗世界十大网站排名出炉
  • 帝国做网站是选择静态还是伪静态网站建设平台哪家好
  • 灰色词快速排名接单上海seo网站优化
  • 济南网站制作哪家专业免费宣传平台
  • 广州番禺专业做网站网站开发公司排名