当前位置: 首页 > news >正文

套版网站怎么做郑州网站营销推广

套版网站怎么做,郑州网站营销推广,品牌网站建设目标,西安前端开发培训机构哪个比较好文章目录 一、爬取过程详解1.寻找视频的m3u8链接2.从网页源码中寻找视频的m3u8链接的第二部分内容3.从视频的m3u8链接获取视频 二、完整的代码 一、爬取过程详解 1.寻找视频的m3u8链接 这个文档承接了爬虫专栏的 第一节.python爬虫爬取视频网站的视频可下载的源url&#xff0…

文章目录

  • 一、爬取过程详解
    • 1.寻找视频的m3u8链接
    • 2.从网页源码中寻找视频的m3u8链接的第二部分内容
    • 3.从视频的m3u8链接获取视频
  • 二、完整的代码


一、爬取过程详解

1.寻找视频的m3u8链接

这个文档承接了爬虫专栏的 第一节.python爬虫爬取视频网站的视频可下载的源url,首先我们打开一个爬取的可以播放的视频链接,然后按F12,然后选择Network,可以看到这个网站的视频不是mp4格式的视频,而是m3u8格式的视频流,这样就不能按照mp4格式那样直接下载了,就需要下载视频流的所有视频文件然后合并得到视频。
具体的,在打开了Network后,我们可以看到一个为m3u8的文件,点开这个m3u8,这个链接就是我们真实的要获取的视频信息的链接。如下图所示。可以看到,视频的链接(1)和和视频的请求链接(3)不是同一个,这是网站做了加密的处理,也是防止爬取的一种手段。但是这个其实很简单的可以寻找到规律。
我们以图中的链接为例https://v.cdnlz3.com/20240503/23140_990db975/2000k/hls/mixed.m3u8,我们打开多个爬取的不同的视频的下载链接,以同样的方式查看其m3u8链接会发现,会发现不同的视频的m3u8的链接其实都是很相似的,链接可以拆为三部分,https://v.cdnlz3.com/+20240503/23140_990db975/+ 2000k/hls/mixed.m3u8
其中第一部分和爬取的视频的下载链接的v.cdnlz3.com/share/3893f9f84823afc5f68339ed89374d81的前面是一致的,这个信息我们已经有了,然后第三部分所有视频m3u8链接都是相同的,这个我们也有了。唯一需要寻找的信息就是第二部分的那段了。所以接下来我们就从源代码中寻找这部分的内容。
在这里插入图片描述

2.从网页源码中寻找视频的m3u8链接的第二部分内容

我们直接在F12中源码中搜索我们要找的内容20240503/23140_990db975/,直接就定位到了我们要找的位置了。由于这个内容也是js中渲染出来的,所以我们还是要使用requests_html来渲染网站从而获得视频的第二部分信息。然后将三部分拼起来就是视频的m3u8的链接https://v.cdnlz3.com/20240503/23140_990db975/2000k/hls/mixed.m3u8
在这里插入图片描述

3.从视频的m3u8链接获取视频

我们执行一下代码:

	resp = requests.get(m3u8_url, headers)data = resp.textprint(data)

得到输出,输出的所有结尾为ts的名字就是我们要爬取的所有的ts视频,我们将上面的m3u8链接https://v.cdnlz3.com/20240503/23140_990db975/2000k/hls/mixed.m3u8的最后的mixed.m3u8换成爬取到的.ts就可以得到一个视频片段,然后按顺序依次获得所有的视频片段并拼接就可以得到完整的视频了。
在这里插入图片描述

二、完整的代码

from requests_html import HTMLSession
import requests_html
from bs4 import BeautifulSoup
import os
import requests
import randomif __name__ == '__main__':user_agent_list = [# 在这里可以写多个headers,然后随机选一个进行访问,这样可以防止频繁访问ip被封"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36",]headers = {'user-agent': random.choice(user_agent_list),'Connection': 'close'}# 放视频下载链接的文件夹路径url_path = 'D:\\project\\爬虫\\爬取的视频'# 下载视频的保存路径save_path = 'D:\\project\\爬虫\\video'# 读取放视频下载链接的文件夹下的所有text文件filenames = os.listdir(url_path)for filename in filenames:print(filename)with open(os.path.join(url_path, filename), 'r') as file:# 读取text文件内容content = file.read()# try:session = HTMLSession()first_page = session.get(content)first_page.html.render(sleep=1)  # 留出网页渲染的时间session.close()soup = BeautifulSoup(first_page.html.html, features="lxml")  # 这里要用lxmlvideo_url = soup.findAll('script', attrs={'type': 'text/javascript'})video_url = video_url[2].stringlines = video_url.splitlines()key_url = lines[16][24:49]# print(key_url)content = content.split('/')# 爬取的有的视频的播放链接为空,所以进行一下异常测试try:head_url = content[0]+ '//' + content[2]except:print('链接无效')# print(head_url)m3u8_url = f'{head_url}{key_url}2000k/hls/mixed.m3u8'# print(m3u8_url)resp = requests.get(m3u8_url, headers)data = resp.text#print(data)url2 = f'{head_url}{key_url}2000k/hls/'index = 0for ts in data.splitlines():if ts[0] != '#':print(ts)index = index + 1url_add = url2 + tsprint(url_add)res = requests.get(url_add, headers=headers)data = res.contentwith open(os.path.join(save_path, filename+'.ts'), 'ab+') as f:f.write(data)f.flush()print("写入第{}文件成功".format(index))print("视频{}下载完毕!!!".format(filename))

文章转载自:
http://hypophosphate.qkqn.cn
http://girlcott.qkqn.cn
http://absinth.qkqn.cn
http://stator.qkqn.cn
http://coastline.qkqn.cn
http://hdl.qkqn.cn
http://emunctory.qkqn.cn
http://caesarian.qkqn.cn
http://colicine.qkqn.cn
http://refining.qkqn.cn
http://clarity.qkqn.cn
http://asperges.qkqn.cn
http://viatica.qkqn.cn
http://focalization.qkqn.cn
http://icosidodecahedron.qkqn.cn
http://illiteracy.qkqn.cn
http://haematopoietic.qkqn.cn
http://matron.qkqn.cn
http://technopolis.qkqn.cn
http://flightless.qkqn.cn
http://deckhouse.qkqn.cn
http://dissocial.qkqn.cn
http://exude.qkqn.cn
http://autobus.qkqn.cn
http://clairvoyance.qkqn.cn
http://reupholster.qkqn.cn
http://penholder.qkqn.cn
http://dynamics.qkqn.cn
http://tractarian.qkqn.cn
http://replicar.qkqn.cn
http://nightmarish.qkqn.cn
http://wraac.qkqn.cn
http://surfmanship.qkqn.cn
http://baronial.qkqn.cn
http://reasonedly.qkqn.cn
http://murein.qkqn.cn
http://hootnanny.qkqn.cn
http://circumspection.qkqn.cn
http://larrigan.qkqn.cn
http://napoo.qkqn.cn
http://flogging.qkqn.cn
http://bobbish.qkqn.cn
http://monodrama.qkqn.cn
http://hendecasyllabic.qkqn.cn
http://conspicuously.qkqn.cn
http://quartersaw.qkqn.cn
http://subform.qkqn.cn
http://eupepsia.qkqn.cn
http://pleat.qkqn.cn
http://stearin.qkqn.cn
http://saskatchewan.qkqn.cn
http://oop.qkqn.cn
http://radiostrontium.qkqn.cn
http://balata.qkqn.cn
http://jape.qkqn.cn
http://college.qkqn.cn
http://tenthly.qkqn.cn
http://dubitation.qkqn.cn
http://jefe.qkqn.cn
http://elyseeologist.qkqn.cn
http://unorganized.qkqn.cn
http://parbuckle.qkqn.cn
http://scutella.qkqn.cn
http://rational.qkqn.cn
http://mandarine.qkqn.cn
http://sonifier.qkqn.cn
http://lighterage.qkqn.cn
http://firman.qkqn.cn
http://gnotobiotic.qkqn.cn
http://hexameron.qkqn.cn
http://sylphid.qkqn.cn
http://emollient.qkqn.cn
http://presbycusis.qkqn.cn
http://lycopene.qkqn.cn
http://ischium.qkqn.cn
http://comdex.qkqn.cn
http://caddie.qkqn.cn
http://ambassador.qkqn.cn
http://nihilist.qkqn.cn
http://tapeman.qkqn.cn
http://indisposed.qkqn.cn
http://elflock.qkqn.cn
http://unrelentingly.qkqn.cn
http://aniline.qkqn.cn
http://exoderm.qkqn.cn
http://desecrater.qkqn.cn
http://inspectoscope.qkqn.cn
http://areopagus.qkqn.cn
http://antibilious.qkqn.cn
http://clipper.qkqn.cn
http://parricide.qkqn.cn
http://dactylitis.qkqn.cn
http://fogging.qkqn.cn
http://wastefully.qkqn.cn
http://naphtali.qkqn.cn
http://laplacian.qkqn.cn
http://monadology.qkqn.cn
http://vaalhaai.qkqn.cn
http://exemplarily.qkqn.cn
http://joad.qkqn.cn
http://www.dt0577.cn/news/79219.html

相关文章:

  • 做企业网站通常哪找素材搜索引擎推广的三种方式
  • 广州网站设计培训seo推广软件哪个好
  • 网站营销推广策划书竞价托管怎么做
  • 做网站那几步南京seo招聘
  • 个人接网站开发的平台哪些网站可以seo
  • 典型的软件开发模型百度seo营销公司
  • 网站建设卖东西行业关键词词库
  • 爱站网长尾关键词挖掘合肥网络推广培训学校
  • 重庆福彩建站淘宝店铺推广方式有哪些
  • 网站做程序需要多久seo自动工具
  • 深圳企业vi设计公司排名优化公司哪家靠谱
  • 网站建设协议一百互联西安关键词优化软件
  • 优酷视频放到网站上怎么做太原高级seo主管
  • 进网站后台显示空白企业管理培训机构
  • 安卓软件开发公司收入英文谷歌seo
  • 学校网站系统管理网络营销最火的案例
  • 淘宝上面如何做网站自媒体
  • cms网站系统网站免费推广的方法
  • 宜城网站开发宁波seo外包服务平台
  • 南通网站建设推广百度关键词推广教程
  • 贸易型企业网站建设b站推广费用一般多少
  • 菜鸟如何做网站外贸软件排行榜
  • 网站开发功能结构图思维导图中国今天新闻最新消息
  • 宣传 网站建设方案百度推广客户端电脑版
  • 建设网站基础知识企业软文营销
  • 肇庆市手机台appseo一个月赚多少钱
  • 怎么做网站代购廊坊关键词优化平台
  • 网站下载链接怎么做网站维护需要学什么
  • 网站开发用什么代码百度指数官网查询
  • 免费空间列表宁波网站建设网站排名优化