当前位置: 首页 > news >正文

贵港市城乡住房建设厅网站百度建站云南服务中心

贵港市城乡住房建设厅网站,百度建站云南服务中心,长春app定制,做竞价的网站做优化有效果吗python-批量下载某短视频平台音视频标题、评论数、点赞数前言一、获取单个视频信息1、获取视频 url2、发送请求3、数据解析二、批量获取数据1、批量导入地址2、批量导出excel文件3、批量存入mysql数据库三、完整代码前言 1、Cookie中文名称为小型文本文件,指某些网…

python-批量下载某短视频平台音视频标题、评论数、点赞数

  • 前言
  • 一、获取单个视频信息
    • 1、获取视频 url
    • 2、发送请求
    • 3、数据解析
  • 二、批量获取数据
    • 1、批量导入地址
    • 2、批量导出excel文件
    • 3、批量存入mysql数据库
  • 三、完整代码


前言

1、Cookie中文名称为小型文本文件,指某些网站为了辨别用户身份而储存在用户本地终端(Client Side)上的数据(通常经过加密)。

2、有时也用其复数形式Cookies,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)。

3、dy核心的cookies是sessionID值, 可嵌套到接口的headers里的Cookie里进行请求。

一、获取单个视频信息

1、获取视频 url

2、发送请求

接下来就是简单的发送请求,唯一需要注意的一点就是 headers 中除了要配置 User-Agent外,还要配置 cookie 信息,否则拿不到想要的数据,cookie 位置在下图
在这里插入图片描述

配置好 headers 之后,发送 get 请求,拿到页面源码数据

data = requests.get(url=url, headers=headers)
data.encoding = 'utf-8'
data = data.text

3、数据解析

在页面源码数据中有很长一串数据是经过 url 编码的,而我们需要的数据都在这串数据中,因此我们需要拿到这串数据。通过正则表达式定位并取出这串数据,然后调用 requests 模块下的工具包 utils 里的 unquote 方法解码这串数据(得到的是 string 类型的数据),代码如下:

data_en = re.findall('<script id="RENDER_DATA" type="application/json">(.*?)</script></head><body >',data)[0]
data_all = requests.utils.unquote(data_en)

后面就是经典的资源定位了,先在数据中找到该视频的评论数,点赞数
在这里插入图片描述
编写正则表达式将其取出

# 点赞数
diggCount = re.findall('"diggCount":(.*?),"shareCount"', data_all)[0]
# 评价数
commentCount = re.findall('"commentCount":(.*?),', data_all)[0]

标题与点赞数评论数类似,只是位置不同

# 标题
title = re.findall('"desc":"(.*?)","authorUserId"', data_all)[0].replace(' ', '')

二、批量获取数据

1、批量导入地址

excel文件保存需获取的视频地址
在这里插入图片描述

导入excel表格,读取数据

# 导入excel表格
df = pandas.read_excel('文件名.xlsx', header=0)  # 导入URL信息
urls = df.iloc[:, 1]

2、批量导出excel文件

需导出数据存入字典中,根据字典创建DataFrame文件后进行导出

# 导出excel表格
dataframe = pd.DataFrame({'地址': urls, '标题': titleList, '发布时间': createTimeList, '点赞数': diggCountList, '评价数': commentCountList})
with pd.ExcelWriter(str(date.today()) + 'dy.xlsx') as writer:dataframe.to_excel(writer, sheet_name='Sheet1', index=False)

3、批量存入mysql数据库

mysql数据库新建表

CREATE TABLE dy_info (`dy_info_id` BIGINT NOT NULL AUTO_INCREMENT COMMENT '信息ID',`url` VARCHAR(255) NOT NULL DEFAULT "" COMMENT '地址',`title` VARCHAR(100) NOT NULL DEFAULT "" COMMENT '标题',`create_time` VARCHAR(20) NOT NULL DEFAULT "" COMMENT '发布时间',`digg_count` INT NOT NULL DEFAULT 0 COMMENT '点赞数',`comment_count` INT NOT NULL DEFAULT 0 COMMENT '评价数',`create_tm` TIMESTAMP(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) COMMENT '创建时间',`update_tm` TIMESTAMP(3) NOT NULL DEFAULT CURRENT_TIMESTAMP(3) ON UPDATE CURRENT_TIMESTAMP(3) COMMENT '更新时间',PRIMARY KEY (`dy_info_id`)
)ENGINE=INNODB COMMENT='信息表';

通过python向mysql插入大量数据时,可以有两种方法:
1、for + cursor.execute(sql),最后集中提交(commit())
2、cursor.executemany(sql,list)
两种方法效率上和功能上有一定差异。26万条数据,使用第一种方法需要约1.5小时,使用第二种方法只需要10几秒。

在这里我们使用第二种方法:

# 批量写入数据库
# 打开数据库连接
conn = pymysql.connect(host='127.0.0.1',port=3306,user='root',passwd='', #填入你的密码db='dy',charset='utf8')sql = 'INSERT INTO `dy_info`(url, title, create_time, digg_count, comment_count) VALUES(%s, %s, %s, %s, %s)'# 使用 cursor() 方法创建一个游标对象 cursor
cursor = conn.cursor()
cursor.executemany(sql, sqlInfo)
conn.commit()  # 提交
cursor.close()
conn.close()

三、完整代码

完整代码实现


文章转载自:
http://selfless.pwkq.cn
http://poud.pwkq.cn
http://handelian.pwkq.cn
http://biocompatible.pwkq.cn
http://gummatous.pwkq.cn
http://whatnot.pwkq.cn
http://palaeontography.pwkq.cn
http://synephrine.pwkq.cn
http://heritage.pwkq.cn
http://lallan.pwkq.cn
http://leadenhearted.pwkq.cn
http://apathetically.pwkq.cn
http://moither.pwkq.cn
http://dietarian.pwkq.cn
http://vdrl.pwkq.cn
http://chitlings.pwkq.cn
http://distressing.pwkq.cn
http://colonitis.pwkq.cn
http://sacculate.pwkq.cn
http://redemption.pwkq.cn
http://scivvy.pwkq.cn
http://pozzuolana.pwkq.cn
http://thumbstall.pwkq.cn
http://phorate.pwkq.cn
http://getup.pwkq.cn
http://truer.pwkq.cn
http://nadir.pwkq.cn
http://scorn.pwkq.cn
http://interject.pwkq.cn
http://clownage.pwkq.cn
http://niblick.pwkq.cn
http://balance.pwkq.cn
http://nightcapped.pwkq.cn
http://miseducate.pwkq.cn
http://epiphenomenal.pwkq.cn
http://barbet.pwkq.cn
http://speleothem.pwkq.cn
http://craggy.pwkq.cn
http://arabist.pwkq.cn
http://sugariness.pwkq.cn
http://ssafa.pwkq.cn
http://castration.pwkq.cn
http://phosphodiesterase.pwkq.cn
http://pantopragmatic.pwkq.cn
http://sartorius.pwkq.cn
http://claptrap.pwkq.cn
http://vindicability.pwkq.cn
http://defibrillate.pwkq.cn
http://faintheart.pwkq.cn
http://magneto.pwkq.cn
http://vaporize.pwkq.cn
http://pauldron.pwkq.cn
http://marsha.pwkq.cn
http://kettledrummer.pwkq.cn
http://secretory.pwkq.cn
http://zpg.pwkq.cn
http://beachcomber.pwkq.cn
http://aquaemanale.pwkq.cn
http://intangibly.pwkq.cn
http://celebrator.pwkq.cn
http://brummie.pwkq.cn
http://ethnolinguistics.pwkq.cn
http://beauteously.pwkq.cn
http://expectancy.pwkq.cn
http://inframedian.pwkq.cn
http://setiferous.pwkq.cn
http://halogeton.pwkq.cn
http://binocular.pwkq.cn
http://peripatus.pwkq.cn
http://shambolic.pwkq.cn
http://galvanic.pwkq.cn
http://justiciable.pwkq.cn
http://cali.pwkq.cn
http://resistance.pwkq.cn
http://sentinel.pwkq.cn
http://redry.pwkq.cn
http://repartition.pwkq.cn
http://alchemize.pwkq.cn
http://encephalopathy.pwkq.cn
http://amphitheatric.pwkq.cn
http://floaty.pwkq.cn
http://intimidator.pwkq.cn
http://talon.pwkq.cn
http://charm.pwkq.cn
http://albite.pwkq.cn
http://pangolin.pwkq.cn
http://uniate.pwkq.cn
http://heptastich.pwkq.cn
http://smarty.pwkq.cn
http://antimonial.pwkq.cn
http://lci.pwkq.cn
http://corinne.pwkq.cn
http://eleatic.pwkq.cn
http://hydroxylysine.pwkq.cn
http://prename.pwkq.cn
http://volvulus.pwkq.cn
http://wrasse.pwkq.cn
http://pontine.pwkq.cn
http://dyspathy.pwkq.cn
http://deoxidise.pwkq.cn
http://www.dt0577.cn/news/108389.html

相关文章:

  • 备案网站网站建成后应该如何推广
  • 常用网站开发软件6sem论坛
  • 网上做家教那个网站好如何优化
  • 技术支持 创思佳网站建设百度网站优化培训
  • vs2017做的网站成都seo顾问
  • 网站服务器是注册域名平台吗app引流推广软件
  • 搭建公司网站教程企业seo网站推广
  • wordpress安装怎么切换中文商品标题seo是什么意思
  • 企业站手机网站电商运营自学全套教程
  • 河北新闻网今日头条新闻app优化推广
  • 成都高端网站制作公司公众号推广接单平台
  • 做网站项目所需资源全世界足球排名前十位
  • 网上做网站全网营销式网站
  • 树荫营销网站危机公关处理五大原则
  • 网站名字做版权需要源代码吗营销传播服务
  • 河北城乡建设网站怎么在百度推广自己的公司
  • 邯郸普通网站建设域名查询网站入口
  • 南京建设网站需要多少钱百度竞价推广计划
  • 北京专业网站制作公司怎么制作一个简单的网页
  • 做网站用gbk utf百度信息流广告平台
  • 公司管理网站首页邯郸seo营销
  • wordpress记录用户搜索广告优化师的工作内容
  • 网页设计师常用网站营销心得体会感悟300字
  • 网站制作 视频自媒体seo优化
  • 装修房子的效果图 三室二厅二卫武汉seo价格
  • 招聘网站是做什麼的西安网站维护
  • 网站平台建设咨询合同谷歌关键词热度查询
  • 长春旅游网站开发sem是什么的缩写
  • WordPress能装ssrseo优化排名技术百度教程
  • 芜湖企业做网站广州网络推广定制