Python爬虫爬取腾讯视频动漫专区的动漫及其描述

<>闲来无事爬点动漫资讯看看

下面这个是腾讯视频动漫板块的超链接
[https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1
<https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1>]

上面的红框中第一个是动漫的标题,第二个是动漫的咨询简单描述

<>如何用Python爬取上述信息

首先要用浏览器的开发者工具查到相应的信息实在那几个html文件中

上面的红框中就是对应的标签,但我们用正则表达式取标签的时候应该尽量取它的上一层标签(因为如果单单取名字标签,很难把对应的描述最后对应起来)

<>之后就开始代码的编写了
# -*- coding: utf-8 -*- # @Time : 2019/3/25 17:26 # @Author : # @Email : #
@File : .py # @Software: PyCharm import urllib.request import re from lxml
import etree def cartoonCrawler(url): headers = { "User-Agnet": "Mozilla/5.0
(Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko)
Chrome/57.0.2987.98 Safari/537.36 LBBROWSER" } req =
urllib.request.Request(url, headers = headers) response =
urllib.request.urlopen(req) HTML = response.read().decode("utf-8") # re.S匹配换行符
cartoon1 = re.compile(r'<div class="figure_detail
figure_detail_two_row">(.+?)</div>',re.S).findall(HTML) # print(cartoon1)
dictCartoon = {} for i in cartoon1: # 将字符串转化为文本形式 i=etree.HTML(i) #
关于xpath的详见https://blog.csdn.net/it_arookie/article/details/82825448 name =
i.xpath("//a[@class='figure_title figure_title_two_row bold']/@title") title =
i.xpath("//div[@class='figure_desc']/@title") # 将匹配的不同标签的字典用字典的形式来组合成键值对
dictCartoon[name[0]]=title[0] return dictCartoon url =
"https://v.qq.com/channel/cartoon?listpage=1&channel=cartoon&iarea=1" info =
cartoonCrawler(url) print(info) for k,v in info.items(): print("标题:",k," 描述:"+v)
<>结果,最后还可以通过动态请求继续获取的请求 ,这个下次再说
{'斗罗大陆': '此生不悔入唐门', '狐妖小红娘': '鞘笛不离 至死不渝', '武动乾坤': '武之极,破苍穹,动乾坤', '灵剑尊':
'落魄少主闯荡大陆,天地三界,我为至尊!', '雄兵连之诸天降临': '抗击外星入侵', '万界神主': '陨落古神,遨游苍蓝', '雪鹰领主': '超凡守护
热“雪”来袭', '魔道祖师': '仙门少年为民除害斩邪祟', '通灵妃': '年度鬼畜爱情大戏', '画江湖之不良人 第3季': '王者弈天下
大唐生死局', '猫妖的诱惑 正式版': '自古爱恨两难,当然是插他两刀', '巨兵长城传 第1季': '一场关乎世界安危的冒险', '狠西游 第2季':
'18年12月 绝境重生!', '地灵曲': '3D动画版鬼吹灯', '斗破苍穹 第2季': '萧炎归来 风云再起', '全职高手':
'十年热血书写电竞辉煌', '武庚纪 第2季': '商朝王子武庚逆袭记', '妖神记之影妖篇': '聂离融合妖灵迅速成长', '一人之下 第2季':
'风起云涌罗天大醮', '斗罗大陆2 绝世唐门 动态漫画': '唐三之后,斗罗大陆新星降临。', '非人哉': '神仙妖怪的爆笑日常', '星辰变 第1季':
'少年逆天改命成王', '超神学院之雄兵连': '世纪大战一触即发', '天行九歌': '超高颜值的权谋史诗', '刺客伍六七': '神秘美少女的遗愿清单',
'万界仙踪': '少年掌门人 背负血海深仇', '全职法师 第3季': '法师集结,决战狂魔', '斗破苍穹 特别篇': '9月30日萧炎上线!',
'动态漫画·驸马不要啊': '霸道公主驯服花花公子', '妖神记 第2季': '成为最强妖灵师'} 标题: 斗罗大陆 描述:此生不悔入唐门 标题: 狐妖小红娘
描述:鞘笛不离 至死不渝 标题: 武动乾坤 描述:武之极,破苍穹,动乾坤 标题: 灵剑尊 描述:落魄少主闯荡大陆,天地三界,我为至尊! 标题:
雄兵连之诸天降临 描述:抗击外星入侵 标题: 万界神主 描述:陨落古神,遨游苍蓝 标题: 雪鹰领主 描述:超凡守护 热“雪”来袭 标题: 魔道祖师
描述:仙门少年为民除害斩邪祟 标题: 通灵妃 描述:年度鬼畜爱情大戏 标题: 画江湖之不良人 第3季 描述:王者弈天下 大唐生死局 标题: 猫妖的诱惑 正式版
描述:自古爱恨两难,当然是插他两刀 标题: 巨兵长城传 第1季 描述:一场关乎世界安危的冒险 标题: 狠西游 第2季 描述:18年12月 绝境重生! 标题:
地灵曲 描述:3D动画版鬼吹灯 标题: 斗破苍穹 第2季 描述:萧炎归来 风云再起 标题: 全职高手 描述:十年热血书写电竞辉煌 标题: 武庚纪 第2季
描述:商朝王子武庚逆袭记 标题: 妖神记之影妖篇 描述:聂离融合妖灵迅速成长 标题: 一人之下 第2季 描述:风起云涌罗天大醮 标题: 斗罗大陆2 绝世唐门
动态漫画 描述:唐三之后,斗罗大陆新星降临。 标题: 非人哉 描述:神仙妖怪的爆笑日常 标题: 星辰变 第1季 描述:少年逆天改命成王 标题:
超神学院之雄兵连 描述:世纪大战一触即发 标题: 天行九歌 描述:超高颜值的权谋史诗 标题: 刺客伍六七 描述:神秘美少女的遗愿清单 标题: 万界仙踪
描述:少年掌门人 背负血海深仇 标题: 全职法师 第3季 描述:法师集结,决战狂魔 标题: 斗破苍穹 特别篇 描述:9月30日萧炎上线! 标题:
动态漫画·驸马不要啊 描述:霸道公主驯服花花公子 标题: 妖神记 第2季 描述:成为最强妖灵师`

友情链接
KaDraw流程图
API参考文档
OK工具箱
云服务器优惠
阿里云优惠券
腾讯云优惠券
华为云优惠券
站点信息
问题反馈
邮箱:[email protected]
QQ群:637538335
关注微信