scrapy爬取网站返回json数据处理 - 好文

# -*- coding: utf-8 -*- import scrapy import json class
NeihanSpider(scrapy.Spider): name = 'neihan' allowed_domains =
['neihanshequ.com'] start_urls =
['http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time=1521163598']
def parse(self, response): # 返回的是json数据 # 转换为python中的字典 rs =
json.loads(response.text) if rs.get('message') == 'success': # 取出数据 data =
rs.get('data') # 取出下一页的时间戳 max_time = data.get('max_time') # 段子数据 detail_data =
data.get('data') # for循环遍历数据,取出每一条段子 for dz in detail_data: text =
dz.get('group').get('text') print(text) # 找到下一页,根据时间戳拼接完整的加载更多url # if
max_time: # next_url =
'http://neihanshequ.com/bar/1/?is_json=1&app_name=neihanshequ_web&max_time='+str(max_time)
# # 发起请求 # yield scrapy.Request( # url=next_url # )需要在middlewares文件中设置的一下随机请求头

« 上一篇：程序员地铁上写代码被抓拍，网友：这也太装了
» 下一篇：吴恩达斯坦福大学机器学习 CS229 课程学习笔记（一）

热门工具换一换

1 进制转换
2 GIF生成器
3 时间戳转换器
4 Cron表达式生成器
5 身份证归属地、性别、出生日期、年龄查询
6 计算器
7 衣服尺码计算
8 文本对比
9 图像颜色识别
10 图像文字识别
11 Base64编码解码
12 日期计算器
13 人脸识别
14 照片转素描
15 摩斯电码
16 颜色选择器
17 端口扫描器
18 卡通头像制作
19 图像转Base64
20 文字加密解密