用scrapy对接selenium可以实现返回渲染好的页面,但是selenium是阻塞式的,也就是说,它每次只能进行一次请求,这样就会比较慢,所以并不推荐这种方法,今天这样做,只是为了练习一下下载中间件的使用,如果真要提取渲染好的页面,还是是用scrapy的Splash插件比较好
用scrapy对接selenium,必须用到现在中间件,我们知道,下载中间件可以对请求,响应或是错误进行处理。
我们怎么用selenium实现与scrapy对接呢?思路就是直接返回selenium对页面提取的response,然后pass给spider进行解析,还是从spider开始说起:
首先我们创建一个spider,不使用start_urls,而是自己定义一个start_request,返回响应,如下:
def start_requests(self): for keyword in self.settings.get('KEYWORDS'): #
用于导出搜索的关键字 for page in range(1,self.settings.get('MAX_PAGES')): # 用于导出可以爬取的页面数
# 实例的settings属性用于去除设置中的参数 url = self.base_urls + keyword yield
Request(url=url,meta={'page':page},callback=self.parse,dont_filter=True) #
这里请求一个页面,是搜索空军一号的主页面,然后我们会在下载中间件里面对页面进行调整 # 这一步返回了selenium模拟进行的响应页面
这个是关键的步骤,接下来就是一个解析响应的方法,不用看了吧,还有就是。
注意,等会儿你就会知道这个Request返回的就是调用selenium返回的response
我们来着重看一下下载中间件的代码
from scrapy import signals from selenium import webdriver from
selenium.common.exceptionsimport TimeoutException from
selenium.webdriver.support.uiimport WebDriverWait from
selenium.webdriver.common.byimport By from selenium.webdriver.support import
expected_conditionsas EC from scrapy.http import HtmlResponse class
ScrapySeleniumDownloaderMiddleware(object): def __init__
(self,timeout=None,options=None): self.timeout = timeout self.options = options
self.driver = webdriver.Chrome(options=self.options) self.wait =
WebDriverWait(self.driver,self.timeout)# 初始化一些基本的变量 def process_reqeust
(self,request,spider): try: driver = self.driver.get(request.url) #
生成一个页面的driver对象 page = request.mata.get('page') # 这里取出刚刚倒进request中的page数 if
page ==1: pass # 直接就不用处理,就直接是这个首页的driver就可以了 else: input_element =
self.wait.until(EC.presence_of_element_located((By.XPATH,
'//*[@id="mainsrp-pager"]//input[@class="input J_Input"]'))) # 找到输入page的框框
submit_element = self.wait.until(EC.element_to_be_clickable((By.XPATH,
'//*[@id="mainsrp-pager"]//span[@class="btn J_Submit"]'))) # 找到点击的按钮
input_element.clear()# 清除里面原来可能包含的内容 input_element.send_keys(page)
submit_element.click()# 如果不是等于一,那么还应该在这个找到输入框并输入页码,进行跳转 # 将这个driver改成跳转后的driver
yield
HtmlResponse(url=request.url,body=driver.page_source,request=request,encoding=
'utf-8',status=200) # 这里我们直接返回了经过selenium提取的页面 except TimeoutException: return
HtmlResponse(url=request.url,status=500,request=request) #
HtmlResponse是textResponse的一个子类,它会自动寻找适当的html文件编码,然后返回html类型的数据 #
注意我们这里返回的是一个response,所以,接下来我们就不会继续调用剩下的中间件的request和exception #
的方法了,转而调用所有中间件的response方法 @classmethod def from_crawler(cls, crawler): # This
method is used by Scrapy to create your spiders. return
cls(timeout=crawler.settings.get('SELENIUM_TIMEOUT'),
options=crawler.settings.get('CHROME_OPTIONS')) # 这个类方法用于提取settings中的配置信息 #
返回一个实例 def spider_opened(self, spider): spider.logger.info('Spider opened: %s'
% spider.name)
经过上面就可以有一个实现scrapy对接selenium了,当然settings文件里面要记得打开下载中间件的选项
热门工具 换一换