以前看书总是草草的看过去,追求所谓读书不求甚解.
之前写过一篇文章,主要的思路就是怎样在一本书中快速的抓取操作部分,
让后提取能够实操的内容,进行快速的应用实践,
这种方法让我慢慢的喜欢上了菜谱式的书,
但是很多书本都富含原理性的叙述,不知晓原理,往往在思路上堵塞.
古人云学而不思则罔么.
今天我打算总结归纳一下我现在正在读的一本书,
叫做<精通Python网络爬虫>,
莫名其妙的就采取了一种问问题的形式的方法进行概括,
发现还是很好用的,我觉得是我目前所采用的最有用的方法,
即涵盖了所有内容,又不表面上呈现所有内容,
既简洁了文字,又包含了所有的篇幅
1.介绍了爬虫能干吗?为什么要学习爬虫?爬虫有哪些类型?爬虫的组成结构是什么样子的?重点简介了聚焦爬虫的额工作流程.我想这个也是本书的重点.
2.爬虫具体应用在那些方面?金融,搜索引擎,用户信息,新闻阅读.搜索引擎和爬虫的关系?用户爬虫的概念和能够做的哪些分析?3.各个爬虫是的实现原理是什么?
什么是爬行策略?爬行策略有哪几种?爬行策略对爬虫有哪些影响?与爬行策略相关的东西有哪些?反向链数.
什么是网页更新策略?用户体验策略,历史数据策略,聚焦分析策略.这3个策略的算法思想是怎样的?聚类分析算法的前提指导思想是什么?为什么要了解这3中爬行策略,对爬虫有什么影响?
什么是网页的分析算法?它的作用是什么?有哪些分析算法呢?3个分析算法的大致的流程和概念是什么?
什么是身份识别?爬虫通过什么手段来实现?Robots协议是什么?作用是什么?目前有哪些语言可以实现爬虫?各自的优点是什么?
热门工具 换一换