老狗啃骨头
@Veiking
2020-12-21
老狗啃爬虫-URL去重之Scheduler
读过源代码,再回顾我们之前所学所述,WebMagic的工作机制,以及之后我们如何设计具体的爬虫程序,思路会更加明了清晰。我们知道了Scheduler是WebMagic中进行URL管理的组件,其作用是对待抓取的URL队列进行管理和对已抓取的URL进行去重。有时候不同的URL指向的是相同的页面,这时候去重就不是简单的URL字符串对比了