Veiking百草园


/ 数据抓取
老狗啃爬虫-从抓取到存储之Pipeline@Veiking 精品分享 @Veiking
老狗啃骨头   @Veiking   2020-12-16

老狗啃爬虫-从抓取到存储之Pipeline

在爬虫框架WebMagic中,用于保存结果的组件叫做Pipeline。在WebMagic已经实现了的Pipeline接口中,如果我们仅仅是想把抓取数据进行控制台输出,我们可以借助它的ConsolePipeline;如果我们想将数据以文件的形式进行存储,即可借助它的FilePipeline。如果我们想实现自己想要的具体功能,我们就得定制我们所需的Pipeline

老狗啃爬虫-爬虫必知基础Jsoup和Xsoup@Veiking
老狗啃骨头   @Veiking   2020-12-06

老狗啃爬虫-爬虫必知基础Jsoup和Xsoup

爬虫爬取内容,本质就是把网站页面下载、读取过来,然后其核心工作就是解析定位,提取数据。这里说的Jsoup、Xsoup、CSS选择器、Xpath、JsonPath,包括正则表达式的应用,都是数据处理过程中必不可少的基础性技术。我们使用的爬虫框架WebMagic,是使用Jsoup作为HTML解析工具的,还有基于Jsoup升级了能解析XPath的工具Xsoup

潜影拾光

波密雪山

天黑路暗,想看清东西 换个角度或许会比较好

扫码转发

二维码
二维码
二维码
二维码
二维码
二维码

博文标签

本站邮筒

(您的信息将用于后续必要的反馈联系,本站会恪守隐私)