数据抓取_Veiking百草园-知识点滴,日常分享

老狗啃骨头 @Veiking 2020-12-16

老狗啃爬虫-从抓取到存储之Pipeline

在爬虫框架WebMagic中，用于保存结果的组件叫做Pipeline。在WebMagic已经实现了的Pipeline接口中，如果我们仅仅是想把抓取数据进行控制台输出，我们可以借助它的ConsolePipeline；如果我们想将数据以文件的形式进行存储，即可借助它的FilePipeline。如果我们想实现自己想要的具体功能，我们就得定制我们所需的Pipeline

老狗啃骨头 @Veiking 2020-12-06

老狗啃爬虫-爬虫必知基础Jsoup和Xsoup

爬虫爬取内容，本质就是把网站页面下载、读取过来，然后其核心工作就是解析定位，提取数据。这里说的Jsoup、Xsoup、CSS选择器、Xpath、JsonPath，包括正则表达式的应用，都是数据处理过程中必不可少的基础性技术。我们使用的爬虫框架WebMagic，是使用Jsoup作为HTML解析工具的，还有基于Jsoup升级了能解析XPath的工具Xsoup

老狗啃爬虫-从抓取到存储之Pipeline

老狗啃爬虫-爬虫必知基础Jsoup和Xsoup

潜影拾光

扫码转发

博文标签

文章推荐

本站邮筒