Veiking百草园


/ 元素定位
老狗啃爬虫-便捷的元素定位之Selectable@Veiking
老狗啃骨头   @Veiking   2020-12-12

老狗啃爬虫-便捷的元素定位之Selectable

无论是Jsoup还是Xsoup,都是为了实现HTML页面文件的解析和数据定位,还有正则表达式,根据这些技术原理,WebMagic进一步集成浓缩,将这些我们在爬虫开发过程中使用频率很高的功能,抽提出一个叫Selectable的接口。Selectable可以使我们在操作中简单快捷的完成页面元素的提取,不去关心具体操作细节,而把更多的精力用在爬虫业务的实现上

老狗啃爬虫-爬虫必知基础Jsoup和Xsoup@Veiking
老狗啃骨头   @Veiking   2020-12-06

老狗啃爬虫-爬虫必知基础Jsoup和Xsoup

爬虫爬取内容,本质就是把网站页面下载、读取过来,然后其核心工作就是解析定位,提取数据。这里说的Jsoup、Xsoup、CSS选择器、Xpath、JsonPath,包括正则表达式的应用,都是数据处理过程中必不可少的基础性技术。我们使用的爬虫框架WebMagic,是使用Jsoup作为HTML解析工具的,还有基于Jsoup升级了能解析XPath的工具Xsoup

潜影拾光

南印度洋

古今中外是,天蓝海云先。 around the world, all the same.

扫码转发

二维码
二维码
二维码
二维码
二维码
二维码

博文标签

本站邮筒

(您的信息将用于后续必要的反馈联系,本站会恪守隐私)