Veiking百草园


/ Java编程
老狗啃爬虫-从抓取到存储之Pipeline@Veiking 精品分享 @Veiking
老狗啃骨头   @Veiking   2020-12-16

老狗啃爬虫-从抓取到存储之Pipeline

在爬虫框架WebMagic中,用于保存结果的组件叫做Pipeline。在WebMagic已经实现了的Pipeline接口中,如果我们仅仅是想把抓取数据进行控制台输出,我们可以借助它的ConsolePipeline;如果我们想将数据以文件的形式进行存储,即可借助它的FilePipeline。如果我们想实现自己想要的具体功能,我们就得定制我们所需的Pipeline

老狗啃爬虫-便捷的元素定位之Selectable@Veiking
老狗啃骨头   @Veiking   2020-12-12

老狗啃爬虫-便捷的元素定位之Selectable

无论是Jsoup还是Xsoup,都是为了实现HTML页面文件的解析和数据定位,还有正则表达式,根据这些技术原理,WebMagic进一步集成浓缩,将这些我们在爬虫开发过程中使用频率很高的功能,抽提出一个叫Selectable的接口。Selectable可以使我们在操作中简单快捷的完成页面元素的提取,不去关心具体操作细节,而把更多的精力用在爬虫业务的实现上

老狗啃爬虫-爬虫必知基础Jsoup和Xsoup@Veiking
老狗啃骨头   @Veiking   2020-12-06

老狗啃爬虫-爬虫必知基础Jsoup和Xsoup

爬虫爬取内容,本质就是把网站页面下载、读取过来,然后其核心工作就是解析定位,提取数据。这里说的Jsoup、Xsoup、CSS选择器、Xpath、JsonPath,包括正则表达式的应用,都是数据处理过程中必不可少的基础性技术。我们使用的爬虫框架WebMagic,是使用Jsoup作为HTML解析工具的,还有基于Jsoup升级了能解析XPath的工具Xsoup

老狗啃爬虫-小爬虫初长成之PageProcessor@Veiking 精品分享 @Veiking
老狗啃骨头   @Veiking   2020-12-02

老狗啃爬虫-小爬虫初长成之PageProcessor

WebMagic是一个简单灵活的Java爬虫框架。其简单的API,容易上手,模块化的结构,便于轻松扩展;同时也功能完备,且提供多线程和分布式支持。基于WebMagic,我们可以快速开发出一个高效、易维护的爬虫。WebMagic框架主要由Downloader、PageProcessor、Scheduler、Pipeline四大组件组成

老狗啃爬虫-开发准备之Maven动员@Veiking
老狗啃骨头   @Veiking   2020-11-23

老狗啃爬虫-开发准备之Maven动员

本次关于爬虫框架WebMagic的开发学习,将基于java语言的Spring框架,Spring框架是java语言诸多优秀框架里脱颖而出的一个功能完善的轻量级核心框架。现如今Spring Boot和Spring Cloud 的技术加成,给Spring框架的应用带来了更多的成熟优秀的解决方案,如虎添翼,使其应用更加广泛。本次学习,将基于Springboot结合WebMagic进行

老狗啃爬虫-爬虫方案选择之WebMagic@Veiking
老狗啃骨头   @Veiking   2020-11-18

老狗啃爬虫-爬虫方案选择之WebMagic

网络爬虫是一个比较成熟的技术应用,目前,从技术角度说,市面上的爬虫框架有很多种选择,不同种开发语言又有许多不同的种类,这就让不少人在开发预研的时候陷入选择上的迷茫,接下来我们收集了一下市面上主流的开发语言中对一些主流的爬虫框架,并简单看下爬虫框架的优劣;希望在对我们在选择是用什么样的爬虫框架方案中有所帮助

老狗啃爬虫-小说爬虫上手之前生今世@Veiking
老狗啃骨头   @Veiking   2020-11-11

老狗啃爬虫-小说爬虫上手之前生今世

当下,随着互联网的快速发展,网页信息数据更加丰富,无论是现在还是可预见的将来,数据量都将会是指数级的暴涨,这时候如何有效的提取筛选这些信息为己所用,已经成为一种挑战。传统的搜索引擎,在很多特定的场景、专门的领域,它也是乏力难支的。所以,很多定向抓取相关网页资源的网络爬虫应运而生

老狗啃骨头之算法-基数排序@Veiking 精品分享 @Veiking
老狗啃骨头   @Veiking   2020-11-01

老狗啃骨头之算法-基数排序

基数排序是一种不在数据值本身之间比较的排序算法,而是通过数据按位数“切割”对比,从而实现排序的算法,所以基数排序也被认为是一种典型的非比较排序算法。在实际运用中,基数排序的使用场景不局限于整数,凡是整数可以表达的,或者有规律格式的字符串,都适用。基数排序的发明,据说是赫尔曼·霍尔瑞斯在1887年总结出来的

老狗啃骨头之算法-归并排序@Veiking 精品分享 @Veiking
老狗啃骨头   @Veiking   2020-10-29

老狗啃骨头之算法-归并排序

归并排序是一种非常典型的分治策略应用排序算法,简而概括:分而排之,合而并之。归并排序,据说是冯·诺伊曼在1945年首次提出。冯·诺伊曼,是现代计算机科学发展史上开天辟地的大佬之一,不单单是计算机领域,这哥们在整个数学、量子力学和经济学中都做出了卓越的贡献,简直超神一般,遥敬大佬:冯先生 long live !

老狗啃骨头之算法-堆排序@Veiking 精品分享 @Veiking
老狗啃骨头   @Veiking   2020-10-26

老狗啃骨头之算法-堆排序

堆排序是一种利用堆这种数据结构特性实现的排序算法,被认为是一种选择排序。堆排序在排序数据量较大时,性能相对比较优越。堆是什么,堆可以理解成完全二叉树,且堆要求子节点完全小于等于或完全大于等于父节点,也就是说堆只有两种形式:子节点完全小于等于父节点的,被称为大顶堆;子节点完全大于等于父节点的,被称为小顶堆

潜影拾光

波密雪山

天黑路暗,想看清东西 换个角度或许会比较好

扫码转发

二维码
二维码
二维码
二维码
二维码
二维码

博文标签

本站邮筒

(您的信息将用于后续必要的反馈联系,本站会恪守隐私)