老狗啃爬虫-小说爬虫上手之前生今世
当下,随着互联网的快速发展,网页信息数据更加丰富,无论是现在还是可预见的将来,数据量都将会是指数级的暴涨,这时候如何有效的提取筛选这些信息为己所用,已经成为一种挑战。传统的搜索引擎,在很多特定的场景、专门的领域,它也是乏力难支的。所以,很多定向抓取相关网页资源的网络爬虫应运而生
当下,随着互联网的快速发展,网页信息数据更加丰富,无论是现在还是可预见的将来,数据量都将会是指数级的暴涨,这时候如何有效的提取筛选这些信息为己所用,已经成为一种挑战。传统的搜索引擎,在很多特定的场景、专门的领域,它也是乏力难支的。所以,很多定向抓取相关网页资源的网络爬虫应运而生
基数排序是一种不在数据值本身之间比较的排序算法,而是通过数据按位数“切割”对比,从而实现排序的算法,所以基数排序也被认为是一种典型的非比较排序算法。在实际运用中,基数排序的使用场景不局限于整数,凡是整数可以表达的,或者有规律格式的字符串,都适用。基数排序的发明,据说是赫尔曼·霍尔瑞斯在1887年总结出来的
SEO是个系统概念,从网站建设之初,就应设计比较好的信息组织架构,包括清晰的导航、醒目的标题、被强调的内容等等,在充分满足用户需求的前提下,优雅的展示网站的内容。而我们经常所说的SEO呢,一般指的是行业技术方面的,比较倾向于搜索引擎优化这种技术,怎么才能让网站设计更加适应搜索引擎检索,满足搜索引擎排名的指标
归并排序是一种非常典型的分治策略应用排序算法,简而概括:分而排之,合而并之。归并排序,据说是冯·诺伊曼在1945年首次提出。冯·诺伊曼,是现代计算机科学发展史上开天辟地的大佬之一,不单单是计算机领域,这哥们在整个数学、量子力学和经济学中都做出了卓越的贡献,简直超神一般,遥敬大佬:冯先生 long live !
堆排序是一种利用堆这种数据结构特性实现的排序算法,被认为是一种选择排序。堆排序在排序数据量较大时,性能相对比较优越。堆是什么,堆可以理解成完全二叉树,且堆要求子节点完全小于等于或完全大于等于父节点,也就是说堆只有两种形式:子节点完全小于等于父节点的,被称为大顶堆;子节点完全大于等于父节点的,被称为小顶堆
简单选择排序是一种相对简单直观的基础排序算法,每一次都做简单选择,每一次都选出最大或最小。选择排序的核心思想就是:在遍历的过程中,每次都选数据样本中最小的数据,放在首位。看起来简单纯朴吧,从第一个元素开始,每次都取剩余数据元素的最小个,我们小时候摆积木的玩的时候,都已经掌握的算法,质朴归真,哈哈哈
我们可以把搜索引擎家的蜘蛛,当成一个有脾气的活物,它跑出来工作,绝对不想幸苦巴拉的做无用功,被戏耍,来折腾没意义的事情。我们在现有的SEO规则之上,在掌握的SEO知识之上,适当的探索当然值得鼓励,但是太过自以为聪明的欺骗、肆意妄为的挑逗,是会让蜘蛛们“恼羞成怒”的,他们这种“愤怒”最后也会在搜索引擎排名算法上体现出来
简单插入排序是很循规蹈矩的做法,即使运用二分插入。不考虑特殊情况,这种穷尽遍历算法,在时效问题上,是确定低效。于是有个叫希尔(Donald Shell)的大神,据说在公元1959年一个风雨交加电闪雷鸣的夜晚,喝着咖啡唱着小曲儿,灵光乍现、欣然偶得。为了表达对这位先贤的敬仰和怀念,后世就直接以他的名字给这个算法命名,希尔排序
网页,是组成网站的基本单元,因此,基于对网页本身的优化在整个SEO过程中有举足轻重的作用,对于页面本身的优化,首先要从网页的 TITLE做起。接下面我们捋一捋,一些关于title优化的思路。尽量保持html页面简洁优雅,有规可循,对蜘蛛便是友好的;页面重要的信息也尽量前置,让蜘蛛第一时间就爬取到你想让它爬的内容
在SEO中,首页是和其他页面策略有些区别,除偏重点外,基本也差不多。首页一般是要求能突出网站内容主题的聚合网页,所以TKD的设置,比较侧重在网站整体。栏目页在TKD的设计上,除要求侧重突出栏目主题外,与首页的基本一致,内容页在TKD的设计上,侧重点是页面内容,其他都与首页的要求相同