网络爬虫具体的执行流程是什么？所谓遍历(Traversal)的定义是什么?

当前位置 : 首页 > 科技 >

网络爬虫具体的执行流程是什么？所谓遍历(Traversal)的定义是什么?

来源：创视网时间：2023-01-06 11:12:04

网络爬虫的整体执行流程：

1) 确定一个(多个)种子网页

2) 进行数据的内容提取

3) 将网页中的关联网页连接提取出来

4) 将尚未爬取的关联网页内容放到一个队列中

5) 从队列中取出一个待爬取的页面，判断之前是否爬过。

6) 把没有爬过的进行爬取，并进行之前的重复操作。

7) 直到队列中没有新的内容，爬虫执行结束。

这样完成爬虫时，会有一些概念必须知道的：

1) 深度(depth)：一般来说，表示从种子页到当前页的打开连接数，一般建议不要超过5层。

2) 广度(宽度)优先和深度优先：表示爬取时的优先级。建议使用广度优先，按深度的层级来顺序爬取

所谓遍历(Traversal)的定义是什么?

所谓遍历(Traversal)，是指沿着某条搜索路线，依次对树(或图)中每个节点均做一次访问。访问结点所做的操作依赖于具体的应用问题，具体的访问操作可能是检查节点的值、更新节点的值等。不同的遍历方式，其访问节点的顺序是不一样的。遍历是二叉树上最重要的运算之一，是二叉树上进行其它运算之基础。当然遍历的概念也适合于多元素集合的情况，如数组。

上一篇：全球热点评！细菌性慢性前列腺炎不治怎么样（细菌性慢性前列腺炎）

下一篇：最后一页

X 关闭

新闻排行

为您推荐

解码出现错误产生乱码的原因是什么？拒绝命令getParameter()方法是什么？

创视网 01-06
汉字乱码的4种类型都是什么？怎么才能多途径解决VLC播放中的乱码问题？

创视网 01-06
什么是伪列在信息技术中的意思?oracle中的rownum函数举例是什么？

创视网 01-06
骚男结婚了（骚男结婚）天天观点

关注网 01-06
起点终站歌曲意思（起点终站）

关注网 01-06
css rgba()设置颜色透明度如何理解？在程序设计过程中语言是什么意思?

创视网 01-06
内存池的分配和使用是啥意思？内存释放及其它操作都是什么？

创视网 01-06
如何快速的启动JConsole程序？关于概念段的介绍是什么？

创视网 01-06
除法运算中应该怎样注意规避问题？所谓数值计算在数学中是什么意思？

创视网 01-06
标识符这个概念在信息技术中是什么意思?有名有姓的C语言标识符是什么？

创视网 01-06