搜索引擎的工作原理大致可以分为

发布时间：2020-10-15 02:13:07 来源：文档文库

小中大

字号：

手机查看

搜索引擎的工作原理大致可以分为：

　　1、搜集信息：搜索引擎的信息搜集基本都是自动的。搜索引擎利用称为网络蜘蛛(spider)的自动搜索机器人程序来连上每一个网页上的超连结。机器人程序根据网页链到其他中的超链接，就象日常生活中所说的“一传十，十传百……”一样，从少数几个网页开始，连到数据库上所有到其他网页的链接。理论上，若网页上有适当的超连结，机器人便可以遍历绝大部分网页。

　　2、整理信息：搜索引擎整理信息的过程称为“建立索引”。搜索引擎不仅要保存搜集起来的信息，还要将它们按照一定的规则进行编排。这样，搜索引擎根本不用重新翻查它所有保存的信息而迅速找到所要的资料。想象一下，如果信息是不按任何规则地随意堆放在搜索引擎的数据库中，那么它每次找资料都得把整个资料库完全翻查一遍，如此一来再快的计算机系统也没有用。

　　3、接受查询：用户向搜索引擎发出查询，搜索引擎接受查询并向用户返回资料。搜索引擎每时每刻都要接到来自大量用户的几乎是同时发出的查询，它按照每个用户的要求检查自己的索引，在极短时间内找到用户需要的资料，并返回给用户。目前，搜索引擎返回主要是以网页链接的形式提供的，这些通过这些链接，用户便能到达含有自己所需资料的网页。通常搜索引擎会在这些链接下提供一小段来自这些网页的摘要信息以帮助用户判断此网页是否含有自己需要的内容。

以上是在百度搜索的结果。

下面谈一下我个人对FTP搜索的见解。

首先是第一步，搜集信息。每隔一段时间，派出“蜘蛛”程序。（我想这里的蜘蛛程序跟网页搜索引擎的“蜘蛛”程序是有所区别的。网页搜索引擎的“蜘蛛”程序是指自动访问互联网，并沿着任何网页中的所有URL爬到其它网页，不断重复这过程，并把爬过的所有网页收集回来的程序。而这里的“蜘蛛”程序，我猜是在某一个时刻，利用文件系统方面的类方法，自动历遍所有的已知的校内FTP站点的文件夹，然后把每一个文件的名字、大小、类型、地址、路径等相关信息收集回来的程序。）

第二步，整理信息。“蜘蛛”程序搜集回来的信息，输入数据库，这样的话，用户要查询的文件可以很快地得出，并且用户可以不必按照文件的名字来查询，以类型、大小等查询也是可以的，同时在给出查询结果的时候，可以按照大小、日期等来排序。

第三步，接受查询。用户登陆一个门户网站，就像北大天网那样，在搜索框里填入关键词，查询的类型，是否模糊查找等，这个页面就可以会把表单的内容传到服务器上、查询数据库，然后返回查询结果。还有支持用链接的方式，点击分类，然后可以浏览这个方面的信息，如下载排行、推荐下载等。

关于疑问方面，就是那个PNG图的构架不是很清楚，sniffer跟spider是什么关系呢？

还有一个就是ipv6的问题，人大内不是有个ipv6的ftp吗？查询结果要标注是ipv6吗？

本文来源：https://www.2haoxitong.net/k/doc/4c4fd34a74eeaeaad1f34693daef5ef7bb0d121a.html