首页 > 网络爬虫技术的概述与研究

网络爬虫技术的概述与研究

发布时间：2022-11-29 04:57:49 来源：文档文库

小中大

字号：

手机查看

.....网络爬虫技术的概述与研究摘要网络爬虫，又被称为网页蜘蛛，网络机器人，随着网络的迅速发展，万维网成为大量信息的载体，如何有效地提取并利用这些信息成为一个巨大的挑战。搜索引擎(SearchEngine，例如传统的通用搜索引擎AltaVista，Yahoo!和Google等，作为一个辅助人们检索信息的工具成为用户访问web的入口和指南。但是，这些通用性搜索引擎也存在着一定的局限性。为了解决上述问题，定向抓取相关网页资源的聚焦爬虫应运而生。聚焦爬虫是一个自动下载网页的程序，它根据既定的抓取目标，有选择的访问万维网上的网页与相关的，获取所需要的信息。本文将对网络爬虫技术及其原理进行简单的介绍，并且给出实例。关键词网络爬虫聚焦爬虫网页抓取搜索策略URL..优质资料..
.....一、网络爬虫的简介1、URL在介绍网络爬虫之前，先引入URL的相关知识。URL是URI的一个子集。它是UniformResourceLocator的缩写，译为“统一资源定位符”。通俗地说，URL是Internet上描述信息资源的字符串，主要用在各种WWW客户程序和服务器程序上，特别是著名的Mosaic。采用URL可以用一种统一的格式来描述各种信息资源，包括文件、服务器的地址和目录等。URL的格式由三部分组成：·第一部分是协议(或称为服务方式。·第二部分是存有该资源的主机IP地址(有时也包括端口号。·第三部分是主机资源的具体地址，如目录和文件名等。第一部分和第二部分用“://”符号隔开，第二部分和第三部分用“/”符号隔开。第一部分和第二部分是不可缺少的，第三部分有时可以省略。用URL表示文件时，服务器方式用file表示，后面要有主机IP地址、文件的存取路径(即目录和文件名等信息。有时可以省略目录和文件名，但“/”符号不能省略。例如file://ftp.yoyodyne./pub/files/foobar.txt爬虫最主要的处理对象就是URL，它根据URL地址取得所需要的文件容，然后对它进行进一步的处理。.

《网络爬虫技术的概述与研究.doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式

相

关

案

例

网络爬虫技术的概述与研究

相关推荐

推荐内容