大学图书馆网站数据研究

发布时间:2020-11-19 21:54:22   来源:文档文库   
字号:

大学图书馆网站数据研究

姚天泓

【摘 要】通过对40所大学图书馆的网络数据进行对比分析,试图探求图书馆在数字化、网络化发展中的诸多问题,以利修正并改进.

【期刊名称】《图书馆学刊》

【年(卷),期】2006(028)001

【总页数】2页(P128-129)

【关键词】大学图书馆;网络数据;链接量;数据采集;对比分析

【作 者】姚天泓

【作者单位】东北大学图书馆基础分部,辽宁,沈阳,110015

【正文语种】中 文

【中图分类】教科文艺

【文献来源】https://www.zhangqiaokeyan.com/academic-journal-cn_journal-library-science_thesis/020*********.html

图书馆学刊 2006 年第 1 期 TUSHUCUANXUF.KAN N0.1,2006 大 学 图 书 馆 网 站 数 据 研 究姚天泓 (东北大学图书馆基础分部,辽宁 沈阳 110015)【 摘 要1通过对 40 所 大学图书馆 的 网络数据进行对比分析 ,试 图探求 图书馆在数字化 、 网络化发展 中的诸 多问题 ,以利修正并改进。【关键词】 大学图书馆网络数据链接量数据采集对比分析【 分类号]C250.7 1 研究对象本文以教育部网站上公布的进入“2 】 1 工程 ” 的前 40 所 大学图书馆的网站作为研究对象【 表 1 ) 。从教育部网站( http:∥www.moe.edu.cn) 对“211 工程 ” 的简介,f- , 可以 了解到此项工程的总体建设 日标和任务以及该工程i 个基本建设1 人 J容,其中也对大学图书馆的建设提出了“图书文献保障系统以 中国教育和科研计算机网为依托,设立全国综合文献q1心和一 批学科文献中心 ,与国内外文献系统广泛联网,建立文献信 息子网”的目标。通过对各个大学图书馆网站的总链接量 、 外部链接量 、 总网页数 、链接源等数据情况进行计算 ,分析它们之间的关 系 , 以及由此而引出的一系列问题。表 1 “211 工程 ”排名前 40 所大学┏ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┳ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┳ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┳ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┓ ┃北京大学(1)┃中国人民大学(2)清华大学(3)北方 交通大学(4)┃ ┣ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ╋ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ╋ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ╋ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┫ ┃北京工业大学(5)北京航空航天大学(6)北京理工 大学(7)北京科技大学(8)北京化工 大学(9J北京邮电大学(10)中国农业大学(11)北京林业大学(12)北京中医药大学f 13)北京师范大学(14)北京外国语大学(15)北京广播学院(16)对外经济贸易大学(17J中央民族大学(18)中央音乐学院(19)南开大学(20)天津大学(21)天津医科大学(22)河北工业大学(23)太原理工大学(24)内蒙古大学(25)辽宁大学(26)大连理工大学(27)东北大学(28)大连海事大学(29)吉林大学( 30)延边大学(31)东北师范大学(32)哈尔滨工业大学(33)哈尔滨工程大学(34)东北农业大学(35)复旦大举(36)同济大学(37)上海交通大学(38)华东理工大学(39)东华大学(40)┃ ┗ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┻ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┻ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┻ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ━ ┛ 2数据的收集 与分析方法 2.1 数据的收集 曲对 Intemet 技术 的迅猛发展 ,WEB 信息数据的急剧增长,对于用户来说想要在信息潮涌L| , 找到准确的信息资料, 犹如大海捞针。 搜索引擎技术的出现J 下好满足 厂 这一需求。 目前 Internet 中的许多搜索引擎都实现 r 可以检索到一个网 站被链接的情况 ,这些搜索引擎多为国外的, 如 Coogle 、Al-tavista、Alltheweb 等。 在著名 的 Google 网站上对于高级搜索 的介绍是这样的 :“通常 ,只需在范围较广的查询小添加 浏语就可以缩小搜索范围。 不过 ,Coogle 还提供 r 很多不同的搜 索功能,利用这些功能可以做到:将搜索范嗣限制在某个特 定的网站 巾; 排除某个特定网站的网页 ; 将搜索限制于某种 指定的语言 : 查找链接到某个指定网页的所有 网页 ; 企找 与 指定网页棚关的网页。”对于 Coogle搜索引擎来说,它的数据搜集和排名策略一般采用以下几个原贝 Ⅱ : A.网站诊断。 包括网站结构诊断 、网站页面诊断 、网站文件名诊断 、网站营销基础诊断。 B.网站基础流量分析。 包括流量来路分析 、地Ⅸ分布分析 、流量统计系统安装等。 C.网站优化处理。 包括网站结构优化、网站页面优化 、网站链接优化、网站标签优化。 D.f;oogle 排名其他策略( 含未公布的保密规则 ) 。 本 文 的数 据搜 集工作使 用 Google 搜 索 引擎 。 由 于Alltheweb 对于中文的搜索及内容类聚 、站点类聚方面的表现 不如 Coogle ,尤其重要的是对中文搜索方面的缺失 ,而且 Al-tavisa 现在国内暂时不能链接,所以将两者一并舍弃。 由于巾国大学的网站基本上都是通过 CERNET 与Inter-net 联通的, 且多数图书馆有一部分内容只对 CERNET 内部 开放 .Intemet 上的大多数用户很难链接这些页面和使用其数 据。本拟同时通过 CERNET 内部的搜索引擎统计数据 ,但遗 憾的足其提供的功能不多 、不完善 ,很雌达到统计的目 标。 通过 Google 提供的高级搜索功能 , 对大学图书馆采用link和 site两种语法检索式进行检索。 下面是对这两种语法 的演示 : A. “link ”语法返回所有链接到某个 URL 地址的网页。示例:搜索所有含指向北京大学图书馆“ www.lib.pku.e-du .cn”链接的网页。 N0.1,2006大学图书馆网站数据研究摘要1通过对 40 所 大学图书馆 的 网络数据进行对比分析 ,试 图探求 图书馆在数字化 、 网络化发展 中的诸 多问分类号]C250.7 1研究对象“2】1工程”的前 40 所大学图书馆的网站作为研究对象【 表 1 ) 。从教育部网站( http:“211的简介,f- , 可以 了解到此项国教育和科研计算机网为依托,设立全国综合文献q1心和一批学科文献中心 ,与国内外文献系统广泛联网,建立文献信息子网通过对各个大学图书馆网站的总链接量 、 外部链接量 、总网页数 、链接源等数据情况进行计算 ,分析它们之间的关系 , 以及由此而引出的一系列问题。表”排名前 40 所大学┏━┳┓┣╋┫北京广播学院(16)┗┻┛ 2.1数据的收集曲对 Intemet 技术 的迅猛发展 ,WEB 信息数据的急剧增对于用户来说想要在信息潮涌L| , 找到准确的信息资料,犹如大海捞针。 搜索引擎技术的出现J 下好满足 厂 这一需求。目前 Internet 中的许多搜索引擎都实现 r 可以检索到一个网站被链接的情况 ,这些搜索引擎多为国外的, 如 Coogle 、Al- tavista、Alltheweb 等。 在著名 的 Google 网站上对于高级搜索的介绍是这样的 :就可以缩小搜索范围。 不过 ,Coogle 还提供 r 很多不同的搜索功能,利用这些功能可以做到:将搜索范嗣限制在某个特定的网站 巾; 排除某个特定网站的网页 ; 将搜索限制于某种指定的语言 : 查找链接到某个指定网页的所有 网页 ; 企找 与指定网页棚关的网页。”对于 Coogle搜索引擎来说,它的数据 D.f;oogle 排名其他策略( 含未公布的保密规则 ) 。本 文 的数 据搜 集工作使 用 Google 搜 索 引擎 。 由 于 Alltheweb 对于中文的搜索及内容类聚 、站点类聚方面的表现不如 Coogle ,尤其重要的是对中文搜索方面的缺失 ,而且 Al- tavisa 现在国内暂时不能链接,所以将两者一并舍弃。由于巾国大学的网站基本上都是通过 CERNET 与Inter- net 联通的, 且多数图书馆有一部分内容只对 CERNET 内部开放 .Intemet 上的大多数用户很难链接这些页面和使用其数据。本拟同时通过 CERNET 内部的搜索引擎统计数据 ,但遗憾的足其提供的功能不多 、不完善 ,很雌达到统计的目 标。通过 Google 提供的高级搜索功能 , 对大学图书馆采用 link和 site两种语法检索式进行检索。 下面是对这两种语法的演示 : A.“link”语法返回所有链接到某个 URL 地址的网页。www.lib.pku.e- du .cn2006 年第 1 期TUSHUGUANXUEKAN搜索:“link : www.lib.pku.edu.cn” 。 结果 : 约有 952 项链接到 www.pku.edu.cn 的查询结果 。(搜索用时 0.21 秒)”不能与其他语法相混合操作 ,所以“link: ”后面即 使有空格,也将被 google 忽略。这一点和 Altavista的搜索引擎有差异。B . “ site ”语法对搜索的网站进行限制。 它表示搜索结果局限于某个具体网站或者网站频道 , 是获得网页数的最好方法。如果是要排除某网站或者域名范围内的页面 ,只需用“一网站, 域名” 。 所获得的网页数乃是搜索引擎所收录的网页 ,一个大型的、应用人群甚广 的搜索引擎 ,对于网站的利用率有较大影响。示例:搜索北京大学图书馆网站的网页总数。搜索 : “ site:www.lib.pku.edu.cn” 。 结果 :www.lib.pku.edu.cn 上约有 3 ,580 项符合的食询结果。 ( 搜索用时0.10 秒 ) 2.2采用 统计学中的 分类统计方 法对采集到的数据制成统计图表进行多角度对比分析 . 往 最后的结论和启示部分 ,对存在的问题和现象作简要的结论 性评价分析。 2.3数据采集结果图表( 注:lIl1 线图巾 1-40 序号参见表 1 所∥j)表 2大学图书馆 Iink 与 site检索式结果对比图 2.4 图表分析与解说a) 本数据的采集从 2004 年 11 月初开始 ,至 2004 年 11月 17 日 22:00 结束。 由于网络中的数据处于不断变化之中, Google搜索引擎的一些不可预料因素也应考虑在内,故而数 据的分析和采集也具有时效性 、阶段性。 采集到的数据不存 在采集者的人为造作因素。 b)大学图书馆网站的域名采用了中国教育与科研计算机网( hup://www.edu.cn)” 和 “ 中国教育在线(http: ∥www.cer. net) ” 中关于中国大学及其图书馆的数据,同时也考虑了因大学合并和改名的因素 , 对于多域名的情况进行了域名转向 、域名废弃的分析和筛选 、剔除。 c)曲线图中曲线起伏幅度走向较为一致。 在东北农业大 学馆(35) 、复旦大学馆(36) 、同济大学馆(37) 、上海交通大学 馆(38)、华东理工大学馆(39) 、东华大学馆(40)呈现数据重 合情况。 3问题的提 出与启示 3.1大学图书馆的 页面量较低在网页量的统计中,我们可以看到一些大学图书馆的页 面量很低 ,通过直接页面浏览后发现情况并非如此 ,而是页 面设计以及搜索引擎准确度等因素造成的。 但个别大学图书 馆确实存在网站页面只有诸如简介、书 目检索等几个简单页 面 ,甚至域名或 IP 指向为死链接。 当然死链接也可能存在网 站维护 、故障等原因 ,但网站页面容量的低层次实在与大学 及其图书馆不相符合。 3.2大学图书馆呈现,link 和 8ite检索数据重合在表 2 中,东北农业大学馆 、复旦大学馆 、同济大学馆 、 上海交通大学馆 、华东理工大学馆 、东华大学馆呈现 link 和site 检索数据重合情况。 这种现象应该视作:这些图书馆自身在网站数据内容的充实 、提高链接次数等方面做出 r 明 硅的努力和改进。4 影响数据量的内外 因素搜索引擎的稳定性和准确性因素足影响数据量的外部 因素 ,但对数据量多少的影响最主要 的还是内部因索 :网络 发展程度 、数据挖掘层次 、文献开发程度 、建站时间的 K 短和 建设程度等。参考文献 :[1 】 中国搜索引擎研究网.Coogle 搜索从入 门到精通 V4.0 http:∥www.diffuse.cn/seo/2004-7/20047770413.lItnICoogle.Coogle 搜索帮助.http://www.google.con 们ntVzll_CNlhelp/refinesearch.html中国搜索引擎研究网.Coogle 排名 不是 简单的优化.littp ://www.diffuse.cn/seo/2004-8/2004 82 184 143.htn1 周荣庭.网络出版.北京:科学出版社 ,2004(8) 邱均平等.网络数据分析.北京:北京大学出版社 ,2004 王崇德,文献计量学引论.桂林 :广西 师 范大 学出版社 ,1997 Google.htcp://www.google.com 中国教育与计算机科研网.http://www.edu.cn 中国教育在线. http://www.cer.net 中华人民共和国教育部. http:∥www.moe.cdu.cn男 ,馆员,1993 年毕业 于辽宁师范 大学信息管理 系。收稿 日期 :2005-04-15 ; 责编:李德戈。 ) 23-t.n.078902006年第 1 期 TUSHUGUANXUEKAN。结果 : 约有 952 项链接到 www.pku.edu.cn 的查询结果 。“link:”后面即使有空格,也将被 google 忽略。这一点和 Altavista的搜索引擎有差异。 B.site”语法对搜索的网站进行限制。 它表示搜索结果局所获得的网页数乃是搜索引擎所收录的网页 ,一搜索 :site:www.lib.pku.edu.cn结果 :www.lib.pku.edu.cn 上约有 3 ,580 项符合的食询结果。搜索用时0.10 秒 )对采集到的数据制成统计图表进行多角度对比分析 . 往最后的结论和启示部分 ,对存在的问题和现象作简要的结论性评价分析。 2.4图表分析与解说 a)本数据的采集从 2004 年 11 月初开始 ,至 2004 年 11月17日22:00结束。由于网络中的数据处于不断变化之中, Google搜索引擎的一些不可预料因素也应考虑在内,故而数据的分析和采集也具有时效性 、阶段性。 采集到的数据不存在采集者的人为造作因素。和中国教育在线(http: ∥www.cer. net)中关于中国大学及其图书馆的数据,同时也考虑了因大曲线图中曲线起伏幅度走向较为一致。 在东北农业大学馆(35) 、复旦大学馆(36) 、同济大学馆(37) 、上海交通大学馆(38)、华东理工大学馆(39) 、东华大学馆(40)呈现数据重合情况。在网页量的统计中,我们可以看到一些大学图书馆的页面量很低 ,通过直接页面浏览后发现情况并非如此 ,而是页面设计以及搜索引擎准确度等因素造成的。 但个别大学图书馆确实存在网站页面只有诸如简介、书 目检索等几个简单页面 ,甚至域名或 IP 指向为死链接。 当然死链接也可能存在网站维护 、故障等原因 ,但网站页面容量的低层次实在与大学及其图书馆不相符合。在表 2 中,东北农业大学馆 、复旦大学馆 、同济大学馆 、上海交通大学馆 、华东理工大学馆 、东华大学馆呈现 link 和 site 检索数据重合情况。 这种现象应该视作:这些图书馆自身努力和改进。 4影响数据量的内外 因素搜索引擎的稳定性和准确性因素足影响数据量的外部因素 ,但对数据量多少的影响最主要 的还是内部因索 :网络发展程度 、数据挖掘层次 、文献开发程度 、建站时间的 K 短和建设程度等。参考文献 : [1中国搜索引擎研究网.Coogle 搜索从入 门到精通 V4.0∥www.diffuse.cn/seo/2004-7/20047770413.lItnI Coogle.Coogle 搜索帮助.http://www.google.con 们ntVzll_CNl help/refinesearch.html中国搜索引擎研究网.Coogle 排名 不是 简单的优化.littp : //www.diffuse.cn/seo/2004-8/2004 82 184 143.htn1周荣庭.网络出版.北京:科学出版社 ,2004(8)邱均平等.网络数据分析.北京:北京大学出版社 ,2004王崇德,文献计量学引论.桂林 :广西 师 范大 学出版社 , 1997 Google.htcp://www.google.com中国教育与计算机科研网.http://www.edu.cn中国教育在线. http://www.cer.net中华人民共和国教育部. http:∥www.moe.cdu.cn理系。收稿 日期 :2005-04-15 ; 责编:李德戈。 ) -t.n.0 7 8 9 0

本文来源:https://www.2haoxitong.net/k/doc/ad4f1cb9f38583d049649b6648d7c1c709a10b70.html

《大学图书馆网站数据研究.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式