范文

发布时间:   来源:文档文库   
字号:
吉林大学远程教育学院20**届本科生毕业论文(设计)


吉林大学远程教育

本科生毕业论文(设计)

基于社交网络的搜索引擎设计与实现


112073010101111

20

4

1



吉林大学远程教育学院20**届本科生毕业论文(设计)

本文首先对社交网络的现状进行了简要介绍,详细说明了社交网络中信息的特点及其价值,并分析了搜索引擎在社交网络领域应用时面临的困境。重点阐述了设计实现面向融合社交网络应用的搜索引擎所需要考虑的问题。
然后,介绍了搜索引擎的相关知识,深入研究了开源网络爬虫框Heritrix和全文检索工具包Lucene同时,根据设计目标和原则,设计出系统总体框架结构。接着,对系统进行实现,通过对Heritrix开源框架的定制和扩展,实现在社交网络内信息资源的爬取;对Lucene架构进行分析论述,在理解其设计思想的基础上进行扩展,并应用到系统中,实现面向社交网络的索引和检索服务;设计用户交互界面,对系统关键功能模块进行测试。
关键词搜索引擎社交网络LuceneHeritri


吉林大学远程教育学院20**届本科生毕业论文(设计)


一、绪论.......................................................................................................................................1
(一)论文背景.................................................1(二)研究意义.................................................2(三)主要工作.................................................3(四)论文结构.................................................3二、搜索引擎技术研究............................................................................................................4
(一)搜索引擎概述.............................................4(二)搜索引擎工作原理.........................................4(三)搜索引擎的关键技术.......................................4三、面向融合社交网络应用的智能搜索引擎的设计...................错误!未定义书签。
(一)系统需求分析............................错误!未定义书签。(二)系统总体结构设计........................错误!未定义书签。(三)关键功能模块设计........................错误!未定义书签。四、面向融合社交网络应用的智能搜索引擎的实现...................错误!未定义书签。
(一)系统关键模块实现........................错误!未定义书签。(二)功能测试................................错误!未定义书签。结论..............................................................................................................错误!未定义书签。致谢................................................................................................................................................6参考文献.......................................................................................................................................5


吉林大学远程教育学院20**届本科生毕业论文(设计)
一、绪论
本章首先对社交网络发展现状进行说明,然后介绍了搜索引擎在社交网络中的应用,重点分析了当前在社交网络领域搜索引擎应用面临的主要问题,由此引出本论文的研究方向和意义。最后简要介绍了本论文的主要工作和论文的组织结构安排。(一)论文背景
1.社交网络现状
社交网络又称社交网络服务(SocialNetworkingServices,简称SNS,其作用是将拥有相同兴趣与活动的人组织起来,为其创建一个在线社区。社交网络的基本构思,是基于哈佛大学教授斯坦利·米尔格拉姆(StanleyMilgram)创立的六度分割理论(SixDegreesofSeparation)提出的。六度分割理论表明,任何两个陌生人之间所间隔的最大人数为六,换言之,你最多通过六个人就能够与任何一个陌生人建立关系。按照上述理论,个体的社交圈会不断地扩大和重叠并在最终形成庞大的社交网络[1]
随着互联网技术的发展,在综合使用WEB2.0技术和六度分割理论的基础上,一些有名的SNS网站——FacebookMySpace等在2003年前后相继出现。接下来几年,此类以“朋友的朋友是朋友”为原则,来拓展网络社交的SNS站在全球互联网用户中风靡开来,其中包括FacebookMyspace、开心、人人以twitter、新浪微博、腾讯微博、百度说吧。下面对具有代表性的社交网站进行简要介绍:
Twitter[2],中文名称:推特,于20067月成立于旧金山,是国外的一个社交网络及微博客服务的网站。它利用无线网络,有线网络,通信技术,进行即时通讯,是微博客的典型应用。它允许用户将自己的最新动态和想法以短信形式发送给手机和个性化网站群,而不仅仅是发送给个人。2010415日,在Twitter开发者大会上,Twitter联合创始人比兹·斯通透露,Twitter注册用户突破了一亿大关,如图1-1;并且独立用户访问量达1.8亿。
16

吉林大学远程教育学院20**届本科生毕业论文(设计)
REGISTEREDUSERS
105,779,710
20062008
2010
[3]
1-1twitter注册用户增长表

社交网络正在深入人们的生活,并为人们日常生活带来了便利和乐趣,因为对网民有着前所未有的亲和力,社交网络迅速成长。虽然面临很多障碍,但社交网站的发展已成为大势所趋。国内外社交网站的集体爆发,涌现出海量的网络社交信息,这类信息具有较高的可靠性、真实性,为搜索引擎的发展也带来了机遇。
2.搜索引擎在社交网络中的应用
社交网络的蓬勃发展景象,也吸引了搜索引擎企业的注意。2010630日,百度[13]低调地组建社会化网络事业部,并且针对社交网络领域广纳人才,这直接表明,百度将涉足SNS领域,并且SNS服务很有可能成为百度业务新的增长点。搜索引擎的另一巨头谷歌也正乘机进入社交网络范畴。谷歌自从2009年便开始在搜索结果中整合社交内容,但一直未对这类内容给予太大重视。时隔一年多之后,20112月中旬,谷歌搜索产品总监麦克·卡西迪(MikeCassidy表示,谷歌今后将针对社交内容重点将展开三大计划:在结果中整合社交内容、提升社交领域的覆盖率、为用户提供更多控制。但是搜索引擎在社交网络领域的应用面临着诸多困难,主要表现在以下几个方面:
首先,。。。。。。其次,。。。。。。最后,(二)研究意义
目前,随着检索技术的发展,信息孤岛问题已经可以解决。针对上述社交网
26

吉林大学远程教育学院20**届本科生毕业论文(设计)
络信息孤岛问题,本文设计并实现一个面向融合社交网络的智能搜索引擎系统。其目标就是使搜索引擎用户,在一个界面内输入一次关键字,就能够检索自己所关注的社交网站内个人主页,从而迅速地通过检索系统返回自己所关注的个人信息。本论文中提出的解决上述问题的基本思想:只针对各个社交网站内个人主页信息,设计实现一个搜索引擎,在一个统一的界面内检索和显示用户在各个社交网站内所关心的信息。
对面向融合社交网络应用的搜索引擎的研究,可以一定程度上缓解搜索引擎面临社交网络的挑战,同时也将为搜索引擎的发展开辟一个新的空间。最主要的是,使用面向融合社交网络的搜索引擎,将为同时在多个SNS检索信息的用户提供极大便利。(三)主要工作
本文对面向融合社交网络应用的智能搜索引擎系统进行详细设计,并使用全文检索工具包Lucene和开源网络爬虫Heritrix技术来构建系统;本文就本人的主要工作进行说明,主要包括一下几个方面:
1.调研社交网络的现状,研究搜索引擎的工作原理,通过分析搜索引擎的工作流程,掌握搜索引擎构建过程。
2.参照网络爬虫知识,对Heritrix开源网络爬虫框架进行学习,主要探讨了其可扩展特性;然后对对全文检索工具包Lucene进行研究,分析其主要架构和主要部件。
3.在理论基础上,对面向融合社交网络应用的智能搜索引擎系统进行需求分析,设计系统总体结构,重点对系统的关键模块进行详细设计。
4.依据系统设计方案,利用开源网络爬虫Heritrix和全文检索工具包Lucene对系统进行实现,并完成关键功能模块的测试。(四)论文结构
1部分介绍搜索引擎的基本概念、其发展趋势,以及社交网络的现状,细分析了搜索引擎在社交网络领域应用所面临的问题,简要介绍了解决所面临问题的基本思想,提指出面向融合社交网络应用的智能搜索引擎的研究意义,最后对论文结构做了简要叙述。
2部分。
36

吉林大学远程教育学院20**届本科生毕业论文(设计)
二、搜索引擎技术研究
本章首先介绍了搜索引擎的主要分类、发展趋势以及工作原理,然后对其关键技术进行了详细的研究,特别是对开源网络爬虫Heritrix和全文检索工具包Lucene进行详细的阐述。
一)搜索引擎概述
(略)
(二)搜索引擎工作原理
(略)
(三)搜索引擎的关键技术
(略)

2-1Lucene包结构功能表
Lucene包结构功能表
包名
org.apache.lucene.analysisorg.apache.lucene.documentorg.apache.lucene.indexorg.apache.lucene.queryParserorg.apache.lucene.searchorg.apache.lucene.storeorg.apache.lucene.util
功能
语言分析器,主要用于的切词,支持中文主要是扩展此类索引存储时的文档结构管理,类似于关系型数据库的表结构索引管理,包括索引建立、删除等
查询分析器,实现查询关键词间的运算,如与、或、非等检索管理,根据查询条件,检索得到结果数据存储管理,主要包括一些底层的I/O操作一些公用类

(四)本章小结
本章首先对搜索引擎的基本概念进行说明,然后对搜索引擎的分类及发展趋势做出简要的介绍,详细阐述了搜索引擎的工作原理。接下来针对本系统采用的全文检索工具包Lucene和网络爬虫框架Heritrix进行重点介绍:主要介绍Lucene的索引文件的逻辑结构、核心类;详细介绍Heritrix的主要组件,以此来理解其主要构架及工作方式。
46

吉林大学远程教育学院20**届本科生毕业论文(设计)
参考文献
[1]邱哲,符滔滔,王学松.开发自己的搜索引擎---Lucene+Heritrix(2[M].北京:
人民邮电出版社,2010
[2]百度百科:搜索引擎.http://baike.baidu.com/view/1154.htm[Z][3]毛蕾.浅议网络搜索引擎的发展趋势[J].内蒙古科技与经济.2010(17
[4]车东.基于Java的全文索引引擎Lucene简介.http://www.chedong.com/tech/
lucene.html[Z]
[5]张书江.基于Java的垂直搜索引擎的设计与实现[D].安徽:安徽理工大学,2009[6]张伟.垂直搜索引擎的设计与实现[D].西安:西安电子科技大学,2008
56

吉林大学远程教育学院20**届本科生毕业论文(设计)

时光荏苒,曾经无比憧憬与梦想的大学生活即将在这最后的毕业设计中落下帷幕了。在这最后一学期进行毕业设计期间,我得到了大家的帮助,受益匪浅。
首先,要感谢我的父母亲,正是他们这些年对我默默的支持才使我走到现在。然后,要感谢我的母校,在这里我度过了丰富而充实的四年。
感谢XXX老师,她治学严谨,在毕业设计的研究方向和目标上更是给予了很多指导。
感谢课题组的所有成员对我无私的帮助。
感谢XXX老师、XXX同学,帮助我尽快了解毕业设计涉及到的相关领域的知识,以及对我的毕设论文的指导。感谢XXX为我解答很多搜索引擎设计等方面的问题,而且在我觉得困难和无助的时候,对我的鼓励,坚定了我的信心。
谢谢大家在大学的最后一段时间里对我的关心和帮助。
66

本文来源:https://www.2haoxitong.net/k/doc/9181f29cde80d4d8d05a4f6a.html

《范文.doc》
将本文的Word文档下载到电脑,方便收藏和打印
推荐度:
点击下载文档

文档为doc格式