正在进行安全检测...
发布时间:2023-11-15 07:34:04 来源:文档文库
小
中
大
字号:
龙源期刊网http://www.qikan.com.cn基于Python聚焦网络爬虫的用户在线评论内容分析作者:王煜炜来源:《科学与信息化》2020年第20期>>>>
龙源期刊网http://www.qikan.com.cn>>>>>>>>
龙源期刊网http://www.qikan.com.cn摘要近年来,随着“互联网+”的全面推进,互联网上的信息量不断增加,如何高效、快速地获取目标信息,并对信息进行有效分析成为亟待解决的问题。本研究设计并实现了一个基于Python的聚焦网络爬虫系统,以体育场馆用户在线评论为例,对评论信息进行获取,并对数据进行可视化展示和内容分析,结果表明,该系统能够较好挖掘用户对于场馆评论中隐藏的信息。关键词Python;聚焦网络爬虫;在线评论;内容分析引言物联网、人工智能、大数据、5G等技术的不断发展和成熟,有效促进了互联网数据的增长。互联网数据通常具有海量、多维、多尺度等大数据的特点,采取有效的方法和手段对互联网数据进行收集和分析,是理解互联网数据的重要手段[1]。传统的数据收集方法和技术(如调查问卷,采访)会受到资金、地理位置和样本量等一系列条件的影响和限制。网络爬虫依托于大数据框架和计算机技术,可用于对海量互联网数据进行请求和提取,为深层次的内容分析和挖掘奠定了基础[2]。本文基于Python标准库、第三方库和爬虫技术,设计并实现了一个聚焦网络爬虫系统,用于对指定网页和内容进行爬取,并进一步对爬取到的数据进行存储和内容分析。在实例分析中,爬虫系统第一步将抓取“趣运动”网站(http://www.quyundong.com/)中体育场馆用户评论信息的页面,第二步对网页进行解析并过滤无关的内容和数据,第三步对抓取数据进行存储,第四步对体育场馆用户中差评信息进行词云图展示和词频统计,第五步对高频词汇和词云图进行分析,挖掘造成中差评的主要原因,为场馆改进提供建议,同时为其他用户提供决策依据。1基于Python的聚焦网络爬虫系统设计1.1聚焦网络爬虫定义通用网络爬虫通过统一资源定位符(UniformResourceLocator,URL)搜索网页,通过遍历所有待抓取URL队列,将网页相关数据返回给用户[3]。聚焦网络爬虫基于通用网络爬虫,专注于抓取满足特定主题和特定属性的网页。该爬虫策略性搜索、获取、下载、维护与特定主题相关的网页URL,所有其他无关的URL将通过程序代码被过滤。通过采用聚焦網络爬虫,用户无须通过网页搜索引擎来获取信息,这样既节省了时间和精力,又提高了数据采集的可靠性、针对性和准确性[4-6]。聚焦网络爬虫下载的“面向主题”的数据,后续可通过采用有效的内容分析和挖掘技术,提取出数据中隐藏的有价值信息。1.2聚焦网络爬虫系统工作流程
龙源期刊网http://www.qikan.com.cn该聚焦网络爬虫系统工作流程分为下列5部分,如图1所示。(1)URL队列:聚焦网络爬虫系统基于指定一个或几个网页网址,把这些网址作为URL种子,将URL种子放入URL队列中等待爬取。(2)网页获取:根据指定URL,按照一定的规则对网页进行遍历,发送请求并执行相应爬取。(3)网页处理:对网页信息进行解析和处理,提取出与研究主题相关的网页内容部分,过滤掉其他无关数据和内容。(4)数据存储:对进行网页处理后,与研究主题相关的数据进行存储,本研究中将其存储为Excel格式。(5)可视化和内容分析:对存储数据进行可视化以及内容分析,包括词云可视化分析、词频统计等方法。2数据爬取与存储具体实现本章借助Python聚焦网络爬虫系统,以爬取“趣运动”网站体育场馆用户在线评论为例,进行数据爬取与存储的具体实现,分为以下3步。(1)网页抓取。趣运动网站采用的是异步加载Ajax技术,通过分析趣运动网站结构和网址构造,得到获取用户评论的URL请求地址为http://www.quyundong.com/venues/jsonComments?random=xxxx&page=****&business_id=####,该请求由3个网页参数组成:xxxx对应的是随网页请求生成的随机数(random)、****对应的是在线评论页数(page)、####对应的是场馆编号(business_id)。确定3个参数后,采用Python中的第三方requests库对指定场馆用户在线评论URL请求进行抓取。(2)网页处理。趣运动网站用户评论信息以JSON