首页 > 正在进行安全检测...

正在进行安全检测...

发布时间：2023-11-15 07:34:04 来源：文档文库

小中大

字号：

手机查看

龙源期刊网http://www.qikan.com.cn基于Python聚焦网络爬虫的用户在线评论内容分析作者：王煜炜来源：《科学与信息化》2020年第20期
龙源期刊网http://www.qikan.com.cn
龙源期刊网http://www.qikan.com.cn摘要近年来，随着“互联网+”的全面推进，互联网上的信息量不断增加，如何高效、快速地获取目标信息，并对信息进行有效分析成为亟待解决的问题。本研究设计并实现了一个基于Python的聚焦网络爬虫系统，以体育场馆用户在线评论为例，对评论信息进行获取，并对数据进行可视化展示和内容分析，结果表明，该系统能够较好挖掘用户对于场馆评论中隐藏的信息。关键词Python;聚焦网络爬虫;在线评论;内容分析引言物联网、人工智能、大数据、5G等技术的不断发展和成熟，有效促进了互联网数据的增长。互联网数据通常具有海量、多维、多尺度等大数据的特点，采取有效的方法和手段对互联网数据进行收集和分析，是理解互联网数据的重要手段[1]。传统的数据收集方法和技术（如调查问卷，采访）会受到资金、地理位置和样本量等一系列条件的影响和限制。网络爬虫依托于大数据框架和计算机技术，可用于对海量互联网数据进行请求和提取，为深层次的内容分析和挖掘奠定了基础[2]。本文基于Python标准库、第三方库和爬虫技术，设计并实现了一个聚焦网络爬虫系统，用于对指定网页和内容进行爬取，并进一步对爬取到的数据进行存储和内容分析。在实例分析中，爬虫系统第一步将抓取“趣运动”网站（http：//www.quyundong.com/）中体育场馆用户评论信息的页面，第二步对网页进行解析并过滤无关的内容和数据，第三步对抓取数据进行存储，第四步对体育场馆用户中差评信息进行词云图展示和词频统计，第五步对高频词汇和词云图进行分析，挖掘造成中差评的主要原因，为场馆改进提供建议，同时为其他用户提供决策依据。1基于Python的聚焦网络爬虫系统设计1.1聚焦网络爬虫定义通用网络爬虫通过统一资源定位符（UniformResourceLocator，URL）搜索网页，通过遍历所有待抓取URL队列，将网页相关数据返回给用户[3]。聚焦网络爬虫基于通用网络爬虫，专注于抓取满足特定主题和特定属性的网页。该爬虫策略性搜索、获取、下载、维护与特定主题相关的网页URL，所有其他无关的URL将通过程序代码被过滤。通过采用聚焦網络爬虫，用户无须通过网页搜索引擎来获取信息，这样既节省了时间和精力，又提高了数据采集的可靠性、针对性和准确性[4-6]。聚焦网络爬虫下载的“面向主题”的数据，后续可通过采用有效的内容分析和挖掘技术，提取出数据中隐藏的有价值信息。1.2聚焦网络爬虫系统工作流程
龙源期刊网http://www.qikan.com.cn该聚焦网络爬虫系统工作流程分为下列5部分，如图1所示。（1）URL队列：聚焦网络爬虫系统基于指定一个或几个网页网址，把这些网址作为URL种子，将URL种子放入URL队列中等待爬取。（2）网页获取：根据指定URL，按照一定的规则对网页进行遍历，发送请求并执行相应爬取。（3）网页处理：对网页信息进行解析和处理，提取出与研究主题相关的网页内容部分，过滤掉其他无关数据和内容。（4）数据存储：对进行网页处理后，与研究主题相关的数据进行存储，本研究中将其存储为Excel格式。（5）可视化和内容分析：对存储数据进行可视化以及内容分析，包括词云可视化分析、词频统计等方法。2数据爬取与存储具体实现本章借助Python聚焦网络爬虫系统，以爬取“趣运动”网站体育场馆用户在线评论为例，进行数据爬取与存储的具体实现，分为以下3步。（1）网页抓取。趣运动网站采用的是异步加载Ajax技术，通过分析趣运动网站结构和网址构造，得到获取用户评论的URL请求地址为http：//www.quyundong.com/venues/jsonComments？random=xxxx&page=****&business_id=####，该请求由3个网页参数组成：xxxx对应的是随网页请求生成的随机数（random）、****对应的是在线评论页数（page）、####对应的是场馆编号（business_id）。确定3个参数后，采用Python中的第三方requests库对指定场馆用户在线评论URL请求进行抓取。（2）网页处理。趣运动网站用户评论信息以JSON格式进行存储，评论信息的JSON结构如图2所示，故调用Python中的JSON库对评论信息进行解析。由于评论信息以键值对的形式存在，在遍历每位已注册用户评论信息时，仅需筛选出评论时间（create_time）、评论内容（content）、评论等级（comment_rank），其他的信息：评论ID（comment_id）、场馆ID（business_id）、用户ID（user_id）、用户姓名（user_name）、用户头像（avatar）、用户上传图片列表（image_list），由于与该研究主题关联不大，将被过滤掉，不参与数据爬取。最终将所有符合要求的评论信息存入一个结果集中。（3）数据存储。调用Python中的Workbook库，将第二步得到的结果集写入Excel文件，对体育场馆用户评论数据进行存储。最终获取到用户有效在线评论数据18023条，从这些
龙源期刊网http://www.qikan.com.cn数据中筛选出评论为3分及以下（comment_rank<=3，满分5分）的中差评共768条，作为可视化和内容分析的对象。3可视化与内容分析具体实现在聚焦网络爬虫系统架构中，爬取完所需数据之后，需对数据进行可视化和内容分析，旨在挖掘出数据中隐藏的有价值信息。（1）数据可视化。读取所有用户在线评论文本，导入Python中的jieba中文分词库，获取在线评论的中文分词列表。接着使用wordcloud词云库，设置stopwords屏蔽词参数，对数据进行清洗，同时设置词云图的形状、背景颜色、高度、宽度和字体，结果可生成相应词云图，对场馆用户评论数据中出现频率较高的“关键词”予以可视化的展示（如图3所示）。接着调用Sklearn库中的CountVectorizer函数，分别提取词汇和计算词频，对评论数据中的词汇进行词频统计，并将结果存储在CSV文件中。（2）内容分析。对筛选出的评论为3分及以下的中差评数据进行统计，其中评分为3分的用户评论共389条，占比50.65%;评分为2分的106条，占比13.80%;评分为1分的260条，占比33.86%;评分为0分的13条，占比1.69%。结合词云图和词频分析结果，发现出现次数最多的前10个高频词汇分别是：场馆（286次）、不好（130次）、灯光（84次）、服务态度（

《正在进行安全检测....doc》

将本文的Word文档下载到电脑，方便收藏和打印

推荐度：

点击下载文档

文档为doc格式

相

关

案

例

正在进行安全检测...

相关推荐

推荐内容