查看: 230|回复: 10

「扬名立万」豆瓣影评爬取与分析

[复制链接]

2

主题

53

帖子

107

积分

注册会员

Rank: 2

积分
107
发表于 2022-12-10 15:35:54 | 显示全部楼层 |阅读模式
朋友们好,我是芒果绿了。
你读大学的时候看过「万万没想到」吗!!
你还记得万合天宜吗!!
你还记得王大锤吗!!


没错,他们出电影了 -- 扬名立万!!

扬名立万自上线以来,评分一路上涨,目前已经涨到7.6分,这在院线电影中已经是非常难得的成绩了(泰囧才7.5分)。我也专门去影院看了,个人觉得非常不错,但是印象更深的是小姨妈好美!!!!哭的人心都碎了!!

言归正传,我爬取了扬名立万的豆瓣影评,想分析一下大家对这部电影的评分及评价。

感兴趣的朋友私信我获得全部爬虫和分析代码
<hr/>本文结构速览:
1.数据爬取
2.数据分析
2.1 评分分析
2.2 城市分析
2.3 词云图
2.4 情感分析

3.本文不足
<hr/>
1 数据爬取

豆瓣网从2017年10月开始全面禁止爬取数据。在非登录状态下仅仅可以爬取200条短评,登录状态下仅可以爬取500条数据。白天一分钟最多可爬40次,晚上60次,超过次数就会封IP地址(不要问我怎么知道的


换了个账号,最终成功爬取500条数据,其中包括评论时间、用户名、评分、点赞数和评论文本,并将其保存至csv文件中。


再来看一下数据的基本情况:


居然 连500条数据都不到,而且存在一些缺失值==
由于数据本身较少且后续的分析基本是对每个字段分开分析的,所以这里就不处理缺失值了~

2 数据分析

该部分包括:

  • 影评评分分布
  • 城市信息分布
  • 词云图(正向、负向)
  • 情感分布(snownlp)
2.1 评分分布

数据中评分的枚举值为力荐、推荐、还行、较差、很差,分别对应豆瓣评分的5-1分。
使用pyecharts对其可视化可以发现,电影的评分整体还是比较高的,推荐和力荐占比占到了60%以上,当然也有30%的用户觉得该电影极差~



2.2 评论来源城市分析

在获取数据时,特意抓取了用户城市信息,如果评论页面没有城市信息需要到用户首页获取,这也是为什么很容易被豆瓣封掉的原因~

但是豆瓣用户的常居城市往往是省市合在一起的,比如广东广州、吉林长春,为了更好地分析城市需要先将这类城市信息拆解出来,这里我们只需要城市信息~




最终,清洗出382个城市,使用柱状图对其可视化:


可以发现,北上广三个城市的用户占比极高,这也侧面说明了城市的经济基础决定上层建筑,与其他城市相比,北上广的用户能够较好地满足“生理需求”,在此基础上才能追求更高层次的精神追求。


2.3 词云图

词云图能够直观反映用户讨论讨论的主题和用户的评价内容,这里分别对全部评论、评分最高的评论、评分最低的评论进行词云图绘制~

词云图生成过程:

  • 解析出所有评论内容;
  • jieba分词(记得去除停用词和导入自定义词);
  • 词频统计;
  • 使用pyecharts绘制美丽的词云图;
1.全部评论词云图



从以上词云图中可以发现,“故事”、“导演”、“剧情”、“台词”、“演技”、“万合天宜”等都是观众所讨论的重要话题,其中“惊喜”、“不错”、“喜欢”等词可以看出用户整体的评价是偏正向的。
2.正向评论词云图
此处正向评论定义为「评分」为「力荐」的评论内容~


可以发现,正向的词云图和负向的差别不大,再次证明用户整体评价偏正向~

3.负向评论词云图
此处负向评论定义为「评分」为「很差」的评论内容~


不喜欢这部电影的观众觉得剧情无聊、表演做作、设定低级、编剧退钱!
果然是萝卜白菜,各有所爱~

2.4 情感分析
这里使用snownlp对评论进行评分~
snownlp是一种可以进行中文分词、词性标注、情感分析、文本分类、转换拼音、繁体转简体、提取文本关键词、提取摘要、分割句子、文本相似的自然语言处理算法。在看此之前,可以先看一下官网,里面有最基础的一些命令的介绍。官网链接:https://pypi.org/project/snownlp/
使用snownlp对每一句评论进行打分,并将分数可视化如下:


0.5以下为负面情绪,0.5以上为正面情绪。从上图中可以看到好评还是很不错的,所以才有了豆瓣7.5的高分~
3 本文不足

怎么感觉我在写论文?

我花了很多时间在这篇文章上,希望能分析出一些有意思的结论,但是由于技术水平、网页限制等各种原因,本文存在以下不足:

  • 数据不足:因为豆瓣限制只能爬500条数据,最终数据量偏少,可能有些结论存在偏颇~
  • 情感分析粗略:本文使用的snownlp只能进行粗粒度的情感分析,即每个评论给予一个情感值,但是真实评价可能存在「表扬演员」+「批评剧情」+「表扬音乐」等多个情感,这里没有进行细化分析~
针对不足1,希望有大佬可以教教我怎么多爬一些数据;针对不足2,希望以后有时间可以继续探索~
回复

使用道具 举报

2

主题

70

帖子

141

积分

注册会员

Rank: 2

积分
141
发表于 2022-12-10 16:03:27 | 显示全部楼层
为保住菊花,这个一定得回复!
回复

使用道具 举报

0

主题

55

帖子

108

积分

注册会员

Rank: 2

积分
108
发表于 2022-12-18 23:32:02 | 显示全部楼层
支持楼主,用户楼主,楼主英明呀!!!
回复

使用道具 举报

0

主题

53

帖子

105

积分

注册会员

Rank: 2

积分
105
发表于 2022-12-19 05:03:54 | 显示全部楼层
顶顶更健康
回复

使用道具 举报

0

主题

61

帖子

122

积分

注册会员

Rank: 2

积分
122
发表于 2023-1-1 12:59:57 | 显示全部楼层
为毛老子总也抢不到沙发?!!
回复

使用道具 举报

2

主题

44

帖子

89

积分

注册会员

Rank: 2

积分
89
发表于 2023-1-18 23:32:51 | 显示全部楼层
站位支持
回复

使用道具 举报

1

主题

47

帖子

94

积分

注册会员

Rank: 2

积分
94
发表于 2023-1-23 08:23:39 | 显示全部楼层
广告位,,坐下看看
回复

使用道具 举报

0

主题

53

帖子

105

积分

注册会员

Rank: 2

积分
105
发表于 2023-1-26 05:16:18 | 显示全部楼层
鼎力支持!!
回复

使用道具 举报

0

主题

49

帖子

97

积分

注册会员

Rank: 2

积分
97
发表于 2023-3-3 11:44:00 | 显示全部楼层
楼下的接上
回复

使用道具 举报

1

主题

44

帖子

88

积分

注册会员

Rank: 2

积分
88
发表于 2023-3-11 07:26:29 | 显示全部楼层
留个言~回家睡觉!
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|电影吧

Copyright © 2001-2013 Comsenz Inc.Template by Comsenz Inc.All Rights Reserved.

Powered by Discuz!X3.4

快速回复 返回顶部 返回列表