V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
爱意满满的作品展示区。
cqcn1991
V2EX  ›  分享创造

为什么这部电影的豆瓣评分我不认可?—— 一点数据分析的视角

  cqcn1991 ·
cqcn1991 · 2017-06-16 14:14:42 +08:00 · 14002 次点击
这是一个创建于 2756 天前的主题,其中的信息可能已经有所发展或是发生改变。

这是最近做的一篇分析,希望大家帮我看看,不知道有什么问题? 有什么建议也欢迎指出~, 原文在这里

源代码: https://github.com/cqcn1991/movie-compare

文中涉及的交互式散点图: https://cdn.rawgit.com/cqcn1991/movie-compare/master/clusters.html


不知道大家有没有这样的经历 —— 看了一部电影,但对豆瓣的评分并不认可

比如,之前看西游伏妖篇,我就很疑惑,为什么分数这么低?毕竟,周星驰是我很喜欢的导演

1-1.jpg

而且,评论区也出现了截然相反的评价

1-2.jpg

再比如最近的神奇女侠 Wonder Woman,虽然分数不错,但我并不觉得很好看

此外,一直以来也有“爱乐之城 /摔跤吧爸爸评分偏高了吗?”等类似的问题。所以,会想问 —— 为什么有的电影分数高 /低,但是我们并不认同?是不是豆瓣电影的分数有问题?

之前,从国内外评价差异的角度分析过,比如赤壁 /让子弹飞,国内外的评价并不一致,但还有没有别的原因?

1. 数据概况

选取 2008-2017, 国内公映的电影。限制豆瓣评分人数在 2W 以上,一方面讨论大家较为熟悉、主流的电影,另一方面也尽量减少水军等的影响。总共 815 部电影,评分分布如图

1-3.jpg

包括了很多大家熟悉的电影

1-4.jpg

2. 评分的差异

2.1 西游 vs. 杜拉拉

仔细观察西游的评分,会发现和相同评分的电影(杜拉拉升职记)的分布差别很大。

2-1.jpg

两者评分相同,评价人数也很多( 20W, 17W ),但 5 星和 1 星的比例差别很大[1]。

什么意思呢?

  • 杜拉拉升职记:大家都觉得很一般,所以评分集中在了 3 星

  • 西游伏妖篇:同时有不少人觉得不错 /较差,在 1 星和 5 星有不少的分布。

也就是说,尽管两者(平均)分数相同,但是背后的看法非常不同,评分差异很大,这也正好对应了上面,西游出现两种截然相反的热评的情况。

2.2 怎么衡量评分差异

评分分布的差异,可以用方差来衡量,计算方法如下

text-1.jpg

也就是计算 评分偏离平均分的程度。下文使用标准差( STD ),方差开方即可。可以做出标准差( STD ) - 豆瓣评分( Rating )散点分布图[2]。为了便于比较,做标准差 97%范围线。

2-2.jpg

可以看到西游和杜拉拉升职记的 STD 差别确实很大,西游的标准差排在前 3% ,争议性是巨大的,而杜拉拉则小很多。 另外,还发现散点图的有两个特点

  • 收敛:分数越高(比如从 6 分到 10 分),STD 分布的范围越来越窄,值越来越小

  • 不对称: 理论上来说,这张图应该是关于 6 分对称的,因为颠倒一下评星的顺序( e.g. 5 星 -> 1 星, 4 星 -> 2 星),就能得到对称的 STD 值,但实际并不对称。

对于收敛,可以从平均分怎么计算出来的角度理解:平均分越高,占高分的比例越大,因此评分差异较小。至于不对称,后面再说。

2.3 典型电影

这里,可以看到很多典型评价差异很大的电影,比如刺客聂隐娘一步之遥 等等都在这张图的上方,STD 很高

2-3.jpg

可以拿他们和 STD 较低的电影比较

2-4.jpg

这里可以问一个问题 —— 这些电影的分数相同,但同样好看 /不好看吗?

比如,刺客聂隐娘我 11的分数一样,但他们一样好看吗?

显然不是

和前面的比较类似,刺客聂隐娘虽然评分较高,但其 5 星 /1 星和我 11 差别很大。为什么呢?大家可能早有耳闻,看评论,也能看到

2-5.jpg

可能的原因,是刺客聂隐娘画面极具美感,但另一方面,剧情却让人看不懂。所以评分上出现了较大的分歧。一步之遥也是类似,算是比较有名的例子了。

爸爸去哪儿,也能从评论中看到一些端倪

2-6.jpg

可能的原因是,一方面是娱乐性优秀,带着小孩看电影的家长观众们觉得很好,另一方面,有人觉得这不是电影,纯属圈钱。

通常,我们总是在讨论一部电影评分的高低,但这只是平均分,当大家看法一致的时候,这个分数会很有参考价值。但当评分差异很大( STD 很大)的时候,这个分数的作用就有限了

3. 电影评分的形状

3.1 总共有几种形状?

从评分的分布,很容易想到关于评分形状的段子

3-1.jpg

那么,电影的评分,会有多少种形状呢?

可以用 K-Means 来做。实际可以分很细,这里简单分成 6 种,比较有代表性,结果如下图

3-2.jpg

[注,高 STD 的电影因为其形状差异很大,并不适用于这个分类]

这些分布,相当于电影评分的典型形状,两头和中间对应了大家熟知的 P, b 和钟形分布

这可以部分解释,为什么散点图是非对称的 —— 因为有很多 4 星为主的电影,但很少有 2 星为主的电影。毕竟,大多时候给的评价都是一般( 3 星),或烂片( 1 星),很少会有电影“精确烂到 2 星”。

每个形状下,也能看到 STD 高 /低的电影,比如魔兽,爱乐之城等等。

3-3.jpg

3-4-2.jpg

依然可以问这个问题 —— 这些电影分数相同,但是同样好看吗?

爱乐之城, 虽然评分和萨利机长一样,都算典型的好电影了,但是打 5 星的明显比萨利机长多,也侧面说明了为什么有人疑惑其分数“是否偏高”。魔兽,则可能有粉丝加成的影响。其他电影不再具体讨论,大家可以自己分析~

3.2 奇怪的形状

还有一些奇怪形状的电影,比如人间·小团圆,小时代 4, 长城,并不属于上述任何一种典型分布

3-4.jpg

这是为什么?

具体原因不得而知。但实际上,这是典型的混合分布的特征,也就是说,由几个分布叠加得到。

如果把最差评分和中等评分混合起来(各按 50%算),可以得到和上面非常相似的形状

3-5.jpg

那么,有没有可能真的是混合分布呢?

查看评论,不难发现,对于人间·小团圆,是 ZZ 因素导致了对其评分的极大差别。

3-6.jpg

小时代可能也是类似。有人看到郭小四就要打一星,另一方面,原著粉们则表示还算不错。

那么长城呢?可以查看近期的评价。需要注意的是,这时不太可能有水军了,因为这时候的分数对票房毫无意义。简单看一下前两页,发现 2-3 星居多

3-7.jpg

和当初的差评还是有差距的。更靠谱的当然是抓数据,不过豆瓣官方并没有公开相关的数据,这个以后有机会再补吧~ 延伸出来的问题是,恶评如流的电影,在下映之后,还会有那么多差评吗?

4. 总结

本文主要做了两件微小的工作

  • 用标准差( STD )展示了电影评分的差异情况,能看到不少评价差异很大的电影

  • 对评分的形状,用 K-Means 分类,可以看到评分形状的几大类型

回到我们最开始的问题 —— 为什么有的电影分数高 /低,但是我们并不觉得如此?是分数有问题吗 ?

原因在于,那只是个平均分而已

而有意思的也在于此 —— 大多数人在谈论豆瓣的评分的时候,都知道这是平均分,也都能看到分数的分布情况。而且大多数时候,这个平均分是有效的,因为大家的评价较为接近( STD 较小)

但是,很少有人注意到评分的分歧大小(即 STD 的大小)。所以,当看到一部 STD 很大的电影,平均分和我们感受不符时,我们疑惑了,进而觉得豆瓣的评分有问题。实际上,只是因为人们的评价差异太大( STD 太大),使平均分失去了意义而已。


最后,我在想,有没有可能给豆瓣评分旁边加上一个小标签?比如,对 STD 特别大的电影,在旁边加个“分歧警告”标签,注明“这部电影的评价差异水平达到了前 3%,平均分的参考意义较为有限”, 进一步还可以分开展示好评 /差评,向用户解释评价差异具体如何。这样或许能减少一些人们对(平均)评分的疑虑。

然后,分析有什么疏漏或者没讲清楚的地方,也欢迎大家指出~

[1] 这里采用的是豆瓣的评分柱状图,画法并不标准(占比最大为定宽),但适用于基本的比较

[2] 实际 STD 的尺度没有这么大。这样画图类似于把 STD 做规整化,更方便于比较。

第 1 条附言  ·  2017-06-16 15:14:50 +08:00
另外,看到评论里又开始怼 LZ,怼西游伏妖,这里补充一下个人看法

西游的问题是各方面差异太大了,表演很差,故事较差,但是画面想象力爆棚

所以,也就能看到大家评论的分化情况,因为大家对这方面的看重点是不一样的。

全文其实就一个意思 —— **不是“你的评分 /口味是错的”,“我的看法是对的”,而是“你的看法是对的”,“我的看法也是对的”,** 只是大家对这部电影的看法差别太大了(由于各种各样的原因)。

大多数时候,大家对电影的看法趋同,对于豆瓣电影的分数认可,是因为一部电影的各个方面较为平均,大家的看法也会比较一致。但是出现**西游**,**刺客聂隐娘**等等这类长 /短板差异明显的电影的时候,产生较大的差异,简单的平局分也就失效了
第 2 条附言  ·  2017-06-16 18:10:38 +08:00
Rawgit 的散点图不知为何没更新到最新的版本,可以用这个链接看

https://cdn.rawgit.com/cqcn1991/movie-compare/4552bb71/clusters.html

(昨天晚上把深夜食堂电视剧的数据给放进去了....放在电影里确实是少有的一致)
第 3 条附言  ·  2017-06-16 21:11:16 +08:00
另外,@leemail 补充得很好,
说 ordinal data 根本就不能算 mean,

具体可以参考
https://stats.stackexchange.com/questions/67551/calculate-mean-of-ordinal-variable
https://news.ycombinator.com/item?id=2423313
112 条回复    2017-06-21 21:10:22 +08:00
1  2  
wmzt
    1
wmzt  
   2017-06-16 14:17:44 +08:00
西游伏妖篇真的很烂。。
kokdemo
    2
kokdemo  
   2017-06-16 14:37:53 +08:00   ❤️ 1
虽然有点标题党,但是内容不错有意思的。
ovear
    3
ovear  
   2017-06-16 14:43:55 +08:00
内容不错啊,先支持 LZ 一波
cqcn1991
    4
cqcn1991  
OP
   2017-06-16 14:51:43 +08:00
@kokdemo 完全没觉得标题党....怎么说?
codeforlife
    5
codeforlife  
   2017-06-16 14:54:39 +08:00
不觉得标题到。楼主的分析非常不错,我要再慢慢看一遍
fffflyfish
    6
fffflyfish  
   2017-06-16 14:56:03 +08:00
有理有据,真不错
cnwtex
    7
cnwtex  
   2017-06-16 14:57:56 +08:00   ❤️ 1
lz 写个 chrome 插件吧
chensuifu
    8
chensuifu  
   2017-06-16 15:02:22 +08:00 via iPhone
口味不对。
而且,西游伏妖篇可以满分,硬是无视演员演技问题。单演技就要扣掉五分了好吧。
另外楼主适合看国产片,对欧美口味不感冒罢了。
各有所好。就像我永远无爱 batman 金刚狼这一类的。
ichubei
    9
ichubei  
   2017-06-16 15:04:14 +08:00
西游伏妖篇 烂,是剧情烂,无厘头的有点过分了。
chuanqirenwu
    10
chuanqirenwu  
   2017-06-16 15:06:11 +08:00
我一直有类似想法,做一个新的评分系统,综合各大电影平台的评分指标。豆瓣电影群体偏差太大了,比如只要有景甜的电影评分就低,毫无道理可言。
xdz0611
    11
xdz0611  
   2017-06-16 15:06:48 +08:00
绘图用的什么工具啊 挺好看的
cqcn1991
    12
cqcn1991  
OP
   2017-06-16 15:16:21 +08:00
@chensuifu @wmzt @ichubei
看来我有些内容没太说明白,已经 Append 到主贴里了

西游的问题是各方面差异太大了,表演很差,故事较差,但是画面想象力爆棚

所以,也就能看到大家评论的分化情况,因为大家对这方面的看重点是不一样的。

全文其实就一个意思 —— **不是“你的评分 /口味是错的”,“我的看法是对的”,而是“你的看法是对的”,“我的看法也是对的”,** 只是大家对这部电影的看法差别太大了(由于各种各样的原因)。

大多数时候,大家对电影的看法趋同,对于豆瓣电影的分数认可,是因为一部电影的各个方面较为平均,大家的看法也会比较一致。但是出现**西游**,**刺客聂隐娘**等等这类长 /短板差异明显的电影的时候,产生较大的差异,简单的平局分也就失效了
cqcn1991
    13
cqcn1991  
OP
   2017-06-16 15:17:24 +08:00
@xdz0611 基本图表用的是 Matplotlib, 文章里面的辅助线是用 Axure (对你没看错),我自己加的
DearTanker
    14
DearTanker  
   2017-06-16 15:21:25 +08:00
我可以理解楼主的大概意思。

简单说,即使评分相同,也不代表 2 部电影差不多。

如果是 P 型的高分电影,绝对不会很难看。

如果是 b 型的低分电影,绝对不会很好看。
bluecrow
    15
bluecrow  
   2017-06-16 15:24:52 +08:00 via iPhone
评分这个东西本来就很主观,每个人想法不同。我看我的电影管别人怎么说。
oott123
    16
oott123  
   2017-06-16 15:28:39 +08:00   ❤️ 1
好文。看完想给楼主打钱。
goophy
    17
goophy  
   2017-06-16 15:29:16 +08:00
分析得详实,谢谢
viator42
    18
viator42  
   2017-06-16 15:30:56 +08:00
还有一种神奇的 L 型电影
vitalbo
    19
vitalbo  
   2017-06-16 15:31:13 +08:00
个人认为按照受众群体打分是比较靠谱的,可以解决这种分歧比较大的,选择一个 tag,比如说科幻,可以显示为主要看科幻片的影迷的打分,也比较符合科幻迷的口味;如果选择大众,那么分数有可能不一样,对打分群体的分类对解决分歧电影更有实际意义。
wmzt
    20
wmzt  
   2017-06-16 15:33:37 +08:00
@cqcn1991 不是怼 lz 的意思,觉得 lz 写的很好。仅仅表达下对西游的不满(个人口味不同吧,别在意)
chensuifu
    21
chensuifu  
   2017-06-16 15:35:21 +08:00 via iPhone
@cqcn1991 赞成楼主的思路
cqcn1991
    22
cqcn1991  
OP
   2017-06-16 15:40:12 +08:00
@cnwtex 我觉得其实豆瓣官方加个 label + 具体展示页面就好了,这样被人民日报怼的概率就小很多了
kiwi95
    23
kiwi95  
   2017-06-16 15:42:28 +08:00 via Android
真正喜爱电影的自然知道自己喜欢什么类型,也大概对能找到对胃口的导演,演员之类的,豆瓣只做个参考,你要说豆瓣的分数可不可靠,这世上就没有所有人都觉得可靠的东西,豆瓣的的评分只是一个最优的选择而已
konakona
    24
konakona  
   2017-06-16 15:43:43 +08:00
你可以理解为:众口难调。
sun019
    25
sun019  
   2017-06-16 15:49:29 +08:00
不错的分析 很有参考意义
liprais
    26
liprais  
   2017-06-16 15:51:12 +08:00
评分只能看 imdb.......
qiayue
    27
qiayue  
   2017-06-16 15:56:38 +08:00
作者标题中“我”不是指作者本人,而是所有阅读文章的人,或者说有此疑惑的人
cqcn1991
    28
cqcn1991  
OP
   2017-06-16 15:58:38 +08:00
@qiayue 啥意思?我表述没清楚?
cqcn1991
    29
cqcn1991  
OP
   2017-06-16 15:58:59 +08:00
@qiayue 对对。。。你是觉得有歧义?那怎么改比较好?
cqcn1991
    30
cqcn1991  
OP
   2017-06-16 16:03:19 +08:00
@kiwi95
那很好,你并不受本文这个问题的困扰,但对于其他人来说,我们觉得很多时候,这个看法是可以参考的,那么,我们就有文中的这个问题了。我个人觉得,评分的看法,可以这样理解:

绝对标准(平均分 /我的看法) -> 真实情况 -> 绝对主观 (评分没有意义)

有些人觉得评价是唯一的,这个分数和我的看法不一样,那一定是有水军 /别人在装逼 /别人口味差
有的人觉得是绝对主观的,别人的看法和我的看法完全没关系

我的看法是,有时候,平均分是非常有效的(大家看法一致的时候),有的时候,平均分无效,因为大家看法非常不一样,本文就是这个内容。
cqcn1991
    31
cqcn1991  
OP
   2017-06-16 16:14:23 +08:00
@viator42 那个很少(如果只考虑评分较多的电影的话),你从对开始我给的图里面就能看到,只有一例

最近的“深夜食堂”,是 L 型,如果放在这里比较,也是 STD 最小的。。。也就是一众觉得非常烂的.....
herozzm
    32
herozzm  
   2017-06-16 16:17:56 +08:00
我没看过爵迹,但我觉得这片子我看过的最烂的,看完后第一句话就是这片子怎么烂,幸好星爷只是监制,不过我觉得已经不欠他电影票了
qiayue
    33
qiayue  
   2017-06-16 16:30:13 +08:00
@cqcn1991 有些人说你标题党,估计是以为标题中的“我”指的是你自己
cqcn1991
    34
cqcn1991  
OP
   2017-06-16 16:41:21 +08:00
@qiayue 明白了~
tony1016
    35
tony1016  
   2017-06-16 16:46:28 +08:00
所以豆瓣的人应该进来看看,再列一个指数叫做观众精分指数——指数较高,说明褒贬不一;指数越低,说明一致认为。这是意思吧
cqcn1991
    36
cqcn1991  
OP
   2017-06-16 16:50:46 +08:00
@tony1016 对,或者说大家看分数很疑惑的时候,可以从这个角度去理解一下。
paparika
    37
paparika  
   2017-06-16 17:01:05 +08:00
楼主可以顺便研究下烂番茄的评分算法
sephinh
    38
sephinh  
   2017-06-16 17:04:47 +08:00 via Android
@DearTanker 其实更简单一些就是至少还有人打高分的还能看,和评论一边倒的完全不能看
staticor
    39
staticor  
   2017-06-16 17:05:11 +08:00
不同电影的观影人群的分布其实是变化的.

如普通假期 v 春节贺岁档的年龄职业会有很大差异, 而且平时电影的评价者对电影其实更苛刻一些 ---- 好歹也是花了工作日 /休息日的半天时间, 当然希望有所值, 而大长假不同, 电影本身即是一种放松, 所以有的时候看什么并不重要, 因此也对电影质量的期待会有所降低.

个人感觉可以加上公映日期的因素, 因为无法从豆瓣具体评价者的角度去做差异化分析, 只能从放映日期来粗略的切分市场.


最后, 每个评分平台有自己的导向, 之前本人还差点去了时光网, 也有过豆瓣短暂的面试经历, 豆瓣算是一种比较慢商业的公司, 所以时间慢慢积累, 平台上的老用户也其实会渐渐受到豆瓣的影响, 对文艺, 清新有些好感.
不知道这种"去商业化"是不是其平台的一种政治正确.
zrj766
    40
zrj766  
   2017-06-16 17:09:13 +08:00
数学不好的给跪了 Orz。
alphadog619
    41
alphadog619  
   2017-06-16 17:13:10 +08:00
先不说周星驰的片子烂不烂,西游伏妖篇里面周星驰不是导演,是监制。话说回来,周星驰的《美人鱼》个人感觉烂到家了,江郎才尽了。没对比就没伤害,要说商业片都挺烂,美国大片也不例外,但是美国大片还能看。国产片烂已经差不多是共识了。
vjnjc
    42
vjnjc  
   2017-06-16 17:31:53 +08:00
感觉<西游伏妖篇>还不错啊
感觉<神奇女侠>还不错啊
感觉<长城>一般
感觉<聂隐娘>真的很烂,原因是我看睡着了。。。
每个人口味还真的不一样
cqcn1991
    43
cqcn1991  
OP
   2017-06-16 17:32:03 +08:00
@staticor 作为豆瓣用户....非常不喜欢豆瓣主流的文艺 /清新的声音,其实也有不少用户如此。是豆瓣目前的定位有问题,或者说被知乎刚怕了,只敢站这个风格.
cqcn1991
    44
cqcn1991  
OP
   2017-06-16 17:47:36 +08:00
@zrj766 应该就涉及到了方差,这个应该就中学数学水平....?
HGladIator
    45
HGladIator  
   2017-06-16 17:49:21 +08:00 via iPhone
分析的很有道理,想法很好,很成功的一次练习
panlilu
    46
panlilu  
   2017-06-16 17:54:38 +08:00
超级好片-> T 型
超级烂片-> L 型
对于一星和五星我的理解是有一部分观众认为打分系统的界限不够用了,迫不得已的选择。
所以对于五星或一星占绝对优势的片,其实际分可能应该比体现出来的平均分更极端化。
wildcat007
    47
wildcat007  
   2017-06-16 17:59:32 +08:00
每个人的评价 口味很不一样。
去看公司的电影,我同事直接先睡了 30 分钟。
我看的感觉还是不错的。
旁边的妹纸一直很欢乐,就是忘了加微信···
shyrock
    48
shyrock  
   2017-06-16 18:00:56 +08:00
分析得不错,找到了一个有趣的话题,而且言之有物。
就是对于特殊形状的分析少了点,如果能深入分析,有望成为经典文章。
Madkill
    49
Madkill  
   2017-06-16 18:04:32 +08:00
楼主这波分享我觉得真的很不错,有的时候真的只是看下豆瓣评分就快速下个判断,但是平均分真的不能代表什么。主要这种真的很主观,没办法量化,但是如果真的有足够的数量,就可以知道地球人对一部片子的品味,这么想想还蛮神奇的。
heypig
    50
heypig  
   2017-06-16 18:15:03 +08:00
v2ex 最近难得有料文章
ivanyin
    51
ivanyin  
   2017-06-16 18:24:01 +08:00
分析的挺好的
IgniteWhite
    52
IgniteWhite  
   2017-06-16 18:27:37 +08:00
@liprais imdb 今年的新用户也开始水投票了。。。现在要看烂番茄啦,都是影评人做打分的,而且高低分都会给出理由。这几年基本可以作为评分风向标。

顺便说一句,楼主好棒!
LancerEvo
    53
LancerEvo  
   2017-06-16 18:29:21 +08:00
不认可就不认可呗 本来大家口味就不同 况且你都看完了还去搜评分干啥 看看自己是不是符合大众平均水平?
uoryon
    54
uoryon  
   2017-06-16 18:31:28 +08:00
内容不错。好久没看到这类文章了。
zjuster
    55
zjuster  
   2017-06-16 18:31:51 +08:00
口味本身就不一样的,我朋友圈还有人说深夜食堂好看呢.....
Abirdcfly
    56
Abirdcfly  
   2017-06-16 18:32:34 +08:00
我理解楼主的意思是 不该只给出平均值,还应该放个方差上去好一点?可是豆瓣有评分图啊,这个不就是显示两极分化的程度的嘛
cqcn1991
    57
cqcn1991  
OP
   2017-06-16 18:35:58 +08:00 via iPhone
@Abirdcfly 对,只是很多人很少关注这个东西。提醒大家一下评分的分歧程度,有助于减少撕逼…
yiciyuansky
    58
yiciyuansky  
   2017-06-16 18:49:45 +08:00
楼主想表达的意思理解,但电影这种东西,每个人欣赏的角度不同,所以给出评分分布的确是一个方法,但实际上现在已经有了,然而还是这样,我觉的和豆瓣的用户画像变化是有关的,现在的豆瓣人群和以前已经不那么相似了,更多的普通用户进入一个文艺属性比较强的地方,短期内很难达成一致。
lxy
    59
lxy  
   2017-06-16 18:50:08 +08:00
综合评分被碾平了,如果分成剧情、演技、特效、音乐等分别评分,褒贬不一的情况可能会好一点。
zrp1994
    60
zrp1994  
   2017-06-16 19:02:21 +08:00
就数据分析而言楼主做的还是非常不错的。
cqcn1991
    61
cqcn1991  
OP
   2017-06-16 19:02:28 +08:00
@lxy 但从产品的使用角度来说,太麻烦了,而且大多数时候,电影的表现是相对比较平均的
所以我觉得可以这样思考这个问题,但是产品这样设计有太多不便。毕竟我们也就是 2C,个人评价一下而已

@yiciyuansky 评分分布有,但是“评分分布”的分歧程度的“大小”,没有。所以很多人不会注意到这点。而且这个和人群一致性无关,是豆瓣电影打分的受众并不小众(摔跤吧爸爸有 30W 了)。我们并不是要追求一个“一致性”的评分,而是知道什么时候这个评分是无效的。
Yinz
    62
Yinz  
   2017-06-16 19:12:18 +08:00
赞一个,很细致的数据分析 :D
有一点疑问想问一下,K-means 聚类的 k = 6 是怎么决定出来的呢?

而且聚出来的 6 类似乎没有很大的意义,因为都像是均值不同的正态分布在横轴移动的感觉。如果能够找到一个特征变化,使得变换后的 K-means 能够将这种标准正态分布以及后文中的混合分布分离出来,那就厉害了 :D
cqcn1991
    63
cqcn1991  
OP
   2017-06-16 19:19:52 +08:00
@Yinz 代码里面有
直接把电影的 5 个百分比输进去,然后看聚类的结果
实际就是可以分很细,也可以分很粗,取决于你想分成多少种。还可以分得更细,比如均值为 6 的,可以分成 4 星占多还是 2 星占多的,其他类似。

当然,从 Cross validation 的曲线来看, 6-7 的样子基本上就收窄了.
laoyuan
    64
laoyuan  
   2017-06-16 19:35:37 +08:00
“分歧警告”标签不太接地气,可以用“争议较大”
leemail
    65
leemail  
   2017-06-16 19:47:16 +08:00
Ordinal data 用 standard deviation 分析?
cqcn1991
    66
cqcn1991  
OP
   2017-06-16 19:56:22 +08:00
@leemail 可以具体说说,问题在哪里?
sisylocke
    67
sisylocke  
   2017-06-16 19:57:50 +08:00
不过好像并没有解决标题那个问题,看了标题,我以为要解决的问题是:评分的离散程度与评分可信度之间的关系,但是全文只用了几种不同的方式描述了豆瓣评分的几种分布情况,并没有给出可信度的评价...这样的话直接参考豆瓣的直方图更直观呀...

要是能给出一个参考标准,使得豆瓣评分的变异系数在大于这个标准值后被认为是不可信的,那就好厉害了♪(^∇^*)
Icemic
    68
Icemic  
   2017-06-16 19:59:32 +08:00
感觉这里面用的 K-Means 聚类和直接按照正态特性划直线,没有特别大的差别……
为什么选择用 K-Means ?
cqcn1991
    69
cqcn1991  
OP
   2017-06-16 20:08:10 +08:00
@Icemic 按照正态特性画直线是啥意思? 怎么做?

用 Kmeans 因为是基本的聚类啊...我就传数据进去看看结果,结果感觉还不错就用了.
Icemic
    70
Icemic  
   2017-06-16 20:11:56 +08:00
收敛的现象应该还有可挖的东西。

另外,我一直想要评分随时间变化的曲线,我觉得这个对我更有参考价值,不过豆瓣不公开用户评分记录……
Icemic
    71
Icemic  
   2017-06-16 20:13:05 +08:00
@cqcn1991
就是像前面 @Yinz 说的,这个聚类「都像是均值不同的正态分布在横轴移动的感觉」
leemail
    72
leemail  
   2017-06-16 20:20:23 +08:00
@cqcn1991 你不知道这是 ordinal data 还是没有学过统计? ordinal data 数据分析第一件事就是 mean & standard deviation 不能用来分析 ordinal data。
Benisme
    73
Benisme  
   2017-06-16 20:23:35 +08:00
文科生看着看着就看不懂了,很难受……
cqcn1991
    74
cqcn1991  
OP
   2017-06-16 20:31:55 +08:00
@Icemic
@Yinz

聚类怎么做的:我就是把 5 个各占的比例输进去,作为输入条件

你们可能想问的是:为什么只有这几种组合?

理论上,会有多得多的组合。比如凹形,五星和一星各占 40%? 但问题在于,这种分布的形状,在数据里并不存在,或者极少。所以并没有。完全可能的形状, 值域都是可以模拟出来的(用 dirclet 做就可以了)。

换句话说,能够得到的聚类结果,是实际数据中存在的情况。本身数据就大概只有这些类型。

不知道这个是否是你想问的

当然,也可能把 STD 作为一个额外的 feature 放进去做聚类,但是我感觉效果不是特别好。
Domains
    75
Domains  
   2017-06-16 20:31:58 +08:00
@zjuster 那要问是看日版,还是国内买了版权翻拍的广告版了…… 或者让你朋友先看看日版的。或者转发一下这段话:

---------
导演蔡岳勋表示,这部剧为了尊重原著,所以保留了一些核心内容,但后续无论是菜色还是故事都会让观众看到更多本土化的东西。关于广告植入,蔡岳勋非常无奈地透露,刚开始是一些广告,后来变成更多,最后变成超级多,但他连剪掉的权利都没有。“所以在我还没有杀青之前,我就作了一个有趣的决定,以后我的导演合约里面一定会增加一条:‘所有的植入要怎么拍,我有最终的决定权’。以后我不会再接受这样的事情。”
kenshin
    76
kenshin  
   2017-06-16 20:32:13 +08:00 via Android
👍
喜欢这种强逻辑性的推论,LZ 再打磨打磨语句可以发给豆瓣了。

从实用性来说,的确可以解答我一直对豆瓣评分的一些疑问。
levn
    77
levn  
   2017-06-16 20:42:32 +08:00
……根本不在乎别人评什么分。还是发给拍电影的吧,他们才需要这个。
cqcn1991
    78
cqcn1991  
OP
   2017-06-16 20:50:37 +08:00
@leemail 啊...确实都不知道...感觉犯了大错...非常感谢你的指出!(我是当作离散值来理解的)

不知道这方面有什么可以学习的?

https://stats.stackexchange.com/questions/67551/calculate-mean-of-ordinal-variable

我查到的貌似是有争议?
AltairT
    79
AltairT  
   2017-06-16 21:02:44 +08:00
虽然有理有据令人信服,还是希望普罗大众能提高观影姿势,而不是只是去看看些[只有]过期笑点和明星大腕的电源,这样我们也更有可能多看到一些有营养的电影.但我也是明白这几乎是不可能的,太多人忙于生计,只想和娃和家人和朋友去影院消遣下,乐一乐.你搞一堆难懂高深的情节和哲理大众没时间没精力去理解.(我记得以前高中和班级同学看 2012,一堆人看成搞笑片... ...)
helloSwift
    80
helloSwift  
   2017-06-16 21:04:44 +08:00
每个人的喜爱不同,豆瓣的只能参考

有时候出去看个电影,也不一定是在看电影
cqcn1991
    81
cqcn1991  
OP
   2017-06-16 21:10:06 +08:00
leemail
    82
leemail  
   2017-06-16 21:23:09 +08:00
@cqcn1991 median, mode, cumulative distribution, nonparametric test

阿北弄了个傻的不要不要的 2x 平均值当评分,你用一个也不合适的参数说他那个不好其实也不合适
tairan2006
    83
tairan2006  
   2017-06-16 22:42:18 +08:00
楼主你可以爬取多个社区的数据,然后做一个加权平均…

然后命名为 cqcn 影视指数什么的
zingl
    84
zingl  
   2017-06-16 22:46:20 +08:00
https://www.v2ex.com/t/331068

我说怎么似曾相识

LZ 适合做靠发论文为生的工作
cqcn1991
    85
cqcn1991  
OP
   2017-06-16 22:48:56 +08:00
@zingl ....比如代写和当枪手....
anyele
    86
anyele  
   2017-06-16 23:03:24 +08:00
没有不服的, 豆瓣评分总的来说还是比较准, 粗略来讲 7 分以上的值得去电影院看, 7 分以下的就少浪费时间了
123qqqqqq
    87
123qqqqqq  
   2017-06-16 23:14:25 +08:00
真心好文章,这个论坛要是多一些像楼主这样的人,少一些撕逼喷子就好了
paulagent
    88
paulagent  
   2017-06-17 00:25:05 +08:00
豆瓣的评分是怎么个算法,至今也没有公开吧,据说是学习 IMDB 的,但是 IMDB 也没公开,我听说是每个人的加权是不一样的。一个账户看过 10 部和 1000 部电影的权值貌似不一样,这点可能需要考虑吧。不太清楚是不是会影响你的结论
hzwei
    89
hzwei  
   2017-06-17 01:52:48 +08:00 via Android
分析很棒,收藏了以后慢慢思考。
支持并感谢一发楼主。😁
0915240
    90
0915240  
   2017-06-17 07:09:31 +08:00 via iPhone
文章不错。

然后有分歧才是特色吧。说白了作为消费者只是个参考,只有卖不出片子的发行方导演才整天关注这个。
cqcn1991
    91
cqcn1991  
OP
   2017-06-17 07:12:01 +08:00
@paulagent 这个点不错
之前没有仔细验证,我算一算回来跟你讨论一下
botman
    92
botman  
   2017-06-17 07:39:10 +08:00 via Android
很有参考价值的好文 收藏了。
lx1510
    93
lx1510  
   2017-06-17 08:15:18 +08:00
爱死数学建模,顶你。从楼主样本数据里发现一个高分又没看过又题材感兴趣的电影,想飞的钢琴少年
mailworks
    94
mailworks  
   2017-06-17 09:20:02 +08:00
好像是不错的分析
xiaozhaojun
    95
xiaozhaojun  
   2017-06-17 09:28:24 +08:00 via iPhone
好文,马克
ilotuo
    96
ilotuo  
   2017-06-17 09:51:40 +08:00
豆瓣的打分系统应该不是直接取平均数
豆瓣的直方图比你的 std 更直观
MartinWu
    97
MartinWu  
   2017-06-17 10:28:45 +08:00 via iPhone
为楼主的分析点赞
bravecarrot
    98
bravecarrot  
   2017-06-17 11:06:58 +08:00 via iPhone
@vitalbo 那样一来就比较复杂啦,得先对用户建模。算出没给我用户对当前电影评分的权重...
bravecarrot
    99
bravecarrot  
   2017-06-17 11:25:44 +08:00 via iPhone
排版很赞,思路清晰。
如下建议供楼主参考:
1. 单纯地展示数据,分为 p,b 型电影并没有太大意义。应该得到一个较为明确的建议,比方说 lzappend 中提到的,“争议较大”的标签。
2. 可以基于豆瓣的星级评分,构建出另一种更好的评价方式。基本特征包括,观看人数,导演演员等;不同用户的星级评分权重可以不一样,对参与评分的用户进行建模,包括用户观影数量,每种类别电影的数量,以及用户给出的平均分数(可能有的用户对电影的平均评分很高或很低,即他本身评分的均值过高或过低),以此获得一个权重,来对当前电影进行评分计算。
目测 lz 码力很强,加油😬
cqcn1991
    100
cqcn1991  
OP
   2017-06-17 11:44:37 +08:00   ❤️ 1
@paulagent @ilotuo

专门拿数据验证了一下,拿计算出来的平均数和官方给的分数取差,直方图分布如下

![index.png]( https://ooo.0o0.ooo/2017/06/17/5944a3f890a18.png)

简单来说,就是实际影响很小

个人估计,豆瓣 /IMDB 有两套评分系统,见 https://www.zhihu.com/question/19627832

另一套,也就是你们说的,更细致的评分,主要应用于 TOP 250. 这也就是为什么分数高的电影,并不一定会在 TOP 250 里面。

另一方面,假设不是平均分,也没关系。文章观点其实很简单 —— 当你使用一个数值来代表观众整体观点的时候,什么时候这个数值是有效的,什么时候这个数值是无效的?

对豆瓣电影来说,近似当作平均值来考虑(就上图所证明的),那么,当大家看法接近的时候,这个分数是有效的;当大家看法相差很大的时候,这个分数的代表性就不足了。这里只是用标准差作为一个量化标准而已。也完全可以采用其他更严谨的指标.

不知道这样是否还有问题?
1  2  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2724 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 31ms · UTC 09:21 · PVG 17:21 · LAX 01:21 · JFK 04:21
Developed with CodeLauncher
♥ Do have faith in what you're doing.