[1984 式瞎扯] 百家号事件想到的, 关于中国特色的搜索(不限于)的协同过滤推荐

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2166 天前的主题，其中的信息可能已经有所发展或是发生改变。

跳出来想想主流的协同过滤推荐的算法真是充满了"平等"的气息, 只关注 user/item<-->user/item 的关系而不考虑 user 的特征和 item 的特征, 也就是基于假设: user 和 item 是不分级(hierarchy)的但是这貌似和中文互联网环境区别太大了中文互联网环境一来顶部用户底部用户极端割裂, 二来因为经济现状和其他原因顶部用户的价值溢价又远远大于其他市场的顶部用户相对底部用户的溢价所以一个多数投票的算法下, 过于割裂和过于庞大的底层用户会更严重的牺牲顶部用户的体验, 而同时这又是极为优质的用户.

不知道是不是出于隐私考虑但是即使给 user 基于其他属性的标签在脱敏了的推荐算法管道处理以后, 标签也应该是脱敏的啊

举个例子, 看百家号的(可能是绝大多数,主观上?) 和看百家号标题文风就想吐的根本就没有什么协同可言, 具体到例子里, 两个群体搜 xxx 电影的影评, 想看的内容是完全不一样的, 仅仅因为百家号的"震惊, 变形金刚竟然是中国制造的骄傲"和豆瓣的"从变形金刚扯到人类异化"都包含关键词"变形金刚"而推荐, 但这两者对于读者是完全没有实际意义上的"相似性"的. ( 用统计的视角说就是, 百家号的 xxx 影评和豆瓣的 xxx 影评, 一眼看过去协相关性(correlation)很高, 所以你就给推荐? 那后果就惨了, 去掉对象:该电影的偏相关 /半偏相关系数(semi partial correlation)是低到发指的, 那一个严重 false positive 的推荐很容易超过阈值而引到一个立即发生的 churn/用户流失的结果.)

结合亚洲的等级制文化和中国漠视隐私, 尤其是模式判别性的隐私(distinctive 的, 与记录性的相对, 后者已经开始逐渐有意识保护了)的环境, 其实有个办法貌似很好, 就是在广泛的 MAC address, imei, 手机号的情况下很容易把这些识别用户的属性连接起来给每一个独特用户一个先验性的多维度的标签, 举个例子, (社会等级, 教育层次): "金融男 /女(1,1), 包租婆(1,0), 乡村教师(0,1), 厂妹(0,0)" 一类的, 然后在基于这个标签, 按标准化后的 RMSE 的距离给一个递减的系数, 这样来比如厂妹看的 xxx 电影的影评,因为和厂妹和金融男的距离是最大的, 系数就直接到 0, 这样厂妹爱看的关于 xx 话题的东西就不会因为协同推荐污染到金融男的时间线, 反过来也是一样. 后者无所谓,因为单位厂妹的用户价值很低, 而且弹性(elasticity)比较低,不会看到不想看的就退出. 但前者就很重要了, 用户价值又高, 又因为挑剔的特质 /更多选择权等等弹性很高, 一个不喜欢的推荐就用户流失了.

早上刷牙时随便想的, 身边也没什么人适合讨论这个, 就发过来交流一下, 看看能不能跳出思维限制

user

item

用户

影评

10 条回复 • 2019-01-25 11:02:19 +08:00

sdijeenx

2019-01-24 01:28:39 +08:00

没看懂 LZ 想表达什么=3=
通常我只关心一段信息中是否包含我想要的答案，而不是一段信息是否会让某家公司失去自己的市场地位。（前者会帮助我更快完成某些任务，后者会榨干我有限的精力。）

janus77

2019-01-24 02:53:03 +08:00 via iPhone

我不关心相关性推荐，我只关心本结果的精准。我用搜索引擎是用来找答案的

Xs0ul

2019-01-24 03:06:50 +08:00

user 的特征就是他看过 /点过的 items 啊，你要天天看金融，不管你实际职业是包租婆还是教师还是真的金融，推荐的都是金融

这也是协同过滤的优点，不用自己拍脑袋想标签。你要自己选标签当然可以，但显然这不是个容易的事。标签选的不好，可能你辛辛苦苦弄了几百个标签，忽悠所有用户填好信息，到头来还不如协同过滤

discrete

2019-01-24 03:22:09 +08:00

collaborative filtering 不应该用于搜索引擎。这可以用来做商品推荐，但是用做搜索引擎的话会导致 bias 和 polarization。西方现在正面临这种问题。

takato

2019-01-24 04:09:44 +08:00

然而 tag 的定义其实也会随着时间变化而改变，先验 tag 也并不是永恒可依赖的东西。

个人比较同意三楼，user 的 tag 其实就是看过的 item 的分布，item 的 tag 就是被哪些 user 看过的分布。

Yvette

2019-01-24 06:09:08 +08:00 via iPhone

太长没看太懂，好像说的是这个？

http://yifanhu.net/PUB/cf.pdf

asdqaz

2019-01-24 10:24:54 +08:00 via Android

斗胆说一句
V 站看起来人人翻墙谷歌
其实大部分上百度

passant520

2019-01-25 09:42:34 +08:00 via Android

@Xs0ul 是一个意思配合一些滥用而获得的 id 的 attr，supervised 似乎能很好的解决这个问题

passant520

2019-01-25 09:47:07 +08:00 via Android

@discrete 说到这个，我恰好觉得 cf 的推荐造成 polarize 的原因: 好友网络的封闭性(和 content 网络，一个发散的且与好友网络非常不共线的另一个 dimension 相比) 就是解决非社交平台类似推荐低精准度的方法给 id 一个先验的 label 的人思路和好友系统是很像的

至于 polarization... 另一个话题了

discrete

2019-01-25 11:02:19 +08:00

@passant520 cold start 也是个问题。具体可以看看这篇 paper： https://pubsonline.informs.org/doi/abs/10.1287/isre.2013.0497

[1984 式瞎扯] 百家号事件想到的, 关于中国特色的 搜索(不限于)的协同过滤推荐

[1984 式瞎扯] 百家号事件想到的, 关于中国特色的搜索(不限于)的协同过滤推荐