我从某知名网站获取了大量视频标题,然后通过关键词统计频率,得到了一些有意思的数据,我想可以从中一窥国人的 xp 情况。
文章地址: https://hsingko.github.io/post/2022/11/24/ml-in-china/
对于文末唐卡图的问题:
|      1LZSZ      2022-11-24 12:21:46 +08:00  2 大大的 X 狗引起不适 | 
|  |      2eason1874      2022-11-24 12:29:02 +08:00 我的印象跟这数据差不多 真实性无从考究,同一个视频隔一段时间又会被换一个标题重新发出来,前年是同事,去年是同学,今年又成了小女友。不过,研究受众偏好,真实性也不重要,角色扮演本身就是为了满足受众偏好,对受众来说角色就是真的 | 
|  |      3hover      2022-11-24 12:30:23 +08:00 via Android 期待再分析下老外们的 xp | 
|  |      4Frankcox      2022-11-24 12:36:52 +08:00  1 guro 爱好者路过 | 
|  |      5hsfzxjy      2022-11-24 12:40:23 +08:00 via Android “眼镜”还是小众 | 
|      6Alexonx      2022-11-24 12:43:12 +08:00 好奇下这是啥网站...俺也想试试 | 
|  |      7ArianX      2022-11-24 13:03:24 +08:00 妙啊 | 
|  |      8sleeepyy      2022-11-24 13:04:39 +08:00 只是统计关键词出现的频率吗?是否应该将对应的视频的播放量也考虑进去呢 | 
|  |      9KevinDo2      2022-11-24 13:05:06 +08:00 标题党过多,甚至还有非本人图片挪用作封面,p 站内容剪辑直接发布。 | 
|      10GeruzoniAnsasu      2022-11-24 13:08:41 +08:00 有点意思,期待一手各地区 /国家的对比数据 | 
|  |      11JustSong      2022-11-24 13:10:29 +08:00 via Android 图表很漂亮,请问用什么画的呀 | 
|  |      12LxExExl      2022-11-24 13:10:37 +08:00  2 楼主的博客很有意思,我觉得是时候弄一个 rss 订阅了。v 站上有意思的个人站还是挺多的, 得追踪一下。 | 
|  |      13cnrting      2022-11-24 13:11:04 +08:00 via iPhone 求最后一张原图 | 
|  |      14vigack OP @sleeepyy 本来是想做加权的,但是原始播放量数据似乎有问题,越早期的视频热度显示越离谱,不同时间跨度的热度感觉不是线性增加的。 我想越靠近现在的标题的选择本身就已经反映了某种固定的偏好,关键词是有限的,后来的视频上传者们已经找到了某种“热度关键词”,所以不做加权应该就已经能反映问题了。 | 
|  |      15vigack OP  2 @JustSong  - 图表用的是 google sheets ,可以自己配置一些美化选项 - 词云用的 python 的 wordcloud 包 - 最后的唐卡图用的是平均色度算法,可以参考这篇文章: https://towardsdatascience.com/how-to-create-a-photo-mosaic-in-python-45c94f6e8308 | 
|  |      17ninickck      2022-11-24 13:22:52 +08:00 瑞斯拜! | 
|  |      18kqij      2022-11-24 13:24:09 +08:00 身高和露面,想问下这两个数据是怎样来的?其他还能理解,是不是收集标题,提取关键词,再分析词频? | 
|  |      20HugoChao      2022-11-24 13:27:29 +08:00 好文共赏 | 
|  |      21vigack OP  2 @kqij  我的思路是这样的: - 视频上传者往往会将露脸作为卖点放在标题中,所以词频占总数比能反应真实情况 - 身高数据也是通过分析标题得来的,但是这里有个问题,并不是所有上传者都会将其放在标题中;所以最后统计出的数据只能反应“本身对身高敏感的观众和上传者”对身高的偏好 | 
|      22nu11ptr      2022-11-24 13:45:23 +08:00  3 最后一张人皮唐卡让我笑出声 要下地狱了 | 
|  |      23WOLFRAZOR      2022-11-24 13:52:49 +08:00 这都能研究,太厉害了 | 
|  |      24Williamwang      2022-11-24 13:53:01 +08:00 好奇,是 91 吗 | 
|      25quan01994      2022-11-24 13:53:44 +08:00 emmm,看来我的 XP 还是小众啊。 | 
|  |      26Felldeadbird      2022-11-24 14:06:59 +08:00 牛逼,这都可以进行数据分析。 | 
|  |      27cvooc      2022-11-24 14:16:02 +08:00 果然嗨丝才是王道啊, 占比那么高 | 
|  |      28zhangshine      2022-11-24 14:19:32 +08:00 不应该是视频发布者的 XP 吗? | 
|  |      29vigack OP  2 @zhangshine  视频发布者的动机是为了获得热度与关注,因此标题选择上会尽可能地“标题党”;如果将视频浏览者的注意力当作市场,那么“视频上传标题-热度”这一反馈机制就如同供需关系一样会达到平衡,这个时候标题实际上已经表现的是“消费者”的喜好了。 | 
|      30wanacry      2022-11-24 14:30:26 +08:00 via iPhone xp 是什么 | 
|      32walking50w      2022-11-24 14:41:09 +08:00 @vigack 上传者没有获取反馈的途径, 高浏览量绝对是封面(主要)+内容,绝不可能标题。 所以这个反馈只是上传者的意向。很少能反应观看者。 | 
|  |      34lamesbond      2022-11-24 14:44:33 +08:00 黑丝高跟😍😍😍 | 
|  |      35vigack OP @silasamiseaf94  我一向不怎么喜欢绝对化的判断,所以用词不会非常笃定;在我看来上传者和浏览者是有很大重叠部分,有时候观众也会主动参与到制作过程中,所以我所谓的“浏览者”也笼统地包含了上传者。 其次,上传者是有反馈渠道的,那就是视频播放数、留言评论等等;封面图片确实是吸睛的重点,这一点确实没有在分析中提到,但是你可以发现,那些有吸引力的封面往往会在标题中进行表现,比如着装描述、身材描述等等。 最后,浏览者想要的仅仅是千篇一律的往复运动吗?在我看来,他们对“故事”或者说“情节”的需求也很大,而这一点是封面和视频本身无法表现的,只有文字才能做得到。这一点你可以通过观察同样视频是如何通过不同的描述、不同的情节来获得不同的热度中看到。 | 
|  |      36dzdh      2022-11-24 14:53:00 +08:00 我要最后一张图的高清大图 | 
|  |      37vigack OP @dzdh  😃你想多了,在生成图片的原理不是简单的拼贴(不然就成了哈勃望远镜了),而是通过模糊像素化得到基础颜色,然后再放置到原图(唐卡)中的恰当位置。文章中的图片并没有经过压缩,就是程序生成的原本内容。 原始封面图共 533MB ,放在一起的时候,里面的内容与其说是能让人愉快,不如说更像是法医鉴定图谱,你不会想要看它们的。 | 
|  |      38marc2017      2022-11-24 15:05:21 +08:00 我想要是抓取 gay porn 的话,最大的关键词绝对是 [直男] 。哈哈哈 | 
|  |      40lambdaq      2022-11-24 15:14:44 +08:00 那个年龄,应该是默认年龄分类吧。。 | 
|  |      41AshenOneOrz      2022-11-24 15:20:37 +08:00 原来是老哥的博客,文章写的真不错 | 
|  |      42Tanf      2022-11-24 15:23:33 +08:00 有意思 | 
|      43zek      2022-11-24 15:25:13 +08:00 你分析的是哪个网站 | 
|      45shanyuhai123      2022-11-24 15:28:31 +08:00 感觉是最近的关键词,去年的还不是这样 :doge: | 
|  |      46vigack OP @shanyuhai123 时间到 9 年前为止还是挺均匀的,基本都有 3k+ 左右的数据,但是今年的数据量有 5W+,因此在关键词上可能覆盖了之前的特征。 不过我觉得这和视频“标签化”的趋势有关,之前视频不太多的时候选择也不多,因此不需要怎么弄就有一定的热度;而现在可能拍片的人多了,迎合了短视频的潮流,更喜欢在标题中用直观引起情感反应的词。 现在想想分析视频长度变化趋势也是个有意思的主题,不过抓数据的时候忘了这个字段了.... | 
|  |      47daweii      2022-11-24 15:49:46 +08:00 via iPhone 有意思。 楼主可以考虑把数据放出下载吗。 我也想分析一下。 | 
|  |      48PeterKim      2022-11-24 15:54:02 +08:00 数据肯定是没啥问题的,光看黑丝跟高跟,再对比下抖音跟 B 站尬舞,就一目了然,只是这部分产业在国内没有相对宽松的创作环境,所以远没有达到上限,要是哪天跟日本的厂商一样有各种分门别类,到时候再统计,估计会比较精彩。 | 
|      49xinyu98      2022-11-24 15:55:40 +08:00 有没有女性向的 | 
|  |      50jdhao      2022-11-24 16:02:00 +08:00 via Android 可视化工具用的哪个 | 
|  |      51hushs      2022-11-24 16:15:20 +08:00 有没有考虑做个小工具,我想看一下自己的数据。 | 
|      52hoky      2022-11-24 16:29:12 +08:00 有意思的尝试。 | 
|  |      53redtree      2022-11-24 16:33:57 +08:00 不错不错 | 
|      54gwbw      2022-11-24 16:39:51 +08:00 针对 "关键词的集合是我拍脑瓜想出来的,因此可能遗漏了" 问题,可以考虑用现成的分词工具提取关键词,比如 python 的 jieba 分词 | 
|  |      57woscaizi      2022-11-24 16:55:13 +08:00 | 
|  |      60vigack OP | 
|  |      61libaokai      2022-11-24 17:33:06 +08:00 6 | 
|  |      62renhou      2022-11-24 17:38:19 +08:00 已硬,已收藏,好人一生平安 | 
|  |      63adoyle      2022-11-24 17:51:32 +08:00 从数据分析来研究女性主义,你是懂研究的。 > 我们常常提到物化女性这个概念,但常常是泛泛而谈,没有具体到现实的内涵,这里通过分析自制成人视频者的偏好,可以塑造出某些男性性幻想对象的轮廓。 立意就很好。 看了你的博客其他文章,文笔不错。关注了。 | 
|  |      64Asimov01      2022-11-24 17:55:47 +08:00 有趣有趣,已关注 OP 博客 | 
|      65JimmyRogue      2022-11-24 18:04:23 +08:00 有意思,感谢老哥 | 
|  |      66advicebullet      2022-11-24 18:12:56 +08:00  1  [露脸] 真实夫妻 18 岁 XX 师范大学在读 170 高挑长腿黑丝 直叫老公不要停 1 分 20 秒手势验证 根据画像写的标题,找人去拍一个。 | 
|  |      67Sivan      2022-11-24 18:19:49 +08:00  1 @advicebullet 你是懂 SEO 的 | 
|      68chanlk      2022-11-24 18:20:29 +08:00 唐卡来张高清大图啊 ( ̄▽ ̄)/ | 
|      69phelop      2022-11-24 19:35:32 +08:00 市场营销做好了,我来解决片源,谁来解决推荐算法,再提供 rss 订阅,来跟我做大做强 | 
|  |      70jiujiutang      2022-11-24 19:57:28 +08:00 最后的图片高清大图吗 | 
|  |      71222aa      2022-11-24 20:50:43 +08:00 老哥看了你的博客,你用的是什么系统哇?看着很舒服哦 | 
|      72gerorim      2022-11-24 21:04:45 +08:00 老哥原来的点云图没有删掉,还是 CDN 有缓存? 原来的点云符合期望(指的是概率上的数学期望) https://hsingko.github.io/post/2022/11/24/ml-in-china/images/2022-11-24_11-56-02_wordcloud.png | 
|  |      73vigack OP @gerorim 感谢提醒,忘了 hugo 生成内容的时候默认不会进行删除。 确实原来的图更能反应真实情况,不过过滤掉那些直白的描述并不会对其他方面的关键词造成影响。 | 
|      75neofacenew      2022-11-24 22:26:16 +08:00 @vigack 想问下用的是什么中文字体? | 
|  |      76vigack OP | 
|  |      77CRight      2022-11-25 00:14:02 +08:00 via iPhone 词云替换后了就不真实了, | 
|  |      79Mrxx      2022-11-25 08:51:06 +08:00 窥一斑而知全豹纹内衣 | 
|  |      81labubu      2022-11-25 09:21:20 +08:00 @advicebullet 你是懂大数据的 | 
|  |      822NUT      2022-11-25 10:48:59 +08:00 社科专业 再深入 扩充下 其实可以作为毕业论文了 | 
|      83abirdcanfly      2022-11-25 10:54:33 +08:00 大佬的视角偏颇太大! 这大概只是男性用户的数据, 并非国人, 请注意中国并非只有男人, 女人也有 xy; 本人也是男性, 只是指出不同观点, 并无冒犯之意 | 
|  |      85vigack OP @abirdcanfly  因为“国男”已经成了带有情绪化的词了,所以这里我用的是“国人”,不过这篇分析确实特指男性。 另外在中文圈,就我所知,还从来没见过女性向的视频;分析女性 xp 也是个很有趣的主题,可惜我目前并没有发现什么值得研究的数据来源。 | 
|      868XIQz5SCHX1U6c7s      2022-11-25 11:58:07 +08:00 好活👍 | 
|      87NESeeker      2022-11-25 12:03:01 +08:00 via Android 操千曲而后晓声 观千剑而后识器 楼主好活,当代《文心雕龙》 | 
|      88hanbing135      2022-11-25 12:22:43 +08:00 via iPhone 感觉 lz 可以进行视频内容检测做深度分析 | 
|  |      89mmdsun      2022-11-25 13:18:12 +08:00 via iPhone furry 控路过。 这让我想起前段时间我的圈内都再转 涂满你 xp 的小瓶子的调查卡片。 |