V2EX 首页   注册   登录
V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  程序员

想学推荐系统,需要哪些基础,看什么书??

  •  
  •   iot · 98 天前 · 1139 次点击
    这是一个创建于 98 天前的主题,其中的信息可能已经有所发展或是发生改变。

    用 python 比较好??

    15 回复  |  直到 2017-03-21 13:43:59 +08:00
        1
    staticor   98 天前   ♥ 1
    项亮那本吧 Python 入门的 TopN 推荐

    表面上的原理不难, 做深了要研究特征工程
        2
    oliverxyy   98 天前   ♥ 1
    《推荐系统:技术、评估及高效算法》,挺经典的一本书,讲得也很细;
    一般自己做着玩的话语言什么的会什么用什么好了,如果是企业应用,运算量会比较大,肯定用 c/c++处理逻辑比较快~
        3
    HugeNature   98 天前   ♥ 1
    《 introduction to linear algebra 》
    《 Calculations 》
    《 Possibilities and Statistics 》
        4
    gladuo   97 天前 via Android
    最好是简单的推荐,各种排序和随机就可以。
    要想讲出点数学道理,还是要补各种机器学习的基础。
        5
    HLT   97 天前
    最近几天看了几篇北大 /清华博士的关于 推荐系统 协同过滤算法、机器学习 的论文。。。
    简直觉得自己是 小学本科
        6
    murmur   97 天前
    你如果想学用在真实系统的推荐,没什么用,因为商品都可以打 tag ,买一个推荐同类其他的按谁给的钱多排列就完了

    如果是真的想学算法,可以考虑看看简单的,比如关联规则这些

    什么叫竞价排名,比如你买了番茄给你推荐柿子,这是竞价排名
    什么叫关联规则?检测到你买了番茄和锅给你推荐鸡蛋
        7
    iot   97 天前
    @murmur 想做类似今日头条那样的
        8
    murmur   97 天前
    @iot 学会标题党就够了,今日头条的推荐再好没用,因为内容已经从标题开始就烂到骨子里了

    很多人感觉今日头条的标题准因为他就喜欢标题党。。
        9
    menc   97 天前   ♥ 2
    @murmur 说的好像你真的在做推荐系统一样,不懂就不要误导新人。


    @iot 推荐系统也是从机器学习学起, svd , cf , fm , ffm 这些算法也都是机器学习算法,推荐系统比较多张量分解类的算法,所以线代要学好,概率是一定要学好的。

    套路是这样的:《线代》《概率》 -- 《机器学习》--《推荐系统》

    此外需要领域知识,做文本的推荐的话,需要 NLP 的知识,比如 word embedding 如何放进推荐系统做 feature ,比如 lda 的 keyword 如何放进推荐系统做 feature ,图像推荐的话需要 CV ,那些就很多很杂了, domain language 主要对 feature engineering 起作用。

    你楼上说的关联规则,二十年前的做法,早就没人用了。
        10
    murmur   97 天前
    @menc 是这样的,技术虽然很厉害,但是你作为一般用户,有感觉现在国内网站推荐有多么智障么?

    最明显的一点,就是更换太厉害,典型的网易云,你听过一首歌至后,你发现你整个推荐都被换成这个歌的风格了,一点权重都不考虑啊

    淘宝一样,而且淘宝缺少一点点人为干预,或者一点个性化, 3 月末的广州,气温高达 20+度,依然在推荐冬装

    优酷是正好相反的,我反复看郭德纲的相声,甚至都在反复循环,首页上郭德纲的东西都是一闪而过,满屏幕的古装剧、宫斗剧

    而你说的 feature ,在音乐、视频这些领域反倒不重要,因为人的标注太准、太勤劳了,大家都在努力写 tag ,认真描述自己的东西,只要大类准推荐几本不会错

    为什么这么说他没有机器参考的因素,比如我在网易云听东方的歌,但是我听 vocal 的多,不听钢琴曲,他还会推荐一堆钢琴 rearrange 给我,说明他的标注就认了东方,而根本没分析这个音乐的更多特征

    你又会说了,你这么特立独行为什么我要考虑你,我要说的是,我以前上学的时候,有个公司自豪的宣传他们的算法就提到了他们发现了 10%的人喜欢找老女人。。。
        11
    murmur   97 天前
    @menc 顺便说一下, lda 我读研的时候用过, Blei 写这篇文章的时候还是 2003 年呢, 14 年前和 20 年前比一个半斤一个八两谁也别说谁

    其实推荐,笨想,能商用的一个分类器就够了,你说淘宝需要很复杂的算法么?他只要能区分男装和女装就够了

    淘宝的推荐系统,别说被你鄙视的关联规则了,他连买了 cosplay 的衣服推荐假发的能力都做不到,可能人家就认为我喜欢买衣服一直买到手剁掉
        12
    menc   97 天前   ♥ 2
    @murmur
    笑尿,用过还不懂真的就只是调包侠了。
    人的标注从来就赶不上数据的增长速度,我们每天文章几万的进来,怎么搞人工标注?而且你说的问题,不正是人工标注太糙了,只能标注出东方,不能更细分出 vocal 和钢琴么,这是人工标注的天生弱势,很多推荐系统就是太粗了才让人觉得恶心。
    所以 domain language 才更重要,音乐更需要分类器来对 genre 进行精确分类。

    你所说的推荐系统的 bad case ,恰恰都是人工干涉太多,技术实力不够的结果。

    你也不懂一个 1%的指标上涨对营收有多大影响,要是懂,也不会说出“能商用的一个分类器”这种说法。

    而且刚搜了下,淘宝现在搜 cosplay 服装会出假发的。
        13
    murmur   97 天前
    @menc 怎么搞人工标注?那每天几万文章的标题都是机器取出来的么。。。视频选分类打 tag 不都是上传人自己搞的

    -----------下面属于灌水----------------
    我感觉与其研究推荐,不如研究一下怎么让机器给正八景的文章搞成标题党,算法一跑几万文章都震惊了
        14
    murmur   97 天前   ♥ 1
    @menc 另外呢,我感觉这个问题没必要吵架,你的观点是算法很重要,我的观点是真实应用时人的力量可以代替很多算法,而且因为人有主观性他反而有时候比机器的算法更微妙

    但是考虑到我没有证据容易被喷,我特意注册了一个今日头条的号,注册的时候让选一个叫领域的东西,足足有 39 项,我自己注册的时候已经交底到这分上了,算法分不分意义不大了吧,何况有的领域我必须提交身份证明否则发了封号

    不知道看了这么多的楼主在干嘛,他现在连自己的目标都不明确,是快速搞一个推荐系统跑起来,还是想学高大上的理论和算法呢

    但是无论如何,给我的感觉现在跑的无论国内外推荐都不行,就包括 youtube 也是一边倒推荐,反倒是语音、翻译、图像搜索、输入法这些在突飞猛进的发展,而且的的却却让你感受到技术改变了生活

    btw,1%的指标对营收多影响我不知道, xx 头条和公众号的造谣文和震惊了让国内的通识教育回到了至少 20 年前
        15
    iot   97 天前
    @murmur 我在看你俩的对话呀,我准备一边做个简单的推荐系统,但是长远还是要学 @menc 他推荐的基础,毕竟想做个有竞争力的程序员。
    DigitalOcean
    关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   鸣谢   ·   1633 人在线   最高记录 2607   ·  
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.7.5 · 49ms · UTC 12:06 · PVG 20:06 · LAX 05:06 · JFK 08:06
    ♥ Do have faith in what you're doing.
    沪ICP备16043287号-1