V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
onice
V2EX  ›  AlphaGo

阿尔法 GO(AlphaGo)是怎么进行思考的?

  •  
  •   onice · 2017-01-05 11:37:13 +08:00 · 1421 次点击
    这是一个创建于 2692 天前的主题,其中的信息可能已经有所发展或是发生改变。

    今天看新闻消息:新阿尔法 GO 六十连胜横扫人类棋手

    链接: http://www.thepaper.cn/newsDetail_forward_1593625

    看了新闻,突然觉得人工智能很厉害啊!

    但是我心中一直有个问题,冯诺依曼有个理论是:计算机应该按照程序顺序执行

    但是从新闻上看来,阿尔法 GO 是能够像人类一样进行思考的。我想这也是人工智能的目的吧:让计算机能够像人类一样思考。

    也就是说,从一定的意义上来讲:计算机思考的步骤实际上是由人类通过程序编写好的逻辑。这个观点和人工智能的目的是悖论。

    一旦计算机能够独立思考,在理想状态下,计算机应该可以像人脑一样进行一些创造性的行为。就像是电影《终结者》那样。

    不过我还是很好奇,阿尔法 GO 的程序逻辑是怎么实现的。有没有相关领域的大神科普一下。

    13 条回复    2017-01-07 16:44:55 +08:00
    benwwchen
        1
    benwwchen  
       2017-01-05 11:44:41 +08:00 via iPhone   ❤️ 1
    allenlee7c9
        2
    allenlee7c9  
       2017-01-05 11:45:20 +08:00 via Android
    没有思考
    easing
        3
    easing  
       2017-01-05 11:50:17 +08:00   ❤️ 2
    思而不学则殆。我觉得 lz 还是不要在缺乏一些基础知识的情况下思考这些问题。或者你看看一楼里贴的链接后再做思考。
    tumbzzc
        4
    tumbzzc  
       2017-01-05 11:55:48 +08:00
    也算是“思考”吧。。跟人类一样,考虑走哪一步胜率更大。。
    Izual_Yang
        5
    Izual_Yang  
       2017-01-05 11:58:06 +08:00   ❤️ 1
    深度学习+蒙特卡洛吧
    关键是围棋有一定复杂度,但又有明确的评判标准(死活,胜负),还有海量的输入数据(人类对局和 AI 左右互搏)可供学习,人工智能从这里开始突破也是很正常的。
    层主的主要误解在于“和人类一样思考”,然后层主又瞬间脑补了“独立思考”乃至“创造性的行为”
    onice
        6
    onice  
    OP
       2017-01-05 12:01:13 +08:00
    @Izual_Yang 没有接触过这个领域,见笑了。
    bearqq
        7
    bearqq  
       2017-01-05 12:49:05 +08:00
    以下有一些是深度学习里的词,不懂可以忽略,感兴趣可以百度
    围棋是监督学习,你提到“思考”,所以我想说说别的东西,无监督学习

    DQN 是一个典型的无监督学习方法,能展示典型的“思考”的过程。
    如果说一个函数对确定的输入(可能时间相关)有确定的输出,那么我们可以去逼近这个函数。 DQN 认为,如果我们给出当前的(游戏)状态变量,作为输入,加上“下一步的可选行动”选项,我们可以通过这个函数来预计游戏结束的分数。那么如果我们想要得更高的分数,我们就分别计算每个可选行动,对得出分数最高的那个行动进行实施不就可以了吗。

    举个例子,愤怒的小鸟。如果我们把当前屏幕截图给模型(如上状态变量,即输入),我们可以让他跳跃或者不跳跃(下一步的可选行动),让机器自己去判断跳还是不跳。机器计算一下,跳的话最后得分可能是多少,不跳的话最后得分是多少,然后决定跳还是不跳。

    那么思考过程呢,就是对那个“预计游戏结束的分数”的函数。计算机不断的用这个不完善的函数去尝试,每次结果的偏差用来修正这个函数,不断的去逼近真实的那个预估函数,不断的提高自己的预判能力,不断的提高自己的分数。逼近的过程是数学方法,有兴趣可以了解梯度下降,这是深度学习“思考”的本质。

    然后你就看见电脑控制着那个鸟,一开始撞的满头包,后来能跳过几个桩了欣喜若狂,过了百万次(帧,预判次数)以后,他能顺利飞过所有的桩,根本停不下来。
    就像教孩子一样。

    源码在此 https://github.com/yenchenlin/DeepLearningFlappyBird ,需要 tensorflow
    还有有土逼的视频
    bearqq
        8
    bearqq  
       2017-01-05 12:56:40 +08:00
    @bearqq 我想说的是 flappy bird 不是怒鸟,抱歉
    yyfearth
        9
    yyfearth  
       2017-01-05 13:40:32 +08:00
    @bearqq 你不用 at 自己 哈哈
    bearqq
        10
    bearqq  
       2017-01-05 13:47:18 +08:00
    @yyfearth 习惯-。-
    blackjar
        11
    blackjar  
       2017-01-05 18:15:09 +08:00
    了解一下 nn 再问问题 没那么难吧?
    srlp
        12
    srlp  
       2017-01-07 07:53:38 +08:00 via iPhone
    简单地说,是一种人工调节过初始值和算法的优化过的搜索。

    并没有“思考”。

    话说回来,谁能证明人类并不是这样的呢?
    Khlieb
        13
    Khlieb  
       2017-01-07 16:44:55 +08:00 via Android
    3 年前, DeepMind 在自主增强学习算法上有了一个突破。这是“深度学习”领域,最接近 AI 的一个研究方向。
    其中一个令人振奋的成果,就是不去由程序员编写 传统的固定下棋算法。而是初始化一个空白的深度神经网络系统,然后让 AI 自我对弈,自己学会了下棋。之后通过无限自我对局,不断完善自身。

    DeepMind 的论文引起了 Google 的关注,随即以超过 4 亿美金的价格收购了 DeepMind 。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2382 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 15:25 · PVG 23:25 · LAX 08:25 · JFK 11:25
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.