V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
huzhikuizainali
V2EX  ›  Python

关于人工智能的两个认识是否正确?

  •  
  •   huzhikuizainali · 2020-12-10 05:02:55 +08:00 · 2349 次点击
    这是一个创建于 1477 天前的主题,其中的信息可能已经有所发展或是发生改变。
    本人纯小白,如果问的不得要领,请各位多包涵。

    1 、在其他条件不变的情况下(比如识别用的程序)。被识别对象越复杂,需要的训练集越多?比如要让程序识别猫(从各种图片中分别,飞机,狗,人,抽象的,写实的)需要很多训练集。但是如果要让程序识别矩形(所有图片中图片中只包括黑白两色),则需要的训练集相对于猫的训练集要少?
    如果以上认识正确,现在是否有什么理论可以告诉人们。要区分多么复杂的图,大致需要多大数量的训练集?或者说训练集超过某一个临界值以后,对识别率的提升边际贡献已经很小了。有没有这样的理论?


    2 、以用户分类为例,如果仅仅有用户收藏,搜索关键词,点赞的这三个因子,我对用户的分类可能只能做到 5 分(假设满分是 10 分)。那么如果再获得用户浏览每个视频的时长,哪些视频进行了评论,哪些视频进行了分享,等更多指标。那么用户的分类可能会做到更好,比如 6 分。
    如果以上认识是正确的。那么在实际工作中大厂是如何进一步寻找这些指标的呢?这些指标是否已经被榨干?即现有可收集的的用户指标(不是说指标的数据量,而是说指标的种类)已经应收尽收了?除去用户数量增长和算法优化带来的边际效益。在挖掘“指标”这部分潜力还大么?
    8 条回复    2020-12-10 10:31:17 +08:00
    iConnect
        1
    iConnect  
       2020-12-10 06:27:54 +08:00 via Android
    1 复杂图片不好定义,是指图片大?还是图片模糊?还是图片上物体多?人眼觉得复杂机器不一定,看起来复杂,如果学习特征明显,机器也可以很容易。“复杂”没有准确定义,自然没有“复杂”度相关的理论,可以说虚拟模型都是特事特办,人工调参。如果有对应的理论,也就是可以实现机器调参了。

    2 大厂也靠“蒙”参数。蒙对了就纳入模型,梦错了下次去掉,修正模型。
    hello2060
        2
    hello2060  
       2020-12-10 06:31:06 +08:00   ❤️ 1
    第一个是有的,我没实际经验只是上过 coursera,一方面是样本多少,一方面是特征集的大小。样本太多会形成过拟合,相当于电脑记住了每个样本的结果所以在训练集上完美,但是在真实世界不行,这种情况下样本继续增多样本已经没用了。吴恩达的课说了好几个指标。可以判断你是样本不够还是特征集不够
    huzhikuizainali
        3
    huzhikuizainali  
    OP
       2020-12-10 06:44:30 +08:00
    @iConnect 谢谢回复。
    关于 2 、也就是说增加哦“有效”指标的数量对于分类效果必定有提升。这个看法是成立的?
    gimp
        4
    gimp  
       2020-12-10 08:45:46 +08:00
    借楼请教个问题,我用指纹捺印训练后的模型(训练集的图片大概 1/10 A4 纸大小),在识别 A4 扫描后的电子档上的指纹时识别不到,需要裁剪后才能识别。

    我想到的解决方案如下,不知道靠不靠谱,还有没有什么好的方式,我想做的事儿是判断扫描件上有没有指纹

    1,调整训练集数据,让其跟真实的要识别的图像尺寸贴近。(暂时还没有这样的训练集样本)
    2,识别前对电子档图片进行裁剪(不太确定指纹具体位置,这样的话可能需要裁剪成多份小图,识别后再计算相对坐标,似乎也不太好)
    mcone
        5
    mcone  
       2020-12-10 08:47:08 +08:00   ❤️ 1
    1. 复杂的多类问题确实需要训练数据多,逻辑是多分类问题->参数少的模型难以拟合->增加模型复杂度->需要训练数据增加,但是识别黑白两色图像的数据,不一定比彩色图少,不少模型为了省事都是 RGB 转灰度再丢进去的。
    需要的数据量靠经验估+根据模型验证集性能自己调,理论也有,传统机器学习的训练数据大概是 20*C,C 是模型参数个数

    2. 是的,但是也可能会下降到 4 分,就像孟德尔的豌豆一样。
    人肉测,人肉调参,无他。不然大厂雇一群人一年写出来一个模型,不需要更新了,那这群人还继续养着干啥,都开了呗还省钱。
    huzhikuizainali
        6
    huzhikuizainali  
    OP
       2020-12-10 09:20:41 +08:00
    @mcone 谢谢回复!
    “理论也有,传统机器学习的训练数据大概是 20*C,C 是模型参数个数” ---------请问这个理论是否有中文名称?有没有哪本书对这个理论有比较深入浅出地介绍?
    MinQ
        7
    MinQ  
       2020-12-10 09:29:46 +08:00
    @gimp 你所使用的算法是什么?原始分辨率是多大?模型接受的分辨率是多大?有没有预处理步骤?
    mcone
        8
    mcone  
       2020-12-10 10:31:17 +08:00
    @huzhikuizainali
    Vapnik-Chervonenkis Dimension
    20 这个参数是经验参数,大部分描述为 10-30
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1008 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 22:31 · PVG 06:31 · LAX 14:31 · JFK 17:31
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.