V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
jianghu52
V2EX  ›  云计算

大数据不是巨量数据

  •  
  •   jianghu52 · 2013-07-24 08:54:26 +08:00 · 5933 次点击
    这是一个创建于 3926 天前的主题,其中的信息可能已经有所发展或是发生改变。
    昨天在创意那边的论坛聊了一个用大数据预测双色球的问题,其中一个哥们跟我回复的信息很好玩,说 [千分之一样本数据没超过单机内存就不要自称大数据了。纯装逼] 。在他看来,大数据一定是巨量的,普通机器难以处理的数据。
    但是就我的理解,如果大数据真的是这种只能靠小型机,或者机器阵列才能处理的结构的话,那么他离普通人的距离会非常远。整个中国有能力玩大数据的公司,还有人就屈指可数。
    最近在读两本书,一本是维克托•迈尔-舍恩伯格写的《大数据时代》,另外一本是涂子沛的《大数据》。里面正好有一个很有意思的例子。
    《大数据时代》里面有人通过统计十年的相扑比赛结果,再配合上升段时间节点,以及对手双方的胜率,就可以发现到底相扑选手是否作弊。《大数据》里面,有人搜集了美国的各个机场的航班晚点情况,就可以预测出当天的航班是否可能会晚点。 这两个例子里面,数据撑死了,我估计都不到100m。但是却被两个作者都认为是大数据的代表。
    我觉得数据本身的大小并不是关键,关键是在于足够精细的粒度之下,范围足够大,多样性足够多的数据,才能被称为大数据。事实上,如果数据只是存储文字的话,我觉得大多数的数据都是可以被个人PC所处理的。关键在于样本足够完善,范围足够大。
    这就是我理解的大数据。
    29 条回复    1970-01-01 08:00:00 +08:00
    cxe2v
        1
    cxe2v  
       2013-07-24 09:08:32 +08:00
    嗯,大数据确实不是巨量数据,那个哥们确实是纯装逼,哎,这种人多了去了,专心好做你自己的,你就能在看似牛人一片的地方脱颖而出
    RisingV
        2
    RisingV  
       2013-07-24 09:12:37 +08:00   ❤️ 1
    概念上没有什么需要自己添加理解的余地。
    就是数据量大到传统的关系型数据库等技术难以处理,就叫大数据。
    所以需要Mapreduce+GFS这样的分布式暴力计算框架和分布式文件系统来处理。
    关键差别在哪里?后者省时间、省设备,归根结底就是省钱。
    以前叫海量数据,学术词,问题变普遍了,顺口一点就叫大数据。

    或许你想表达的是高精度的数据挖掘和大数据之间没有必然关系,这是对的。
    但是,大数据就是大数据,不需要大家来“横看成岭侧成峰”
    RisingV
        3
    RisingV  
       2013-07-24 09:14:08 +08:00
    “千分之一样本数据没超过单机内存就不要自称大数据”。这话一点也没说错!
    est
        4
    est  
       2013-07-24 09:14:54 +08:00
    > 《大数据时代》里面有人通过统计十年的相扑比赛结果,再配合上升段时间节点,以及对手双方的胜率,就可以发现到底相扑选手是否作弊。《大数据》里面,有人搜集了美国的各个机场的航班晚点情况,就可以预测出当天的航班是否可能会晚点。

    那么请给出这是 大数据 ,而不是传统的 数据建模 和 统计分析 有区别的地方?

    http://en.wikipedia.org/wiki/Big_data

    > Big data is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.

    说你这两个例子叫装逼还是拔高了。这两个例子纯粹2b
    RisingV
        5
    RisingV  
       2013-07-24 09:16:14 +08:00
    “Big data[1][2] is a collection of data sets so large and complex that it becomes difficult to process using on-hand database management tools or traditional data processing applications.”

    http://en.wikipedia.org/wiki/Big_data

    维基百科也写得很清楚了。那哥们一点也没说错。
    Narcissu5
        6
    Narcissu5  
       2013-07-24 09:22:21 +08:00
    最近感觉流行中的大数据的概念越发向中医或者气功一类的东西靠拢了。
    zhttty
        7
    zhttty  
       2013-07-24 09:22:49 +08:00
    不要钻牛角尖,big data 确实就是大数据,海量级,PB级。

    但是大数据的分析方法确实可以通用到很多分析领域。

    前者是定义,后者是方法,你不能说用了大数据的分析方法分析的数据就成了大数据,这是逻辑颠倒的误区。
    dimfox
        8
    dimfox  
       2013-07-24 09:49:01 +08:00
    所有的名词成为时尚之后,都会被人将内涵不断扩大。所以没必要太计较确切的定义。
    likuku
        9
    likuku  
       2013-07-24 09:59:43 +08:00
    有时也可能是100G的数据必须1分钟内完成统计报表,那么可能需要非常贵的单机才搞得定,来一组"大数据"机群来跑就有可能完成。
    avichen
        10
    avichen  
       2013-07-24 11:58:12 +08:00
    @likuku 非常贵的单机和一组"大数据"机群从价钱上有分别吗?不都是一样需要很大的投资成本。呵呵,你这个不是重点。
    我觉得重点是可以把很多分散的计算能力统一起来合理利用,这才是大数据时代云计算的根本内涵。
    luikore
        11
    luikore  
       2013-07-24 12:06:10 +08:00
    buzzword 会被各种人因应自己的便利更改含义, 特别是搞营销的...
    宅, 黑客, 有机... 之类的词早就和原来意思差 10 万 8 千里了
    plprapper
        12
    plprapper  
       2013-07-24 12:22:49 +08:00
    呵呵 真给他海量数据,他会说 需要加机器。。。
    quake0day
        13
    quake0day  
       2013-07-24 12:42:36 +08:00
    本身大数据就是个和云计算一样模糊的概念,怎么解读也都不为过。但我认为数据本身的大小很重要,大数据研究的就是数据过大后如何对数据做有效的传输,存储和处理。
    否则10G数据要是也叫做大数据,就是数据维度广些,那么和普通的统计分析有啥区别?
    likexian
        14
    likexian  
       2013-07-24 12:54:56 +08:00
    luikore
        15
    luikore  
       2013-07-24 13:05:39 +08:00
    两条新财路:

    出售双色球历史购票记录超大数据1元/M, 里面用随机数生成就可以
    出售ASIC双色球分析阵列电路, 随便焊个就可以, 但数字要液晶一个一个的跳出来效果特别好那种
    likuku
        16
    likuku  
       2013-07-24 13:37:46 +08:00
    @avichen 「我觉得重点是可以把很多分散的计算能力统一起来合理利用,这才是大数据时代云计算的根本内涵。」觉得我上面的主要意思也暗合了你这说法嘛。
    likuku
        17
    likuku  
       2013-07-24 13:39:04 +08:00
    @luikore 一直怀疑电视彩票开奖的不是现场直播,而是录像。

    纯CG生成开奖画面,现在的机器也不是不可能。
    luikore
        18
    luikore  
       2013-07-24 14:07:24 +08:00
    @likuku 怀疑就要去探索啊, 去彩票中心搞搞关系进去看吧
    avichen
        19
    avichen  
       2013-07-24 14:19:17 +08:00
    @likuku 我怎么感觉你的意思是成本问题,呵呵。
    shoumu
        20
    shoumu  
       2013-07-24 18:39:32 +08:00
    @likuku
    @avichen
    > 「我觉得重点是可以把很多分散的计算能力统一起来合理利用,这才是大数据时代云计算的根本内涵。」
    不觉得这个根本内涵,计算能力的统一合理利用方式并不是云计算才开创的。
    shoumu
        21
    shoumu  
       2013-07-24 18:41:18 +08:00
    听过一句话:“在高校里面讲云计算是道德败坏”
    avichen
        22
    avichen  
       2013-07-24 20:39:14 +08:00
    @shoumu 我们没说这个是云计算开创的,只是新时代下新的包装方式,得有新东西卖呀。呵呵。
    Ricepig
        23
    Ricepig  
       2013-07-24 20:50:42 +08:00
    大数据时代应该和其他一些“大xx时代”一样理解

    比如说我大巴萨V5,我大杭州V5这类

    不是巴萨大,也不是杭州大,呵呵
    shierji
        24
    shierji  
       2013-07-24 22:12:53 +08:00
    @Ricepig 我赞同这个观点……还比如说我大帝都,我大重庆,我感觉这个大更多的是对数据的重视性和对大量数据的分析……但是并不是一定等于数据大
    venmos
        25
    venmos  
       2013-07-25 04:27:42 +08:00
    没有"大量"的数据,则没有"大数据"
    monkeylyf
        26
    monkeylyf  
       2013-07-25 07:52:18 +08:00   ❤️ 1
    big data vs smart data
    konakona
        27
    konakona  
       2014-04-17 19:45:50 +08:00
    大数据是用来解决问题的,在业务的角度它是偏向抽象的、概念化的。
    大数据是分析数据的名词。

    过分的将大数据理解为“大的数据”是普遍错误的一种认知。这种“大的数据”早就存在了,例如Google、Facebook、Twitter、甚至是SNNA、GFW等。

    光说大数据还不足以表明它能干什么,应该是大数据分析。

    即便是100G也可以做大数据分析。
    konakona
        28
    konakona  
       2014-04-17 19:47:54 +08:00
    讲大数据就不要轻易谈论成本。因为大数据分析一整套解决方案,实施下来起步价是100W+。

    如果只是走大数据分析的形式,则聘请相关专家,人天实施项目,成本会降低至几十万。
    konakona
        29
    konakona  
       2014-04-17 19:50:55 +08:00
    大数据指的是:基于数据量的数据分析方法。
    形成有价值、可量化的结果,为营销和市场带来不可估量的收获。

    大数据必然建立在数据上,但这数据不必是巨量的。而是可分析、有价值的数据。所以我说100G也可以做大数据分析。

    50G没准都可以,不过普通的数据中含有大量的无用数据(比方说视频日志数据,会记录每几秒的操作,但其实每次只有1、2秒的数据具有分析价值)。所以可以变相的说:数据量越大,分析的结果越精准靠谱。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3124 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 14:41 · PVG 22:41 · LAX 07:41 · JFK 10:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.