公司明年要做大数据相关的项目,目前没有相关工作经验人员,包括领导。
我们大概有几百台设备,每台设备每秒传输一次数据,大概有 1000 个字段。
我们现在是想分析这些数据,从而获得一些可以用来决策参考的信息。
基于上述情况,有没有什么好的框架可以借鉴使用?或者说相关课程等有推荐吗?
感谢各位 V 友~
1
mwcodenoname 2021-01-25 12:13:56 +08:00
每次传输数据量有多大?数据存储周期有多长?分析数据需要的查询返回时间是多少?这些都要确定一下。
比较常用的方案就是 hadoop+hive+spark 这种。 |
2
czfy 2021-01-25 12:15:28 +08:00
这..真的有可能自己做成吗
感觉这种招人也没办法招,因为没有人懂,所以很难判断招来的人是否靠谱 相对来说最可能的就是找供应商了 |
3
JellyDong OP @mwcodenoname
传输每次大概 1M 左右吧,周期的话我们现在是放到消息队列,然后去消费的。 |
5
levelworm 2021-01-25 12:39:17 +08:00
你这个项目不小啊。。。假设五百台,一秒 1MB,一秒就是 0.5GB 。一分钟 30GB,一小时 1.8TB ,一天就是 43TB 。好想做这种项目啊。。。这个规模的数据肯定 Hadoop 跑不了了,其他的我也不懂。。。
|
8
czfy 2021-01-25 12:44:55 +08:00
@levelworm 我是在专门做大数据方面解决方案的公司,不是研发侧,但从我日常和客户以及内部沟通的情况来看,从 0 开始做这件事情,基本很难
|
9
levelworm 2021-01-25 12:53:00 +08:00
@czfy 我觉得也是,完全没经验的话,靠培训我觉得不是很乐观,即使是有开发经验(但是没有大数据开发经验的),因为大数据环境下很多坑都是新的,而且大概率每个坑很贵,无论是上云还是本地。我们公司是做手游的,数据量也不小,得有一整个团队来支撑。
|
10
mwcodenoname 2021-01-25 13:03:32 +08:00 1
@levelworm 这个规模存 hadoop,然后跑 hive 做离线分析应该是没啥问题的,不过集群规模要比较大了,没有团队和有经验的确实维护不动
|
11
levelworm 2021-01-25 13:11:30 +08:00
@mwcodenoname 如果要在线分析的话估计得 Spark 之类的?其实真的好想从头做这么一个项目。。。
|
12
JellyDong OP @levelworm
@czfy @mwcodenoname 现在这个项目类似于怎么说呢,科研?对于客户的话也是合作伙伴,是打算一起从头搞的。也可能会考虑找解决方案公司搭建好环境框架,然后后续我们自己维护 |
13
mwcodenoname 2021-01-25 13:46:57 +08:00
@levelworm 传统方案一般要做实时分析就是 spark 、flink 这种计算和 hbase 组合吧,不过最近 clickhouse 也很火,这个我就不熟悉了,这种项目光机器成本就不是一般能承受的了的
|
14
IceMimosa 2021-01-25 13:47:19 +08:00 1
1. 数据接收模块:多节点,可以自己写个 web 程序,简单处理下数据和规范格式,然后将数据以日志的方式落地。
2. 日志收集模块:简单点可以用 flume 收集日志,然后发到 kafka 3. kafka 消费模块:用 sparkstreaming,flink 之类的处理框架,将数据落到 hive 中( hdfs ) 4. 离线处理:然后起离线任务去处理,可以用 spark,hive 之类的。后面就是数仓干的一些活,每天定时任务可以用 airflow 之类的进行调度。 5. 数据展示模块:将每天调度出来的统计数据,通过 spark 或者 sqoop 之类的导出的关系型数据库,或者干脆直接上 olap 框架。最后对接一些 bi 系统,比如 metabase,superset 等。 总之里面技术比较杂乱,还得考虑每个技术版本的兼容性问题。整个环境搭建起来也挺费事的,当然也有整体的解决方案比如 cdh,hdp 之类的。 相关课程的话,B 站应该有培训的视频,涉及面挺广的,不过学习周期就特别长了。。最好还是有个经验的人带着搞,不然到处都是坑😂 |
15
ward56 2021-01-25 14:11:37 +08:00 1
有幸参与过联通的 Hadoop 大数据,主要存储 GB 以上的数据包,不到半年几十 PB 。
hadoop 适合存储《大》数据,一次写入多次读取,你的数据真的很大吗? 从你目前提供的一点信息来看,你的案例比较适合 ES 框架,至于组件用什么,你得再根据自己具体业务选型。 |
17
min 2021-01-25 14:43:46 +08:00
你这数据量不小了,先要把打算怎么分析这些数据搞得清清楚楚,根据分析使用数据的场景再出架构
|
18
masterclock 2021-01-25 14:59:05 +08:00
主业就是这方面的东西,说实话公司从 0 做起难度太大,意义也不大,除非是要做这个行业了。
1. 搞定这几百台各种各样设备的数据采集:各种 PLC 、Modbus 、OPC-UA 、哑设备? 2. 考虑网络连接等:以太网、无线、EtherCat 、Ethernet/IP ? 2. 打通企业现有的信息化系统、MES 、ERP ? 2. 理解数据,建立模型:谁来建模、谁来分析? 2. 考虑系统给谁用的,结果是给谁看的:老板、主管、技术人员 ? |
19
JellyDong OP |
20
Chenamy2017 2021-01-26 09:33:36 +08:00
我们项目两人,然后领导经常嚷着要大数据,看到楼上涉及面很广呀,我也是够了。
|
21
JellyDong OP @Chenamy2017
hah... |