现在有一个 JavaPairRDD<String, String>
代表的是 IP 和域名的对应关系
现在想把 一个 IP 访问过的所有域名都 表现出来
就是: JavaPairRDD<String, String[]>
其中 String[]是一个数组
请问这个如果不用 groupbykey 怎么操作?
1
heliumhgy 2016-03-31 10:52:42 +08:00 via Android 1
pyspark 就先 map k,v => k,[v] 然后 reduceByKey (k,v1), (k, v2) => k, v1+ v2 在 Python 中这个 list 会越来越长。
Java 就不清楚怎么写了,思路可以参考下 |
2
anonymoustian OP @heliumhgy 好的谢谢 我试试
|