我现在有一个 M * N 矩阵,但是在 Spark 里面是用 JavaPairRDD<String, String>一行一行来存储的。 其中 tuple_1 代表 用户, tuple_2 代表 食物, 也就是说 形成了一种 用户与食物的对应关系。 我要构建一个矩阵,行代表用户,列代表食物,如果有这样一条 RDD 记录的话, 构建 的 M * N 矩阵 那个值为 1 , 否则为 0
现有的例子我查到的 都是直接 读入一个 txt 文件, 但是 并没有讲如何构建这个矩阵?
而且我的矩阵行和列是有意义的,是要映射出去的,现有的例子也没有。 就是说如果对这个矩阵进行运算的话,希望 第 i 行 映射到 小明, 第 j 列 映射到 薯条 这样子;
另外这个 RDD 的条目大概有一千万条, 如何写程序构建这个矩阵并且可以进行相关的运算? 大家有没有什么好的例子?
谢谢!