数据挖掘方向的有什么好的建议吗？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

V2EX 提问指南

这是一个创建于 4240 天前的主题，其中的信息可能已经有所发展或是发生改变。

我是研一的，搜索和数据挖掘方向，目前在实验室也没有做过什么靠谱的项目，最近招聘会去转了一下，感觉几乎没有要这个方向的企业啊。
感觉很迷茫，不知道现在学的跟实际到底有多大的脱节。有没有这方向的大神可以指导一下，感激不尽。

数据挖掘

方向

研一

8 条回复 • 2016-11-29 11:47:48 +08:00

ahxxm

2013-06-02 19:50:20 +08:00

科研应该也算是实际应用吧，我这正好有个问题不知道怎么解决，贴出来给lz看看……
图1 ：

pig_sus.blast是用blat处理原始数据后得到的输出文件，C090_1.blast（以及其他blast文件）是用于对比的数据。
pig_sus.blast中，第一列是query，有重复项，取evalue最小的、identity最大的（格式见http://edwards.sdsu.edu/labsite/index.php/ramys/238-blast-output-8），已经处理完了，R代码如下：
/*
x = read.csv("pig_sus.blast", sep = "", header = FALSE)
x = subset(x, subset = !duplicated(x[c("V1")]))
*/
然后合并两组数据发现没对齐，图2：

合并代码如下：
/*
x = x[1:239,]
c = c("XV2", "XV9", "XV10", "YV2", "YV9", "YV10")
comp = data.frame(x[,2], x[,9], x[,10], y[,2], y[,9], y[,10])
colnames(comp) = c
*/
line 125时，x的V2出现了新项chr11，原本与y[125, ]对应的chr1变成了126。
图3：

所以想根据V1来进行合并，把类似POR_C090_I10_I10的新项单列成之后，剩余项对齐合并，再进行对比。
对比原则是：两组数据的V2 V9 V10都一致则判定为一致，最后需要得到一致项/总项数这个比例。
--------
ps1:看id我们好像在twitter上互fo了哟~
ps2:为了处理数据还重新编译了一遍blat...

ahxxm

2013-06-02 20:07:19 +08:00

我好像自己搞定了 = = V1一样，V2就都一样的，所以：
merge = merge(x,y, by = "V1")
merge = subset(merge, V9.x = V9.y)
再把行数相除就行了……
其实我都不知道自己在做什么，帮人做作业，抽象成这个过程。这些大概就是实际中需要的技能吧……
求大牛指导