V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  crayonyi  ›  全部回复第 2 页 / 共 5 页
回复总数  94
1  2  3  4  5  
@libook 你说的这些,即使不是计算机的,也是必备的。 应该归为人最重要的基本能力,或者叫软能力。 已补充。
@kankk 工作后也才发现,大学的教材有多坑。 考研指定教材、老师自己出教材,真心不如直接拿国外的
@withlqs
1 我记得上学的时候只学了数电,没学模电。 不过模电比数电确实难好几个量级,还不敢去深入。
2 我把体系结构归到硬件了,所以编译原理就往下放,和操作系统放一起了。
3 计算机图形学、数值分析是到后期才学的,偏应用一些,学完才发现全是矩阵运算之类的。 当初要是和线性代数一起开课,我肯定卯足了劲学。 可以作为拓展材料看。
4 组合数学和微积分也可以作为拓展材料看。有些难度。
@wcj 一直觉得数据库应该算应用层的东西,就没有放上去。 不过在实际应用中,数据库确实挺重要的。

计算机体系结构硬件软件接口 那本确实 比我写的那本易懂。 多谢推荐。
@wshcdr 说的对。 英语这种软技能,还是挺重要的。
2016-12-15 17:14:16 +08:00
回复了 FrankFang128 创建的主题 JavaScript 这会是 2016 年前端的年末撕逼吗?
应用新技术也是要讲场景。 现在好多前端都是为了技术而技术。
2016-12-08 10:38:32 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@udumbara 该项目不能为一个完整的征信模型提供数据,但是可以解决冷启动的问题。

因为这部分数据银行没有,他们几乎不存款;互联网公司也没有,因为他们也几乎不上网。 如果想给他们贷款,必须有个第 1 步。 所以我们用 下一年是否脱贫 以及 下一年人均年收入 作为目标变量。

目前商业的贷款,利息大概是 6%左右;但贫困户几乎贷不到商业贷款。

中国扶贫基金会下面有个中和农信,可以给贫困户贷款,但是利息为 12%,高于商业贷款,目的是为了杜绝投机倒把。
现在一年大概贷出去 20-30 个亿,每年利润 3000 万左右。违约率非常低,才百分之零点几, 因为养了 3600 多人,专门下去跑。 这样算下来,平均 1 个员工 1 万块年收入都不到。 当然,这里是有公益性质的。

所以,我们希望能通过技术的手段,把利息和成本降下来。 先走通第 1 步,放出贷款,然后不断用你说的违约率数据,来丰富模型。
2016-12-08 10:26:24 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@bxb100 我用的是 mac pro ,大概 20 秒左右出结果。
2016-12-08 10:25:01 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@kraymond @nevin47 csv 数据已发
2016-12-08 10:16:43 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@minami 我用你的方法试试。 如果你能做 pull request ,那就更好。
2016-12-08 00:31:59 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@misaka19000 我也刚入门,调用的 sklearn 库,找做这一块的同学问着做的。
2016-12-08 00:14:26 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@lightening 我知道。这个 commit 之前,是没有数据库文件的。 我第 1 次添加的就是“去除秘密字段的数据库”。
2016-12-08 00:12:59 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@minami 可以试试。 不过随机森林分类是用来预测是否脱贫,后面的回归模型是用来预测下一年人均年收入的。 所以没有可比性。
2016-12-07 23:45:47 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
修正上面那条,应该是 “我全猜贫困的概率是 85.3%”
2016-12-07 23:27:58 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@Xs0ul 跑了一下, feature importance 排名如下:

Feature ranking:
1. feature person_year_total_income (0.712042)
2. feature year_total_income (0.107312)
3. feature member_count (0.041349)
4. feature subsidy_total (0.026403)
5. feature reason (0.020928)
6. feature arable_land (0.017534)
7. feature living_space (0.016653)
8. feature wood_land (0.010882)
9. feature help_plan (0.009243)
10. feature washing_machine (0.006374)
11. feature fridge (0.005236)
12. feature is_danger_house (0.005180)
13. feature tv (0.005083)
14. feature is_debt (0.005042)
15. feature bank_number (0.003775)
16. feature xin_nong_he_total (0.002452)
17. feature call_number (0.002253)
18. feature debt_total (0.001464)
19. feature xin_yang_lao_total (0.000796)
20. feature bank_name (0.000000)
21. feature standard (0.000000)
22. feature is_back_poor (0.000000)

判断脱贫主要就是看 person_year_total_income (人均年收入), 大于 2800 元的就超过国家贫困线了, 因此我去掉这 2 个因子 person_year_total_income 、 year_total_income ,跑完后,预测成功率是: 81.34%, feature importance 排名如下:


Feature ranking:
1. feature subsidy_total (0.198893)
2. feature arable_land (0.176897)
3. feature living_space (0.146558)
4. feature reason (0.129572)
5. feature member_count (0.113734)
6. feature wood_land (0.082290)
7. feature help_plan (0.024511)
8. feature washing_machine (0.020852)
9. feature tv (0.020510)
10. feature is_danger_house (0.019875)
11. feature is_debt (0.014723)
12. feature fridge (0.014228)
13. feature bank_number (0.012896)
14. feature xin_nong_he_total (0.010757)
15. feature call_number (0.007313)
16. feature debt_total (0.003950)
17. feature xin_yang_lao_total (0.002437)
18. feature bank_name (0.000005)
19. feature standard (0.000000)
20. feature is_back_poor (0.000000)

而我统计了下测试数据分布: 贫困 41289 已脱贫 7089 , 如果我全猜已脱贫的概率是 85.3%。

这是不是说明, 随机森林模型 不如 瞎猜?
2016-12-07 23:06:13 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@Xs0ul 只是统计了一下各个因子,单独作用下的效果,写在这个文档里了:[https://shimo.im/doc/IeBd3kPBK0MC1aQY]( https://shimo.im/doc/IeBd3kPBK0MC1aQY)

我第一次知道有 feature importance , 去查一下
2016-12-07 22:54:12 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
@marenight 对的,是 sql 。想要 csv ,可以留邮箱,我发给你
2016-12-07 22:12:22 +08:00
回复了 crayonyi 创建的主题 互联网 免费开放 33.5 万条 贫困户记录,用来做 机器学习
不知道为什么刚发布的时候,在首页看不到,回复一条试试
2016-11-22 14:30:58 +08:00
回复了 GrahamCloud 创建的主题 推广 这里是造数,正在写一个智能云爬虫给大家,快来玩耍
新 UI 不错
2016-11-21 10:51:33 +08:00
回复了 thekoc 创建的主题 Python 如何解决爬虫会生成很多小文件的问题呢?
以前我们的图片服务器也遇到一样的问题, inode 耗净,磁盘空间却还很多。

解决方法当然是用数据库或者使用分布式文件存储方案:

1 ) MogileFS 、 FastDFS 等分布式文件存储系统

2 ) OSS 、七牛、又拍云等云存储方案(每月每 G 才几毛钱)
1  2  3  4  5  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1815 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 00:26 · PVG 08:26 · LAX 17:26 · JFK 20:26
Developed with CodeLauncher
♥ Do have faith in what you're doing.