存储大量网页内容用什么数据库

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

已注册用户请登录

这是一个创建于 1908 天前的主题，其中的信息可能已经有所发展或是发生改变。

发觉之前的解决思路有问题，决定先爬取页面数据存入数据库，然后另外一个任务再一个页面一个页面分析内容提取数据。
存储字段包括地址来源网站，页面文字内容。目前用 mysql 加 redis 用来 url 去重

第 1 条附言 · 2019-02-03 16:02:49 +08:00

先按 1-3 楼的试试

9 条回复 • 2019-02-04 19:43:18 +08:00

GeekCourse

2019-02-03 14:56:08 +08:00 via Android

当然是直接存到硬盘里

jimages

2019-02-03 15:25:25 +08:00

存文件吧，mysql 做 index

yuikns

2019-02-03 15:32:35 +08:00 via iPad

大量文件存在一个目录下有时有效率问题。试试 leveldb ？

lynskylate

2019-02-03 16:05:06 +08:00 via Android

...落硬盘怎么横向扩展，数据落 mongo, redis 去重。

CSM

2019-02-03 16:42:28 +08:00 via Android

如果 URL 非常多并且能容忍重复的话，可以考虑布隆过滤器。

nicoljiang

2019-02-04 02:55:50 +08:00

Mysql 不就可以吗，百万千万都能存。。。

lengyihan

2019-02-04 11:59:42 +08:00 via Android

oracle 肯定够。

lynskylate

2019-02-04 18:14:35 +08:00 via Android

@CSM 布隆不会出现重复，而是有部分未爬过的 url 会认为爬过。

CSM

2019-02-04 19:43:18 +08:00 via Android

@lynskylate 噢噢你说的对，感谢感谢