针对用户 IP，返回随机 URL，并需要存储 URL 到数据库，这个随机 URL 数据可以每天清空一遍，用什么方案性能最好？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

这是一个创建于 2385 天前的主题，其中的信息可能已经有所发展或是发生改变。

RT，例如假设，每天有 50W IP 的访问，用户进入网站，会随机返回一个 302 的响应，然后跳转到一个随机的 URL。用户第二次进来，会查询数据库中是否存在该 IP，存在，则跳转到第一次访问的随机 URL。

也就是说，要做一个 IP 和随机 URL 的映射关系表，这个表数据量很大，假设是 50W，这些数据可以在一天后清除的。怎么做才能尽可能实现高性能，不影响网站用户体验？

目前想到 Redis，但是好像 Redis 每秒只能查询 20W 次？那要遍历 50W 次的话，好像挺久的……

非科班设计师出身，轻喷……

第 1 条附言 · 2017-10-12 21:04:20 +08:00

我原本以为 Redis 的 Hash 是遍历完成查询的，基础不行啊……

最终采用的方案是 Redis。就用 Redis 里简单的 HSET 和 HGET 就好了。过期时间的话，设置了一个定时任务每次自动清理数据。

url

随机

Redis

数据库

27 条回复 • 2017-10-12 21:30:03 +08:00

qiayue

2017-10-11 19:50:28 +08:00

“ Redis 每秒只能查询 20W 次”
这个结论哪里来的？

187j3x1

2017-10-11 19:53:46 +08:00

hash table 原理嘛？ 50 万 50 亿都是差不多速度的，吃内存而已

Loyalsoldier

2017-10-11 20:01:48 +08:00

@qiayue #1

http://www.runoob.com/redis/redis-intro.html

我还说高了…………之前看过一个文档写着，但是一时间找不到了

yankebupt

2017-10-11 20:13:28 +08:00

为什么要遍历?由于 ip 地址特性 int32(ipv4)可以加速不用遍历的。
一提到这个就想起最近的动态路由屏蔽表...估计规则数也比你那个不少...那个是真的大访问量...我一直在想那个是怎么跑起来的...有可能是特殊硬件吧?...
我看到第一个回复查询 20W 次，还以为 20W+访问量.....

yankebupt

2017-10-11 20:16:33 +08:00

总有股维和感，我总觉得楼主的意思是不是反过来，是不是想根据 url 记录如果没有随机返回一个 ip 并绑定。

Loyalsoldier

2017-10-11 20:20:49 +08:00

@yankebupt #5

不是，就是根据 IP，返回一个随机 URL 并存进数据库。当天的后续访问，就查询数据库，取出该随机 URL，跳转到该 URL

yankebupt

2017-10-11 20:34:40 +08:00

我觉得楼主如果之后回帖：
我发现一个好方法，把库分成两部分，一部分存国内 ip 和 url，一部分存国外 ip 和 url...根据访问热度和管理要求实现不同查询性能......实现 90%以上的满意度...
的话
我会后悔在这个主题回帖的.....

所以楼主，稍微详细一点说明你的实际使用情况?
还有为什么就选定 redis 了

yankebupt

2017-10-11 20:45:16 +08:00

不要误解我。我是说大多数情况下技术人员会根据热度，分不同的使用用户，高频用户给一个很小的高速查询库，响应极其迅速，查不到再查之外的逐步扩大。但是涉及你这种情况如果这样做实际上是违背网络公平性的，会加大非高频用户的延迟，加之我 redis 基本没碰过，所以完全不能给出有效建议，请见谅。

xmcp

2017-10-11 20:46:13 +08:00

二分查找是 O(logN) 级别的，50W 肯定没问题呀。楼主要是挨个遍历强行卡成 O(N) 肯定就 gg 了呀……

另外不知道你的需求是什么，如果你只需要“清空所有映射”，不需要“删除特定映射”的话，不妨直接弄个 hash 的算法，URL=hash(salt+IP)，想要清空的话换个 salt 就行了，查询 O(1)，岂不美哉？

Loyalsoldier

2017-10-11 20:53:24 +08:00

@yankebupt #7

用户从 a.com （入口域名）访问网站，后端拿到该用户的 IP 地址(假设是 1.1.1.1)，随机从可选的 URL 中返回一个给该用户，假设返回 b.com （目标域名），这时候 1.1.1.1 就对应 b.com 。在当天内，用户 1.1.1.1 再次从 a.com 访问进行访问，为了保证用户在当天内看到同样的页面内容，这时候需要给用户返回跟第一次访问时一样的 URL。查询数据库发现，1.1.1.1 对应 b.com ，这时候给用户 1.1.1.1 返回 b.com

但是当一天内访问的用户量足够大的时候，查询“目标域名”的操作就会很慢了吧，所以问，用什么技术方案来实现这个需求，用户能最快访问到目标 URL

Loyalsoldier

2017-10-11 20:54:54 +08:00

@xmcp #9

用户从 a.com （入口域名）访问网站，后端拿到该用户的 IP 地址(假设是 1.1.1.1)，随机从可选的 URL 中返回一个给该用户，假设返回 b.com （目标域名），这时候 1.1.1.1 就对应 b.com 。在当天内，用户 1.1.1.1 再次从 a.com 访问进行访问，为了保证用户在当天内看到同样的页面内容，这时候需要给用户返回跟第一次访问时一样的 URL。查询数据库发现，1.1.1.1 对应 b.com ，这时候给用户 1.1.1.1 返回 b.com

但是当一天内访问的用户量足够大的时候，查询“目标域名”的操作就会很慢了吧，所以问，用什么技术方案来实现这个需求，用户能最快访问到目标 URL

lianyue

2017-10-11 20:56:27 +08:00

这需要考虑这么多干嘛动态网页基本每次打开都会有查询正常以内

其实普通数据库什么的
id, ip date
就好了多一个字段超过 24 小时自动过期根本不需要什么删除

或者每天一个新表为什么非要操作删除旧的数据

表名比如
access_2017_10_11
access_2017_10_12
access_2017_10_13

结构
id, ip

实现方式很多

binux

2017-10-11 20:58:13 +08:00

随机选一个域名是 O(1) 的，查询一个 ip 对应的域名也是 O(1) 的，不管用户量有多大，就算 13 亿它也是一样的速度。

syhsyh9696

2017-10-11 20:59:32 +08:00

为何不是根据当前的时间和 ip 地址生成当天的 temp url ？

xmcp

2017-10-11 21:03:25 +08:00

@Loyalsoldier 这用什么数据库呀？直接用 IP 地址做种子生成随机数呀。伪(?)代码如下：

SALT='foo' # 改这个数来重置所有用户访问到的网址
WEBSITES=['b.com','c.com','d.com']

def get_url(ip):
___ r=random.Random()
___ r.seed(SALT+str(ip))
___ return r.choice(WEBSITES)

如果真要上数据库的话 redis 也不是不行，人家 redis 也有 hash 数据结构： http://www.runoob.com/redis/redis-hashes.html，O(logN) 肯定能满足正常网站的速度要求的。

yankebupt

2017-10-11 21:12:29 +08:00

@Loyalsoldier 但是 ip 可以 hash 的...
不懂 hash 会加速的道理也没关系，这么解释一下，假设你为 0.0.x.x-255.255.x.x 的 ip 建 65536 张表，则每张表最多也就是 65536 个记录(实际每个记录都会很少会更快，因为需要访问一次才有记录)。只查对应的表只需遍历很少的记录....

不过我愈发觉得楼主可能是在钓鱼...专门钓我们这种不懂 memcached/LRU 的...

yankebupt

2017-10-11 21:17:23 +08:00

@xmcp 也好，但我看到楼主说了每天数据可以清空，可能意味着楼主想在 SALT 里加入当前日期或者有自己的生成算法，咱们继续看看楼主怎么发展吧....

bydmm

2017-10-11 22:03:24 +08:00

楼主你逗我把，

ip 到一段字符串的映射关系根本不用遍历整个 redis 空间啊。他们之间是 hash 映射的关系。

你用 ip 作为 key，url 作为 value，再多 ip 都是一次好吗。。

dbw9580

2017-10-11 22:13:12 +08:00 via Android

for ip in seen_ips: if ip != remote_ip, continue; else return ip2urltable[ip]

op 的思考方式

gstqc

2017-10-11 22:30:46 +08:00 via iPhone

用 IP 做 key 查询不是 O(n)的，是 O(1)
50 万数据小得可怜，估计几百 M 内存搞定

nazor

2017-10-11 22:34:31 +08:00

每秒查询 20W 是指每秒遍历数据 20 次，不是说一秒只能遍历 20W 的一次……

hand515

2017-10-11 22:45:37 +08:00

这种情况 redis 单机就能处理得过来，才 50w
set ip domain NX EX 24*60*60

get ip
基本只要这两个命令就能解决你的问题

johnnie502

2017-10-12 06:58:27 +08:00

这不是一个存放在客户端的 24 小时过期 cookie 吗？除非有特殊的要求必须放在服务器端，不然放在客户端不就完事了

LeoSocks

2017-10-12 08:35:29 +08:00 via iPhone

那文章写的 11 万次每秒是并发吧！可以支持并发 11 万个用户同时读。而不是 11 万条记录

blaxmirror

2017-10-12 09:28:37 +08:00

直接用 IP+一个每天变化的 seed 做映射不就好了吗?为啥要存储下来呢？
你应该不需要通过 URL 反向查询 IP 的吧？
（并不了解技术细节，仅供参考）

Loyalsoldier

2017-10-12 21:07:45 +08:00

@xmcp #9
@binux #13
@yankebupt #16
@bydmm #18
@dbw9580 #19
@gstqc #20
@hand515 #22
@blaxmirror #25

我原本以为 Redis 的 Hash 是遍历完成查询的，基础不行啊……

最终采用的方案是 Redis。就用 Redis 里简单的 HSET 和 HGET 就好了。过期时间的话，设置了一个定时任务每次自动清理数据。

hand515

2017-10-12 21:30:03 +08:00

@Loyalsoldier #26 别用 hashtable，直接用 set 和 get 命令，配合 expire 设置自动过期，还剩了定时任务