首页   注册   登录
 dusu 最近的时间轴更新

dusu

V2EX 第 425066 号会员,加入于 2019-06-27 10:21:16 +08:00
今日活跃度排名 11427
dusu 最近回复了
有个东西叫索引表
17 天前
回复了 kkshell 创建的主题 问与答 PHP 的一个 curl 问题
json 别编码试试:json_encode($data,320)
17 天前
回复了 TangMonk 创建的主题 问与答 [怀旧] Pascal 有什么操作 DOM/Xpath 的库?
1. 关所有 log/binlog
2. batch insert
3. 多进 /线程
4. tmp 目录指 /dev/shm 目录
5. 上 ssd

插入速度取决于你的硬盘读写速度。
4e 问题不大
17 天前
回复了 yitd 创建的主题 问与答 手里有完美反扒方案如何变现?
给个地址 让 v 友爬到你怀疑人生
26 天前
回复了 xiatong 创建的主题 Java 根据电影某一帧,匹配到某个电影。
电影检索核心其实还是降维的问题。

电影先降维到每一秒为截图,剔除掉相似度大的截图,存大盘鸡或 oss,然后转 simhash 之类的存检索库,求相似度应该能粗略解决一些需求。

假如一本电影 2 小时,截图 7200 张,滤重后假设 5000 张?算检索 100w 部电影最终也就降维到 50 亿张图片的 simhash 检索而已。

当然,图片特征识别应该是在检索降维中比较重要的一些细节等等,个人小团队要想做好这个引擎,应该有很长的路要走。
@AaronLiu00

🙏以及感谢各位,虽然和我想的差一点

不过已经按思路手撸了一个前后端版本,准备小范围实践下

之前已经有前人开源过图片生成

https://github.com/jklmnn/imagejs/

按说明处理过后,发现 chrome 安全检查已经屏蔽非 javascript header 执行 js 了,so 只能放弃…

P.S. 图片加 php / asp 代码早已经是皆知的事情了哈,那个不存在绕过文件头的问题,和我这个还不太一样

P.S. 图片压缩部分,我确认了一下,浏览器上 png 压缩率不是很高,一般图床也不会对 png 做特别处理,只要 png 数据不是特别多的情况下,效果应该还能接受,不过也要全面测试
@locoz 如果是存三方图床上的话,那还会有跨域问题...
楼主只考虑了正常请求,当你被 baiduspider/googlebot/bytesipder 等爬哭又不能禁的时候你就知道有多痛苦了,所以,这种讨论在我看来意义不大,该用带宽的时候你想省都省不了。(俺的站每天 2 亿请求)
同自己写,这玩意得自己分布式,记住单机检测是肯定不可信的,分发任务和执行任务环节都会可能出问题,多核机用 swoole 走多进程协程检测,检测几 w 个毫无压力,慢慢写,过程很 easy 的
关于   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   979 人在线   最高记录 5043   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.3 · 13ms · UTC 21:40 · PVG 05:40 · LAX 13:40 · JFK 16:40
♥ Do have faith in what you're doing.