续前,下载的问题解决了。
这些视频会被播放软件索引,比如 plex。
那么如何存储这些呢,主要属于中小文件。
是一个文件夹放所有的视频,还是按照比如前缀分别放?
以机械硬盘存储,一个文件夹不超过多少文件性能速度合适?
1
kslr 2018-05-23 20:56:46 +08:00
我在 ext4 存了大概 14T 100M+的视频文件,目录在 1 ~ 2 级。
|
2
cnyang 2018-05-23 21:32:26 +08:00
91 视频吧,按前缀数字化存储,共 27 个文件夹,每个文件夹 4000 左右
|
3
yangguoshuai OP @cnyang 所以大神都下完了?
|
6
cnyang 2018-05-24 15:31:30 +08:00
|
7
yangguoshuai OP @cnyang 其实脚本不重要。。
重要的是换 ip 获取视频地址。。 and,还有两个技术问题: 1 所有 php 的 dom 库解析他们的网页都会爆内存无解,我只能匹配字符串。。 2 家里的宽带太渣了,下载请求总被重定向到缓存地址导致下载失败。。。 3 才发现 vps 的一个月 500G 带宽好像纸一样。。。 |
8
cnyang 2018-05-26 19:15:49 +08:00 1
@yangguoshuai
ip 问题有很多解决方案,github 用的伪造请求 ip(X-Forwarded-For)一直有效,另破解 vip 方案更佳(网上有多搜搜) 内存问题可以请求一页就入库,然后下载当前页,然后再请求下一页并排重,当然可能会漏掉但不多,有时间可以研究下 url 规则,有规律的 |
9
yangguoshuai OP @cnyang 感谢解答问题。。
第一个 xff 我确实是没想到,也没看别人的源码……只是看 1<<10 有一个帖子分享的一个源代码是走的一个接口提供的原始地址。。 破解 vip 的我再找找…… 内存问题不是一页多页的,是就是一个页面(/v.php)解析 dom 的时候就会崩。。。我是用直接截取字符串来搞定的,稳定性还不错,对于后端程序员懒得写选择器来说也不麻烦 url 规则…… viewviedo 那个页面的 viewkey 我确实是没看出来啥规律,好像就是一个 hash 下载 mp4 的地址是不同的 cdn+文件 id+两个校验参数, 一个是 st 看起来好像是 base64 的 token,一个是时间戳,这些还没看出来啥规律。。 最后,下载加速我用的 vultr 的 vps,开$$γ,2.5USD 一个月的机器有 500G 的流量,实际上按小时收费跑完 500G 的流量能下 300G 左右( with BBR ),花费不到 0.2usd,还是超值的,流量用光了直接释放,用镜像还原一两个小时搞定一台新机器。 最后。。再问个比较杂的问题: /etc/sysconfig/network-scripts/ifcfg-eth0 ``` DEVICE=eth0 ONBOOT=yes BOOTPROTO=static IPADDR=1.1.1.1 NETMASK=255.255.255.0 GATEWAY=1.1.1.1 DNS1=108.61.10.10 ``` 这个配置改成 dhcp 配置咋弄。。直接把 BOOTPROTO 改成 dhcp 后面的都清掉就可以么……(懒得查文档啦 2333 感谢 v2 社区各位大神 |
10
cnyang 2018-05-26 21:58:14 +08:00 1
@yangguoshuai
1.不说太透,慢慢研究吧,哪天被封都没得看了 2.善用搜索,static 改为 dhcp,下面的删除 http://linux.vbird.org/linux_server/redhat6.1/linux_21internet.php |
11
yangguoshuai OP @cnyang 感谢,从 whether 到 howto 是艰辛的,但是知道了 existing 到知道 howto 就简单太多了😄
|
12
yangguoshuai OP @cnyang 在 gayhub 上撸了一天外加各种搜还是没啥头绪哇,你说的 xff 我倒是看到有人用了。。。
现在正在以 10G/小时的龟速收集中。。。 发现 BBR 至少 1.5 倍带宽消耗哇。。。。 还望点解。。。 eWdzQGNnY2FsLmNvbQ== |
13
cnyang 2018-05-28 06:50:08 +08:00 1
1.水深不语
2.服务器下好再打包拖回来 |