1.Use SSL/https to ensure safety;
2.Forbid popular spiders like Google 、 Baidu;
3.Forbid any illegal refer;
4.Forbid any illegal robot;
5.Limit frequency of the same IP at 10 times in 1 second;
6.Can only access this site by typing the domian or using bookmarks;
7.If pages show "403 Forbid",try to delete "cookies" in your browser;
101
luckykong 2016-01-01 22:31:45 +08:00
@arnofeng 好像有错误
··· echo "your google search domain is $DOMAIN2" echo "your google scholar domain is $DOMAIN1" echo -n "Enter any key to continue ... " ··· 这部分, domain2 和 domain1 ,是不是搞混了? |
104
sky170 2016-01-02 01:29:41 +08:00
感谢开源
|
107
GPU 2016-01-03 16:06:07 +08:00
|
108
GPU 2016-01-03 16:27:56 +08:00
|
109
arnofeng OP @GPU 更新数次啦,看下这个 issue https://github.com/arnofeng/ngx_google_deployment/issues/1
|
112
arnofeng OP |
115
arnofeng OP |
116
arnofeng OP |
120
arnofeng OP @GPU 那个方式也换了。直接更新 conf 脚本,
wget -N --no-check-certificate https://raw.githubusercontent.com/arnofeng/ngx_google_deployment/master/install.sh bash install.sh 选择 "update nginx.conf"。 |
126
GPU 2016-01-04 08:45:55 +08:00
@arnofeng 现在的问题是搜索之后跳到 https 了, 但是域名并没有改变。然而我没有开启 https
还有是如果直接打开 g.iu.vc/search 就会跳到 https://encrypted.google.com/webhp |
128
GPU 2016-01-04 09:12:03 +08:00
@arnofeng 我直接写成
goto("//x.iu.vc/scholar?hl=zh-CN&q="+encodeURIComponent(keyword2.value)+"&btnG=&lr=") 这样子应该可以直接支持 https 与 http |
130
GPU 2016-01-04 09:55:12 +08:00
@arnofeng 刚刚试了试 wenlu 的模块貌似配置你的也是可以 。 有人说 wenlu 的一定要 https 貌似也不是啊。
|
131
GPU 2016-01-04 09:56:47 +08:00
@arnofeng 还有一个问题是 ,直接访问 Google 的话打开的是白色界面没有顶部黑条 。但是反代的就有。不明为什么是这样子。
|
132
arnofeng OP |
133
arnofeng OP @GPU 1.直接开 google 是有黑色的,但是黑色上面是 Google+、图片等链接 2.反代没有,是因为根据我的配置,所有的 google.com 的资源都用反代域名替换了,顶部黑条原来使用 js 方式显示链接,我的反代配置会让它消失。
|
134
GPU 2016-01-04 10:16:12 +08:00
我直接打开国际版是没有的,用了 ncr 的。 |
137
arnofeng OP @GPU 已经修改为你想要的。因为直接通过的是隐私保护谷歌域名,所以不一样。现在走的正常的。
|
141
wkl17 2017-01-21 18:46:30 +08:00
看完描述 第一反应 就想到了应该是用了 refer 判断的方式。
不知道楼主是否有研究过 屏蔽 360 云盾之类的检测的想法? 我之前观察了一下,只要用 360 浏览器访问过, 接着就会看到至少 2 个 IP 的来访,而且 UserAgent 跟普通用户无异, 不像 spider 的 UserAgent 。所以无法通过判断 UserAgent 的方式屏蔽。 可有什么好的方法屏蔽它的抓取、检测? 我之前想到的方式是,默认访问时 弹出一个确认框,让用户手动点提交,然后生成 cookie 或 session ,接下来以它作为凭证。但还未去实践过。看到此帖,抛出来探讨一下。 |