V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
• 请不要在回答技术问题时复制粘贴 AI 生成的内容
zero3412
V2EX  ›  程序员

公司网站被恶意 SEO

  •  
  •   zero3412 · 2023-07-08 11:36:46 +08:00 · 5409 次点击
    这是一个创建于 533 天前的主题,其中的信息可能已经有所发展或是发生改变。
    网站从页面到代码,都检查过,是没有乱七八糟(涉黄关键词)内容的。
    在百度使用 site:域名 查询结果中,有非常多的标题(涉黄),

    是标题哦,如 某某某那啥啥-MBA 智库-MBA 智库百科,大部分标题带 MBA 智库-MBA 智库百科
    对应的链接后缀会带一些随机参数,如
    http://域名/a/690304173_458722?8tv3C=.xml20230626gvFur
    http://域名/?Z1JFV=.txt20230625A0NFK
    点击链接后,要么是 404 ,要么是正常内容的网页

    不知道这是怎么实现的,有什么解决办法不。
    第 1 条附言  ·  2023-07-08 14:59:56 +08:00
    在搜索引擎使用 site:域名

    除了百度发布有这问题之外
    Google 、Bing ,都没有这些乱七八糟的收录
    41 条回复    2023-09-11 11:51:52 +08:00
    hicdn
        1
    hicdn  
       2023-07-08 11:43:41 +08:00 via Android
    把域名发出来才能看
    dfkjgklfdjg
        2
    dfkjgklfdjg  
       2023-07-08 11:49:45 +08:00
    我记得之前 v 友反馈有,有恶意利用站点检索功能做这个的,有一个帖子你可以看看。

    [Wordpress 的搜索功能可能会被碰瓷]( https://blog.03k.org/post/wordpress-bad.html)
    dfkjgklfdjg
        3
    dfkjgklfdjg  
       2023-07-08 11:51:39 +08:00
    @dfkjgklfdjg #2 这个好像是当时的帖子 👉 [各位前端注意浏览器地址栏也是一个输入框]( https://v2ex.com/t/943427)
    vishun
        4
    vishun  
       2023-07-08 12:04:15 +08:00   ❤️ 3
    楼上的说的很清楚了,解决方法就是将不存在的页面全部返回 404 ,而不是返回一个 200 然后在页面上提示检索的内容不存在。
    flyqie
        5
    flyqie  
       2023-07-08 12:20:36 +08:00 via Android
    搜索引擎无法通过你页面的内容进行检测,只能通过 http status code 。
    shortawn
        6
    shortawn  
       2023-07-08 12:32:35 +08:00
    User-agent: *
    Disallow: /*?
    ccc008
        7
    ccc008  
       2023-07-08 12:37:33 +08:00
    看症状像是被入侵,挂上了黑页
    googlefans
        8
    googlefans  
       2023-07-08 12:46:26 +08:00
    从百度去提交反馈啊
    s5s5
        9
    s5s5  
       2023-07-08 12:54:54 +08:00 via Android   ❤️ 2
    6 楼说的对,在 robots.txt 文件中,您可以使用 Disallow 指令来禁止搜索引擎抓取您不希望被收录的 URL 。Disallow 指令后面的参数应该是您想要屏蔽的 URL 相对于网站根目录的路径。以下是一些示例:

    1. 屏蔽单个页面:

    ```
    User-agent: *
    Disallow: /example-page.html
    ```

    2. 屏蔽整个目录:

    ```
    User-agent: *
    Disallow: /example-directory/
    ```

    3. 屏蔽所有以特定字符串开头的 URL:

    ```
    User-agent: *
    Disallow: /example-*
    ```
    flexbug
        10
    flexbug  
       2023-07-08 12:56:40 +08:00 via iPhone
    被黑了可能,我以前公司网站就被黑了,你直接首页打开正常,点其他页面就不正常了,看百度 cache 里面就是大黄
    hanssx
        11
    hanssx  
       2023-07-08 13:35:04 +08:00 via iPhone
    这个标题明显是黑了引流菠菜的,建议排查服务器页面,黑页黑 js 链接黑 js 代码可以通过 web 调试弄出来的,也有一点可能是服务器上面做了手脚,容器引入的 dll 或者 so ,这个得需要先确定问题位置,多半是网站被黑在页面被改。
    jumpsky
        12
    jumpsky  
       2023-07-08 13:35:17 +08:00
    挂马了
    HL8
        13
    HL8  
       2023-07-08 13:36:11 +08:00 via Android
    我的站被刷点击,baidu 排名一下全掉。
    xylophone21
        14
    xylophone21  
       2023-07-08 13:55:22 +08:00
    @dfkjgklfdjg
    感觉还是不太一样.
    这个帖子里描述的是他的页面显示了 url 中的参数,导致搜索引擎认为这个页面确实有相关的内容. 但这里 URL 的"Z1JFV=.txt20230625A0NFK"这些内容明显不涉及关键词.
    dfkjgklfdjg
        15
    dfkjgklfdjg  
       2023-07-08 14:00:37 +08:00
    @xylophone21 #14 ,只是看到这个帖子的瞬间就想到了之前看到的那个问题。
    出现在 `/a/` 目录下的很有可能是服务端生成的缓存页面。所以有可能是因为漏洞被挂马了。
    simonsww
        16
    simonsww  
       2023-07-08 14:20:00 +08:00   ❤️ 3
    这个问题需要尽快整理受影响的 URL ,统一返回 404 ,并通过站长平台给搜索引擎作死链反馈,将影响降到最低。
    zero3412
        17
    zero3412  
    OP
       2023-07-08 14:39:19 +08:00
    @hicdn 其实我不太想贴的 :) strapack.com.cn
    zero3412
        18
    zero3412  
    OP
       2023-07-08 14:40:22 +08:00
    @dfkjgklfdjg 站点也确实有检索,但使用的是 POST 请求,并且不支持分页
    zero3412
        19
    zero3412  
    OP
       2023-07-08 14:43:17 +08:00
    @dfkjgklfdjg 感觉就是这么回事,是不是公司友商在搞事情哦,像这公司只是机械行业的一个小企业而已,难道是中日合资引起的?
    zero3412
        20
    zero3412  
    OP
       2023-07-08 14:45:16 +08:00
    @dfkjgklfdjg 使用的是 Codeigniter4 开发,在 public 及 Controllers 目录中,都不存在 a 目录或 a 控制器
    dfkjgklfdjg
        21
    dfkjgklfdjg  
       2023-07-08 14:50:49 +08:00   ❤️ 1
    @zero3412 #19 ,干黑产的没事就扫的,服务器防护做好就行了。基本上不会出现友商来搞你的情况。
    早些年还在做企业官网的时候,隔三岔五遇到挂马的事情。都是一些黄赌相关的黑链。特别是 php 做的官网,基本都是找个 CMS 系统改个皮肤就卖出去了,所以遇到的特别多。
    处理完之后还得注意有没有留后门,不然会一直反反复复。
    tianxiaqu123
        22
    tianxiaqu123  
       2023-07-08 15:33:03 +08:00
    tianxiaqu123
        23
    tianxiaqu123  
       2023-07-08 15:33:57 +08:00
    @tianxiaqu123 手滑了 这楼分析的不错 基本就是这么个情况
    kingjpa
        24
    kingjpa  
       2023-07-08 16:03:10 +08:00
    明显就是 已中招。
    就是给网页里加了 js ,js 混淆了黑产关键词,肉眼看起来是代码,网页解析出来就是汉语,如果是静态页面会全站都这样, 动态渲染只有首页会这样,但是其他页面打开都是显示首页
    resu
        25
    resu  
       2023-07-08 17:02:52 +08:00
    URL 重定向漏洞,是指把一个 URL 重定向到另一个 URL 上。即把目录或文件的访问请求转发到另外的一个目录或者文件,当用户发出相关访问请求时,系统将自动跳转到指定位置。如果攻击者能控制跳转的对象,则会用于钓鱼、挂马等。
    例如:域名/%5C%5Cexample.com/%252e%252e%252f
    tutudou
        26
    tutudou  
       2023-07-08 17:08:13 +08:00
    感觉像是搜索留痕,具体原理就是别人在你的系统搜索内容,你的系统会把搜索后的页面链接保存,所以,在浏览器上搜索你的域名会出现这种情况。
    resu
        27
    resu  
       2023-07-08 17:09:48 +08:00
    貌似还是交过百度保护费的……
    tomac4t
        28
    tomac4t  
       2023-07-08 19:06:56 +08:00
    根据楼主的信息找到了楼主说提到的网站,看了以下是专门针对 百度蜘蛛 UA 返回特定 SEO 内容,可以认为是被黑了。

    可以测试,考虑楼主可能不愿意公开网站,我把域名打码了:
    curl -A "Mozilla/5.0 (compatible; Baiduspider/2.0)" http://[redacted]/?Z1JFV=.txt20230625A0NFK
    tomac4t
        29
    tomac4t  
       2023-07-08 19:14:32 +08:00
    才发现已经贴了域名,和我以为的网站不一样,虽然完全现象满足(标题 MBA ,只对百度有黑 SEO )。已经无法在 OP 网站复现了,是修好了?
    googlefans
        30
    googlefans  
       2023-07-08 19:29:38 +08:00
    @s5s5 不是所有搜索引擎都遵守规则的... 这是个君子协议
    voof
        31
    voof  
       2023-07-08 19:57:57 +08:00
    一般就是在页面加个 js ,针对搜索引擎来路,加载黑客自己的页面内容(页面里就可以干很多事情了)。非搜索来路的,加载正常的页面。
    zero3412
        32
    zero3412  
    OP
       2023-07-08 22:15:34 +08:00
    @tomac4t 并没有进行任何修复,感觉在没搞明白前,不会去动它
    dnsaq
        33
    dnsaq  
       2023-07-09 11:23:22 +08:00 via iPhone
    很明显你的站点被黑了。不要这么反智质疑百度的收录,不可能凭空出现的。
    EchoYZD
        34
    EchoYZD  
       2023-07-09 20:37:04 +08:00
    被黑了
    hicdn
        35
    hicdn  
       2023-07-10 10:49:45 +08:00
    @zero3412 从别的网站的相似内容来看,和 @tomac4t 的现象一样,User-Agent 是 baiduspider 时会返回垃圾内容。

    这个现象网站已经被黑了,服务端代码被改了。

    建议重装系统,自己很难查杀干净。
    zero3412
        36
    zero3412  
    OP
       2023-07-10 11:03:16 +08:00
    @hicdn 我使用了
    curl -A "Mozilla/5.0 (compatible; Baiduspider/2.0)" 网址/?Z1JFV=.txt20230625A0NFK
    curl -A "Mozilla/5.0 (compatible; Baiduspider/2.0; +http://www.baidu.com/search/spider.html)" 网址/?Z1JFV=.txt20230625A0NFK
    查看返回的结果,肉眼看,都是正常的内容。
    我查看过服务器的网站文件,都是 18 年的,未被改动过。
    这问题,通过百度统计查看到是今年 7 月 5 日开始爆发出来的。
    那是网站代码问题或说服务器问题?
    服务器是租用万网虚拟主机。
    hicdn
        37
    hicdn  
       2023-07-10 13:50:21 +08:00
    @zero3412 6 月份就有,百度最早在 6.23 就收录了。

    检查下 nginx 的配置,修改 nginx 配置也能做到不同 User-Agent 返回不同内容。
    zero3412
        38
    zero3412  
    OP
       2023-07-11 11:58:29 +08:00
    @hicdn 感谢,确实在 6 月就有记录,爆发是从 7 月初开始的,因为是虚拟主机,估计也没太好办法解决了。
    yunfangyu7
        39
    yunfangyu7  
       2023-07-12 10:42:04 +08:00
    @zero3412 可以考虑上防护 需要联系我
    soeasy123
        40
    soeasy123  
       2023-09-11 00:36:38 +08:00
    @zero3412 op 最后解决问题了吗,我公司的网站也遇到和 op 一样的问题了。。。找了几天都找不到原因
    zero3412
        41
    zero3412  
    OP
       2023-09-11 11:51:52 +08:00
    @soeasy123 没有,中间关闭网站几天,查看百度结果数量减少,但现在网站恢复,
    即使 robots 设置 User-agent: Baiduspider
    Disallow: /
    也没效果
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   874 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 20:46 · PVG 04:46 · LAX 12:46 · JFK 15:46
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.