V2EX = way to explore
V2EX 是一个关于分享和探索的地方
Sign Up Now
For Existing Member  Sign In
爱意满满的作品展示区。
cjtree04

做了个中转站检测工具,测了我自己建的站,有 1 项 未通过

  •  
  •   cjtree04 · 13h 19m ago · 529 views

    团队做了个工具叫 Probe ,用来检测 AI API 中转站到底有没有按你买的模型给你跑。 昨天拿一个我自己搭建的站测了下——thinkai.tv ,9 大类检测里 8 项 PASS ,Identity & Routing 这一项是 FAIL 。

    做这个工具的起因是这样:现在国内用 AI API ,因为访问、价格、额度、支付方式,大 部分人都在用中转站。中转站确实解决了"能不能用"的问题,但有个更隐蔽的问题。你不 知道这个接口是不是把你的请求原样转发给上游模型,还是中间动了手脚。

    中转站理论上能看到明文请求和响应,包括 system prompt 、用户输入、API key 、tool call 参数、文件内容。它也不一定只是"转发",可能在中间偷偷做这些事:

    • 用便宜模型冒充高价模型
    • 截断长上下文但仍按正常方式收费
    • 伪造流式输出或 usage 字段
    • 改写 tool call 参数:安装命令、URL 、钱包地址、云凭据

    实测 thinkai.tv ,9 大类里 8 项 PASS ,Identity & Routing FAIL 。

    回到 thinkai.tv 这次的实测。我测的是 claude-opus-4-6 。Match rate 48/49——说明它确实连到了真的 Claude Opus 4.6 ,不是套壳模型。提示词、护栏、工具 调用、计费这些都没被改坏,这是它的基本盘。

    FAIL 的是 Identity & Routing:请求经过了 2 个代理家族( OneAPI + Via )的串联,不是直连 Anthropic 。意味着我的 system prompt 和 tool call 在中间多停了两站,延迟和隐私边界都涨了。 其他数据:Avg TTFT 1.839s ,吞吐量 16.82 tok/s ,输入 153505 token 、输出 6704 token 。一次完整检测 3-5 分钟,烧了大概 0.5 美元 API 费。


    以前判断一个中转站可不可信,常见做法是:

    • 看响应速度
    • 看价格 / 额度
    • 看群里口碑、博客推荐
    • 试用几次能用就接着用

    但这些方法都不能验证一件事:你的请求到底有没有原样转发给上游模型。

    之前在 X 上爆火过一篇论文 Your Agent Is Mine: Measuring Malicious Intermediary Attacks on the LLM Supply Chain ( arXiv:2604.08407v1 ),研究者测了 28 个付费路由和 400 个免费路由,发现 1 个付费路由和 8 个免费路由有主动注入恶意代码的行为。还有路由会触碰研究者埋的 AWS 凭据,甚至有 ETH 私钥被转走的真实案例。

    光看响应速度和价格是测不出来的。


    正确的方法是直接对接口做行为级检测:发不同特征的探针,看返回是不是真从你买的那 个模型来的。Probe 跑的是这 9 大类:

    1. 模型身份:底层模型是否和标称一致,有没有偷换或降级
    2. 提示词完整性:system prompt / 护栏 / 隐藏人格有没有被剥离或覆盖
    3. 协议规范:JSON 输出 / stop sequence / 采样参数 / logprobs 是不是真实透传
    4. 工具调用:tool_calls 结构 / 强制工具选择 / 并行调用有没有被改写
    5. 上下文窗口:长上下文有没有被截断、压缩或丢失
    6. 缓存与流式:是不是伪流式 / 缓存重放 / 异步任务接口是否真实
    7. 计费:usage / prompt cache / reasoning token / completion token 可不可信
    8. 安全:会话隔离 / 金融参数 / 隐藏追踪载荷 / 凭据泄漏
    9. 性能:TTFT / 延迟 / 吞吐量 / token 统计

    每一类背后都是一组探针,加起来一次完整检测大约跑几十个 API 调用。


    最后说一下我做这个的态度。

    Probe 不是反中转站。靠谱的中转站对加盟商生态来说是必须的,但需要被验证。中转站市场需 要从"感觉它能用"变成"能验证它在做什么"。靠谱的中转站不会怕被检测——thinkai.tv 这次 8 项 PASS 就是证明,FAIL 是路由层堆叠的问题,不是模型造假。

    我下一步会把更多站点的实测结果跑出来发上来,把这件事透明化。


    对 V 友有什么用:

    • 你正在用某个中转站,想知道它真不真:拿临时 API Key 跑一次 Probe (建议测完立刻删 Key )
    • 你自己跑中转站,想拿这个工具自查:直接接,9 大类覆盖的就是中转层最容易出问题的位置
    • 一次完整检测约 3-5 分钟,烧 0.5 美元左右(用 Opus 这类模型测;测便宜模型成本更低)

    链接: https://probe-dev.commonstack.ai 论文:arXiv:2604.08407v1

    也欢迎 V 友反馈:你测过哪些站、最关心哪类检测、希望加什么探针。我会按反馈持续加。

    2 replies    2026-05-10 15:22:11 +08:00
    tianyewang590
        1
    tianyewang590  
       11h 52m ago
    有些网站会随机更换模型,也会检测出来吗
    firefox12
        2
    firefox12  
       11h 45m ago
    中转站怎么搭?用那个开源 app 搭?
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   963 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 19:07 · PVG 03:07 · LAX 12:07 · JFK 15:07
    ♥ Do have faith in what you're doing.