• 请不要在回答技术问题时复制粘贴 AI 生成的内容
AlexaZhou
V2EX  ›  程序员

[开源] 带领 AI 团队开发了一个极轻量的 GT AI Gateway:支持协议转换、请求查看,还能大幅降低 Claude Code 等调用成本

  •  
  •   AlexaZhou ·
    alexazhou · 15h 5m ago · 1273 views

    大家好,最近带领 AI 团队,开发了一个轻量级大模型网关项目:GT AI Gateway

    我们在平时开发和使用大模型 API 时,经常会碰到下面这些痛点:

    1. 费用黑洞:把 API Key 填进各种工具(比如最近很火的 Claude Code )里跑,额度跑飞了都不知道,缓存命中率极低,成本居高不下。
    2. 协议壁垒:手里的工具支持 Anthropic 协议,但上游 api 只有 openai 格式。
    3. 黑盒调试:Prompt 发出去之后,很难知道底层到底拼接了什么历史消息和工具调用,出了 Bug 只能靠盲猜。
    4. 共享风控:想把自己的 Key 分给朋友或小号用,但又怕他们不小心额度超标,或者直接泄露。

    为了把这些问题一揽子解决,我写了 GT AI Gateway。它的定位是:轻量、全能、还能帮你省钱的透明代理

    🌟 核心杀手锏

    1. 智能请求拦截与缓存优化(帮你省钱) 这是个非常实用的特性。比如大家常用的 Claude Code,默认情况下它会注入很多随机标记,导致直接调用 OpenAI API 时**缓存命中率几乎为 0%**。 我们的网关在中间做了一层拦截与智能改写,能突破这种限制并最大化 Prompt Cache 。开启优化后,缓存命中率直接飙升到 97%,API 成本直降 10 倍以上!

    2. 强大的双向协议转换 内置协议引擎,支持 OpenAI (Chat Completions/Responses API) 🔄 Anthropic (Messages) 双向无缝转换。你可以在客户端一行代码不改的情况下,用 OpenAI 的标准格式去白嫖/调用 Claude 模型(完美支持 SSE 流式返回、工具调用和多模态识图)。

    3. 像 Wireshark 一样的流量分析面板 我们提供了一个自带管理后台的控制面板。所有经过网关的流量(包括普通的文本、复杂的 SSE 流)都会被记录下来。 打开可视化面板,你可以清晰地看到每一条请求的:完整 Prompt 、Token 消耗、缓存命中状态、耗时以及原始 JSON ,调试排障神器。

    4. 完善的额度与多租户管理 你可以基于你的主 Key ,无限生成子令牌( Token )分发给其他人。并且可以给每个 Token 单独设置配额、计费费率、可用模型和过期时间,彻底杜绝 Key 滥用。

    🚀 主打一个“部署零门槛”

    针对不同的使用习惯,我们把部署做到了极致的灵活:

    • Serverless 白嫖模式(推荐):支持一键部署到 Cloudflare Workers ,配合原生的 D1 数据库,完全零维护,免费享受全球边缘网络
    • 开箱即用桌面版( App ):我们用 Tauri 打包了 Mac / Windows 的桌面原生客户端。小白用户无需任何代码环境,双击安装,本地自带 SQLite ,点开即用。
    • Docker 部署:适合挂载在自己的 VPS/NAS 上长期运行。

    截图预览

    对底层工具调用与 Prompt 的可视化抓取分析: 请求排查

    开启改写后,缓存命中率飙升: 缓存优化

    🔗 传送门

    代码质量经过了 500+ 测试用例的严格覆盖,如果觉得对你有帮助,欢迎各位 V 友来提 PR 或者给个 Star 支持一下!🙏 有任何问题或者特性需求也欢迎在帖子里讨论~


    👨‍💻 关于开发团队

    本软件由人类进行架构设计,由 TogoSpace AI Team 主力开发。项目通过了 500+ 个自动化测试用例对核心功能进行全面覆盖,确保了极其硬核的代码质量。

    Togo Space 团队

    16 replies    2026-06-21 23:39:54 +08:00
    adfi1
        1
    adfi1  
       14h 17m ago   ❤️ 1
    看起来不错,我也写了一个这样的东西。看来大家都有需求。我是用 fastapi 写的
    SoraStar
        2
    SoraStar  
       14h 14m ago   ❤️ 1
    正在严肃试用,已 Star
    AlexaZhou
        3
    AlexaZhou  
    OP
       14h 6m ago
    @adfi1 是的,有这样的工具,用起来还是很方便的,也帮我看看这个还有什么需要改进的
    AlexaZhou
        4
    AlexaZhou  
    OP
       14h 5m ago
    @SoraStar 感谢试用,欢迎反馈意见呀
    dfourc
        5
    dfourc  
       13h 1m ago
    暗自推自己的多 agent 工具,不过标下来源好像也正常?
    ximaoyang
        6
    ximaoyang  
       12h 11m ago
    看着都累。
    - 每天都想说一句:除了 A 家的其他都是垃圾。你都用 cc 了为啥内核要用 o 家的。买椟还珠。一个便宜的模型,再便宜,给你来几个死循环,额度一下就满了。而且还浪费你的时间和注意力。就只用 cc ,用它默认的 sonnet 就够了。
    - 尽量多/new session ,保证上下文小一点,工作效率高的时候花钱还少。有的事情直接开 subagent 做或者开 -p 模式做。这些模式下的 agent 上下文是干净的,只加载需要的上下文。
    - 别总是 ai 写代码,ai 自己审核,ai 测试,中间啥都不管。你别让 ai 自己审核自己,浪费 token 。我常常说 ai 写的代码没有小问题只有大问题。你就时不时自己看下 ai 在写什么。然后夺命连环问,一个 pr 问它个 20 次,做到自己虽然不写,但是心里有数。有问题别自己改,写到 CLAUDE.md 里面防止它再犯

    你做到这些 token 使用率暴跌 90%,bug 率暴跌 90%,还不用整这啊那啊的工具框架,现在的工具框架自己都是 ai 几天写出来的垃圾项目,大家又不傻。
    AlexaZhou
        7
    AlexaZhou  
    OP
       12h 0m ago
    @dfourc 主要还是分享 GtAIGateway ,多 Agent 工具就是顺便提下😂,也让人知道有这么个东西,如果用不上忽略就好啦
    AlexaZhou
        8
    AlexaZhou  
    OP
       11h 51m ago   ❤️ 2
    @ximaoyang
    老兄,这么说就有点狭隘了

    1. “除了 A 家的其他都是垃圾”,我完全不同意这个,除了 A 家很多好模型,GLM 5.2 ,GPT5.5 ,DEEPSEEK V4 flash/pro ,都很好用,只是要有正确的使用方式才能发挥出来威力
    2. “尽量多/new session ,保证上下文小一点,工作效率高的时候花钱还少” 这个想法已经过时了,就是要大上下文,把足够的信息都塞进去,模型才聪明。特别是使用 deepseek 的时候,不断 new 完全浪费钱,效果还差
    3. “别总是 ai 写代码,ai 自己审核,ai 测试,中间啥都不管” 我也是不知道你这是说的谁,不懂


    “现在的工具框架自己都是 ai 几天写出来的垃圾项目,大家又不傻”
    批评之前还是先看看情况吧,这个项目从 25.2 月开始开发,累计提交超过 500 个 commit ,自用已经很完善了,才开放出来给大家
    zuokanyunqishi
        9
    zuokanyunqishi  
       8h 42m ago   ❤️ 1
    我试试你的到底,能省 token 不,和出的代码质量咋样.
    zh3256
        10
    zh3256  
       7h 54m ago via Android
    缓存率到 97 % 为何成本能降低 10 倍以上?
    我理解即使 100 %缓存,也只是 prompt token 一折,算上 completion token 也没十倍。
    iomect
        11
    iomect  
       7h 41m ago
    你说的这些 AxonHub 好像都能实现啊 我公司分发一直用的 CPA+AxonHub
    AlexaZhou
        12
    AlexaZhou  
    OP
       7h 29m ago
    @iomect

    感谢指出,不过功能还是差很多的,比如这几个功能,应该是属于 GtAIGateway 有而 AxonHub 没有:

    1. 可以用可视化对话的方式来查看请求
    2. 部署到免费的 serverless 平台上,如 cloudflare worker
    2. 开箱可用的提升缓存命中改写功能( AxonHub 或许能手动写规则通过改写来实现,但手动也很麻烦)
    AlexaZhou
        13
    AlexaZhou  
    OP
       7h 8m ago
    @iomect
    感谢指出,这个要看不同的模型,如果 gpt-5.5 来说,prompt token 确实是打一折。那么算下来应该是 9 点几倍;

    对 deepseek 模型来说,缓存价格是普通输入的 1%,那么就超过 10 倍了;

    所以之类用了 10 这样一个概数来表达大概的程度
    Kinnice
        14
    Kinnice  
       4h 9m ago via Android
    @AlexaZhou
    1 有
    2 可以部署到腾讯云 edgeone
    3 这个是不是就是把 cch 去掉了

    问一个 axonhub 没有的,gpt5.5 在 cc 里面调用工具会出现多次尝试的问题,你这个实现修复了没?
    AlexaZhou
        15
    AlexaZhou  
    OP
       3h 36m ago
    @Kinnice

    我测试过通过 GtAIGateway 的协议转换功能,让 cc 调用 gpt-5.5 模型,观察还挺正常的,你可以试试看,如果遇到问题跟我反馈,我来修复

    回复下上面的:
    1 “能” 我刚找到界面了,确实有这个功能。仔细比较了下,GtAIGateway 这块专门写的的渲染器,从美观和功能上做的更多一点

    2 “AxonHub 部署到腾讯云 edge”,应该是需要额外自己再准备数据库😂,严格来说算半个 serverless 吧。GtAIGateway 不需要自己准备数据库,可以省去这部分成本和运维的麻烦

    3 “这个是不是就是把 cch 去掉了”,cch 是很重要的一块,另外还有其他的如对 responses 协议的处理(粘性路由);后续还会不断扩展这部分逻辑,力求把缓存命中率提升上来


    还有个差别是 GtAIGateway 有构建好的 App 提供,直接本机运行比较方便

    以上内容无意引战,主要是解释下和其他工具不同的地方,方便大家理解
    Kinnice
        16
    Kinnice  
       3h 15m ago via Android
    @AlexaZhou 主要是没有看到 你的这个轮子的止痛点,可以从大家的痛点再研究研究,搞出点差异化。

    比如我自己的痛点是 模型 loadblance/自动重试/空回检测/真正的智能路由(比如我 hello/bash tool call ,后端期望可能是个 flash ,而我问了一个比较复杂的问题会切到 opus )成本探测/模型检验(是不是真 claude/gpt )/sub2api
    About   ·   Help   ·   Advertise   ·   Blog   ·   API   ·   FAQ   ·   Solana   ·   814 Online   Highest 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 50ms · UTC 18:55 · PVG 02:55 · LAX 11:55 · JFK 14:55
    ♥ Do have faith in what you're doing.