[开源] 带领 AI 团队开发了一个极轻量的 GT AI Gateway：支持协议转换、请求查看，还能大幅降低 Claude Code 等调用成本

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

大家好，最近带领 AI 团队，开发了一个轻量级大模型网关项目：GT AI Gateway

我们在平时开发和使用大模型 API 时，经常会碰到下面这些痛点：

费用黑洞：把 API Key 填进各种工具（比如最近很火的 Claude Code ）里跑，额度跑飞了都不知道，缓存命中率极低，成本居高不下。
协议壁垒：手里的工具支持 Anthropic 协议，但上游 api 只有 openai 格式。
黑盒调试：Prompt 发出去之后，很难知道底层到底拼接了什么历史消息和工具调用，出了 Bug 只能靠盲猜。
共享风控：想把自己的 Key 分给朋友或小号用，但又怕他们不小心额度超标，或者直接泄露。

为了把这些问题一揽子解决，我写了 GT AI Gateway。它的定位是：轻量、全能、还能帮你省钱的透明代理。

🌟 核心杀手锏

1. 智能请求拦截与缓存优化（帮你省钱） 这是个非常实用的特性。比如大家常用的 Claude Code，默认情况下它会注入很多随机标记，导致直接调用 OpenAI API 时**缓存命中率几乎为 0%**。我们的网关在中间做了一层拦截与智能改写，能突破这种限制并最大化 Prompt Cache 。开启优化后，缓存命中率直接飙升到 97%，API 成本直降 10 倍以上！

2. 强大的双向协议转换 内置协议引擎，支持 OpenAI (Chat Completions/Responses API) 🔄 Anthropic (Messages) 双向无缝转换。你可以在客户端一行代码不改的情况下，用 OpenAI 的标准格式去白嫖/调用 Claude 模型（完美支持 SSE 流式返回、工具调用和多模态识图）。

3. 像 Wireshark 一样的流量分析面板 我们提供了一个自带管理后台的控制面板。所有经过网关的流量（包括普通的文本、复杂的 SSE 流）都会被记录下来。打开可视化面板，你可以清晰地看到每一条请求的：完整 Prompt 、Token 消耗、缓存命中状态、耗时以及原始 JSON ，调试排障神器。

4. 完善的额度与多租户管理 你可以基于你的主 Key ，无限生成子令牌（ Token ）分发给其他人。并且可以给每个 Token 单独设置配额、计费费率、可用模型和过期时间，彻底杜绝 Key 滥用。

🚀 主打一个“部署零门槛”

针对不同的使用习惯，我们把部署做到了极致的灵活：

Serverless 白嫖模式（推荐）：支持一键部署到 Cloudflare Workers ，配合原生的 D1 数据库，完全零维护，免费享受全球边缘网络。
开箱即用桌面版（ App ）：我们用 Tauri 打包了 Mac / Windows 的桌面原生客户端。小白用户无需任何代码环境，双击安装，本地自带 SQLite ，点开即用。
Docker 部署：适合挂载在自己的 VPS/NAS 上长期运行。

截图预览

对底层工具调用与 Prompt 的可视化抓取分析： 请求排查

开启改写后，缓存命中率飙升： 缓存优化

🔗 传送门

GitHub 开源地址：https://github.com/alexazhou/gt_ai_gateway
如果不想折腾代码，可以直接在 GitHub Releases 下载对应系统的桌面版安装包试玩。

代码质量经过了 500+ 测试用例的严格覆盖，如果觉得对你有帮助，欢迎各位 V 友来提 PR 或者给个 Star 支持一下！🙏 有任何问题或者特性需求也欢迎在帖子里讨论~

👨‍💻 关于开发团队

本软件由人类进行架构设计，由 TogoSpace AI Team 主力开发。项目通过了 500+ 个自动化测试用例对核心功能进行全面覆盖，确保了极其硬核的代码质量。

Togo Space 团队

网关

协议

成本

16 replies • 2026-06-21 23:39:54 +08:00

adfi1

14h 17m ago

看起来不错，我也写了一个这样的东西。看来大家都有需求。我是用 fastapi 写的

SoraStar

14h 14m ago

正在严肃试用，已 Star

AlexaZhou

14h 6m ago

@adfi1 是的，有这样的工具，用起来还是很方便的，也帮我看看这个还有什么需要改进的

AlexaZhou

14h 5m ago

@SoraStar 感谢试用，欢迎反馈意见呀

dfourc

13h 1m ago

暗自推自己的多 agent 工具，不过标下来源好像也正常？

ximaoyang

12h 11m ago

看着都累。
- 每天都想说一句：除了 A 家的其他都是垃圾。你都用 cc 了为啥内核要用 o 家的。买椟还珠。一个便宜的模型，再便宜，给你来几个死循环，额度一下就满了。而且还浪费你的时间和注意力。就只用 cc ，用它默认的 sonnet 就够了。
- 尽量多/new session ，保证上下文小一点，工作效率高的时候花钱还少。有的事情直接开 subagent 做或者开 -p 模式做。这些模式下的 agent 上下文是干净的，只加载需要的上下文。
- 别总是 ai 写代码，ai 自己审核，ai 测试，中间啥都不管。你别让 ai 自己审核自己，浪费 token 。我常常说 ai 写的代码没有小问题只有大问题。你就时不时自己看下 ai 在写什么。然后夺命连环问，一个 pr 问它个 20 次，做到自己虽然不写，但是心里有数。有问题别自己改，写到 CLAUDE.md 里面防止它再犯

你做到这些 token 使用率暴跌 90%，bug 率暴跌 90%，还不用整这啊那啊的工具框架，现在的工具框架自己都是 ai 几天写出来的垃圾项目，大家又不傻。

AlexaZhou

12h 0m ago

@dfourc 主要还是分享 GtAIGateway ，多 Agent 工具就是顺便提下😂，也让人知道有这么个东西，如果用不上忽略就好啦

AlexaZhou

11h 51m ago

@ximaoyang
老兄，这么说就有点狭隘了

1. “除了 A 家的其他都是垃圾”，我完全不同意这个，除了 A 家很多好模型，GLM 5.2 ，GPT5.5 ，DEEPSEEK V4 flash/pro ，都很好用，只是要有正确的使用方式才能发挥出来威力
2. “尽量多/new session ，保证上下文小一点，工作效率高的时候花钱还少” 这个想法已经过时了，就是要大上下文，把足够的信息都塞进去，模型才聪明。特别是使用 deepseek 的时候，不断 new 完全浪费钱，效果还差
3. “别总是 ai 写代码，ai 自己审核，ai 测试，中间啥都不管” 我也是不知道你这是说的谁，不懂

“现在的工具框架自己都是 ai 几天写出来的垃圾项目，大家又不傻”
批评之前还是先看看情况吧，这个项目从 25.2 月开始开发，累计提交超过 500 个 commit ，自用已经很完善了，才开放出来给大家

zuokanyunqishi

8h 42m ago

我试试你的到底,能省 token 不,和出的代码质量咋样.

zh3256

7h 54m ago via Android

缓存率到 97 ％为何成本能降低 10 倍以上？
我理解即使 100 ％缓存，也只是 prompt token 一折，算上 completion token 也没十倍。

iomect

7h 41m ago

你说的这些 AxonHub 好像都能实现啊我公司分发一直用的 CPA+AxonHub

AlexaZhou

7h 29m ago

@iomect

感谢指出，不过功能还是差很多的，比如这几个功能，应该是属于 GtAIGateway 有而 AxonHub 没有：

1. 可以用可视化对话的方式来查看请求
2. 部署到免费的 serverless 平台上，如 cloudflare worker
2. 开箱可用的提升缓存命中改写功能（ AxonHub 或许能手动写规则通过改写来实现，但手动也很麻烦）

AlexaZhou

7h 8m ago

@iomect
感谢指出，这个要看不同的模型，如果 gpt-5.5 来说，prompt token 确实是打一折。那么算下来应该是 9 点几倍；

对 deepseek 模型来说，缓存价格是普通输入的 1%，那么就超过 10 倍了；

所以之类用了 10 这样一个概数来表达大概的程度

Kinnice

4h 9m ago via Android

@AlexaZhou
1 有
2 可以部署到腾讯云 edgeone
3 这个是不是就是把 cch 去掉了

问一个 axonhub 没有的，gpt5.5 在 cc 里面调用工具会出现多次尝试的问题，你这个实现修复了没？

AlexaZhou

3h 36m ago

@Kinnice

我测试过通过 GtAIGateway 的协议转换功能，让 cc 调用 gpt-5.5 模型，观察还挺正常的，你可以试试看，如果遇到问题跟我反馈，我来修复

回复下上面的：
1 “能” 我刚找到界面了，确实有这个功能。仔细比较了下，GtAIGateway 这块专门写的的渲染器，从美观和功能上做的更多一点

2 “AxonHub 部署到腾讯云 edge”，应该是需要额外自己再准备数据库😂，严格来说算半个 serverless 吧。GtAIGateway 不需要自己准备数据库，可以省去这部分成本和运维的麻烦

3 “这个是不是就是把 cch 去掉了”，cch 是很重要的一块，另外还有其他的如对 responses 协议的处理（粘性路由）；后续还会不断扩展这部分逻辑，力求把缓存命中率提升上来

还有个差别是 GtAIGateway 有构建好的 App 提供，直接本机运行比较方便

以上内容无意引战，主要是解释下和其他工具不同的地方，方便大家理解

Kinnice

3h 15m ago via Android

@AlexaZhou 主要是没有看到你的这个轮子的止痛点，可以从大家的痛点再研究研究，搞出点差异化。

比如我自己的痛点是模型 loadblance/自动重试/空回检测/真正的智能路由（比如我 hello/bash tool call ，后端期望可能是个 flash ，而我问了一个比较复杂的问题会切到 opus ）成本探测/模型检验（是不是真 claude/gpt ）/sub2api