以下内容基本上是 AI 生成的,我还没校对,可能质量不高
tgi2o¶
在上海 实习 的时候造的轮子。当时大家还没主动适配 OpenAI Compatible API
tgi2o 是把 Hugging Face 的 Text Generation Inference(TGI)接口包装成 OpenAI 风格 API 的适配器。
这样做的好处是让只认识 OpenAI /v1/completions / /v1/chat/completions 的客户端也能直接接入 TGI。
用途
当你已经有一套 OpenAI 兼容客户端,但推理后端实际跑在 TGI 上时,这种适配器能省掉一层客户端改造。
相关:
- oai2ollama:方向相反的例子,把 OpenAI 兼容接口包装成 Ollama 风格。
- text-generation-inference:TGI 的实现与文档。
推理代理能极大简化多后端部署的复杂度。
深入洞见¶
这个项目已经实现并公开,核心是把 TGI 的 /generate 与 /generate_stream 包装成 OpenAI 风格的 /v1/completions 和 /v1/chat/completions。main.py 负责挂载入口,app/api/completions.py / app/api/chat_completions.py 则负责请求与流式响应的转换。
参考源码:main.py · app/api/completions.py · app/api/chat_completions.py