คู่มือการใช้งาน
API Gateway ที่รองรับ OpenAI API format — ใช้งานกับทุก framework ที่รองรับ OpenAI ได้เลย
Quick Start
ใช้งาน Gateway นี้เหมือน OpenAI API ทุกประการ — เปลี่ยนแค่ base_url และ api_key
API Endpoints
| Method | Endpoint | คำอธิบาย |
|---|---|---|
| POST | /v1/chat/completions | Chat / Text generation (streaming + OpenAI tool calling on HTTP providers) |
| POST | /v1/embeddings | Text → Vector embeddings |
| POST | /v1/images/generations | Text → Image generation |
| GET | /v1/models | รายการ models ที่ใช้ได้ |
| GET | /v1/memories | ดู memories ของ API key นี้ |
| POST | /v1/memories | เพิ่ม memory แบบ manual (pinned fact) |
| PUT | /v1/memories/:id | แก้ไข memory |
| DELETE | /v1/memories/:id | ลบ memory |
💬 Chat Completions
Parameters ที่รองรับ:
OpenAI Tool Calling
Gateway รองรับการส่งผ่าน tools, tool_choice, assistant messages ที่มี tool_calls และ messages role tool สำหรับ provider แบบ HTTP/OpenAI-compatible โดยให้ client หรือ workflow เช่น n8n เป็นผู้ execute tool เอง
หมายเหตุ: routes ที่ใช้ workers_ai รองรับเฉพาะบางรุ่นที่ระบบ mark capability ไว้แล้ว เช่น @cf/google/gemma-4-26b-a4b-it
🔢 Embeddings
Embedding Models:
| Model | Dimensions | ภาษา |
|---|---|---|
| workers-ai/bge-small-en-v1.5 | 384 | EN |
| workers-ai/bge-base-en-v1.5 | 768 | EN |
| workers-ai/bge-large-en-v1.5 | 1024 | EN |
| workers-ai/bge-m3 | 1024 | Multilingual |
🎨 Image Generation
Response จะเป็น b64_json (base64-encoded PNG)
Image Models:
Chat Models ทั้งหมด
| Model | Provider | หมายเหตุ |
|---|---|---|
| openai/gpt-4o | OpenAI | |
| openai/gpt-4o-mini | OpenAI | เร็ว ราคาถูก |
| gemini/gemini-2.0-flash | Gemini | เร็ว |
| gemini/gemini-2.0-pro | Gemini | |
| modal/llama-3.1-8b | Modal | Self-hosted vLLM |
| workers-ai/llama-4-scout | Workers AI | Llama 4 MoE |
| workers-ai/llama-3.3-70b | Workers AI | 70B params |
| workers-ai/gemma-4-26b | Workers AI | 256k ctx · tools · vision |
| workers-ai/gemma-3-12b | Workers AI | |
| workers-ai/gemma-sea-lion-v4-27b | Workers AI | SEA multilingual |
| workers-ai/deepseek-r1-32b | Workers AI | Reasoning model |
| workers-ai/qwen2.5-coder-32b | Workers AI | Code-optimized |
| workers-ai/mistral-7b | Workers AI |
ใช้งานกับ Framework อื่น
LangChain (Python)
JavaScript / TypeScript
cURL
ฟีเจอร์ของ Gateway
OpenAI API Compatible
ใช้งานกับ OpenAI SDK, LangChain, LlamaIndex ได้เลย
Tool Calling Compatible
ส่งผ่าน tools, tool_calls และ role: tool ได้สำหรับ HTTP/OpenAI-compatible providers
Multi-Provider Routing
OpenAI, Gemini, Modal, Workers AI — route ผ่าน gateway เดียว
API Key Management
สร้าง/จัดการ API keys พร้อม budget limit และ rate limit
Usage Tracking
Track tokens, cost, latency ทุก request
Streaming Support
รองรับ SSE streaming เหมือน OpenAI
Model Access Control
กำหนดได้ว่า key ไหนใช้ model อะไรได้บ้าง
Long-Term Memory
จำบทสนทนาข้าม session ด้วย Vectorize + D1 พร้อม AI importance scoring
Auto Memory Cleanup
Cron ลบ memories เก่า/ไม่สำคัญอัตโนมัติ จำกัด 500/user
🧠 Long-Term Memory System
Gateway มีระบบ memory ที่จำบทสนทนาข้าม session ได้ ทำให้ AI จำข้อมูลของผู้ใช้ได้ เช่น ชื่อ ความชอบ เหตุการณ์ที่เคยเล่า
วิธีทำงาน:
- ทุกข้อความที่ส่ง → embed ด้วย
bge-m3(multilingual) → เก็บใน Vectorize - บทสนทนาเต็ม (User + Assistant) → เก็บใน D1 database
- AI ให้คะแนน importance 1-10 ทุกข้อความ — ข้อมูลส่วนตัว (8-10), เหตุการณ์ (6-7), คำถามทั่วไป (3-5)
- เมื่อถามคำถาม → semantic search หาบทสนทนาที่เกี่ยวข้อง → inject เข้า context
Auto Cleanup (Cron ทุกวัน):
- ลบ memories ที่ ไม่เคยถูก access + เก่ากว่า 30 วัน
- ลบ memories ที่ เก่ากว่า 90 วัน ไม่ว่าจะถูก access หรือไม่
- จำกัด สูงสุด 500 memories/user — เกินแล้วลบตัวที่ importance ต่ำออกก่อน
- Pinned memories ไม่ถูกลบอัตโนมัติ
Memory API:
📝 หมายเหตุ
- • Memory ต้องเปิดใช้งานใน API key (เปิดผ่าน Admin → API Keys)
- • ข้อความสั้นกว่า 15 ตัวอักษร หรือเป็นคำทักทาย จะไม่ถูกบันทึก
- • Vectorize มี delay เล็กน้อย (eventually consistent) — memories จะค่อยๆ พร้อมใช้หลังจากสร้างไม่กี่วินาที