awesome-free-llm-apis 是一个持续维护的免费 LLM API 汇总列表,收录了 15 个提供永久免费额度的 LLM 服务商,涵盖 GPT-4o、DeepSeek、Llama 4、Gemini、Qwen 等主流模型,无需信用卡,注册即用。
想用 AI API 做项目,但不想一上来就绑卡付费?这份列表把所有有永久免费额度的服务商整理在一起,每个都标注了模型名、上下文长度、速率限制,选一个开始就行。

直接提供 API 的厂商
Google Gemini 🇺🇸
-
• Gemini 2.5 Flash:1M 上下文,支持文本/图片/音频/视频,10 RPM / 250 RPD -
• Gemini 2.5 Flash-Lite:1M 上下文,15 RPM / 1,000 RPD -
• ❗️ 欧盟/英国/瑞士不可用;免费版提示词可能被 Google 用于产品改进
Mistral AI 🇫🇷
-
• 无需信用卡,约 1B tokens/月 -
• Mistral Large 3:256K 上下文,~1 RPS,500K TPM -
• Mistral Small 4:256K 上下文,支持图片 -
• Codestral:代码专用,256K 上下文
智谱 AI(Z AI)🇨🇳
-
• 永久免费,无需信用卡 -
• GLM-4.7-Flash:200K 上下文 -
• GLM-4.5-Flash:128K 上下文 -
• GLM-4.6V-Flash:支持图片理解
Cohere 🇨🇦
-
• 每月 1,000 次 API 调用,非商业使用 -
• Command A(111B):256K 上下文,20 RPM -
• 支持 Embeddings 和 Rerank
第三方推理平台
Groq 🇺🇸(速度最快)
-
• LPU 推理,速度极快,无需信用卡 -
• Llama 3.3 70B:131K 上下文,30 RPM / 14,400 RPD -
• Kimi K2:262K 超长上下文,30 RPM / 14,400 RPD -
• DeepSeek R1 Distill 70B:推理模型,30 RPM -
• Whisper Large V3:音频转文字,20 RPM
NVIDIA NIM 🇺🇸(模型最多)
-
• NVIDIA 开发者计划会员免费,100+ 模型,无每日 Token 上限 -
• DeepSeek R1:128K 上下文,~40 RPM -
• Llama 3.1 405B:128K 上下文 -
• NVIDIA Nemotron Ultra 253B:超大模型
OpenRouter 🇺🇸(选择最灵活)
-
• 35+ 免费模型(带 :free后缀),OpenAI SDK 兼容 -
• DeepSeek R1 0528:163K 上下文,20 RPM / 200 RPD -
• Qwen3 Coder 480B:262K 上下文,代码专用 -
• Llama 4 Scout:10M 超长上下文,多模态 -
• 充值 $10+ 可将免费模型额度提升至 1,000 RPD
GitHub Models 🇺🇸(开发者友好)
-
• 所有 GitHub 用户免费,45+ 模型 -
• GPT-4.1:1M 上下文,10 RPM / 50 RPD -
• GPT-4o:128K 上下文,支持视觉 -
• o4-mini:推理模型,200K 上下文 -
• DeepSeek R1:64K 上下文,15 RPM / 150 RPD
Cerebras 🇺🇸(超快推理)
-
• 无需信用卡,~2,600 tok/s,每日 1M Token 上限 -
• Qwen3 235B:131K 上下文,30 RPM -
• gpt-oss-120b:128K 上下文,30 RPM
Cloudflare Workers AI 🇺🇸
-
• 每日 10,000 Neurons 免费,50+ 模型 -
• Llama 4 Scout 17B:支持多模态,最高 10M 上下文 -
• DeepSeek R1 Distill Qwen 32B:推理模型
SiliconFlow 🇨🇳(国内友好)
-
• 注册赠 14 元,部分模型永久免费 -
• Qwen3-8B:131K 上下文,1,000 RPM / 50K TPM -
• DeepSeek R1 Distill Qwen 7B:推理模型 -
• GLM-4.1V-9B-Thinking:视觉 + 推理
Hugging Face 🇺🇸
-
• 免费 Serverless Inference API + 约 $0.10/月免费额度 -
• 数千个社区模型可调用 -
• Llama 3.1 8B、Mistral 7B、Qwen2.5 7B 等
LLM7.io 🇬🇧(零门槛)
-
• 无需注册即可基础访问,30+ 模型 -
• DeepSeek R1、DeepSeek V3、Gemini 2.5 Flash Lite -
• 注册后速率提升至 120 RPM
ModelScope 🇨🇳
-
• 需要阿里云账号绑定 + 实名认证 -
• Qwen3.5 35B、Qwen3.5 27B,每日 2,000 次请求
Ollama Cloud 🇺🇸
-
• 400+ 模型,按 GPU 时间计费 -
• ❗️ 非 OpenAI SDK 兼容,使用 Ollama API
快速选择指南
|
|
|
|---|---|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
使用技巧
-
• 大多数平台兼容 OpenAI SDK,只需替换 base_url和api_key -
• 速率限制不够用?多个平台轮换使用 -
• OpenRouter 的 openrouter/free路由器自动在免费模型间负载均衡 -
• Groq 适合需要低延迟的实时应用








