技术规格
| 架构 | MoE 混合专家 |
| 上下文 | 1M tokens |
| 速度 | 比 2.5 Pro 快 3 倍 |
| API 定价 | $0.50/$3.00 per 1M |
性能表现
90.4%
GPQA Diamond
88.2%
MMLU-Pro
3x faster
速度
GA 正式版
状态
最佳适用场景
生产环境 API
高吞吐量低延迟
实时应用
客服、搜索、推荐
批量处理
大规模数据分析
移动应用
响应速度优先
怎么选择这个模型
适合谁
适合在线应用、客服、搜索、推荐和高并发 API 场景。
核心优势
在速度、效果和成本之间更平衡,适合作为默认生产模型。
何时不选
如果任务更偏重极致推理或长链条分析,可优先考虑 3.1 Pro。
推荐搭配
适合先做实时交互主流程,再把复杂任务分流给更强模型。
和其他模型怎么选
与 Gemini 3.1 Pro 对比
Flash 更强调速度、成本和大规模调用效率,3.1 Pro 更强调复杂任务质量和深度推理。
与 Gemini 3.1 Flash-Lite 对比
Flash 比 Lite 更均衡,适合作为主力生产模型;Lite 更适合预算更敏感或超高频任务。
与 Gemini 2.5 Pro 对比
如果你更在意实时交互和较新能力,Flash 更值得优先尝试;如果更偏企业稳定场景,可同时评估 2.5 Pro。
实际选型建议
把 Flash 当作默认主力模型通常较稳,再把极复杂任务分流到 Pro,把简单任务分流到 Lite。
