
什么是 通义千问
通义千问(Tongyi Qianwen,简称 Qwen)是阿里巴巴集团旗下阿里云推出的通用人工智能助手与大模型家族,最早于 2023 年 4 月在阿里云峰会上公开发布,后面向公众开放,并持续在多模态、长上下文和推理能力上演进。面向 C 端有「通义」App,面向开发者与企业通过阿里云「大模型服务平台百炼(Model Studio)」提供 API 与托管能力。
2025 年,阿里云发布新一代 Qwen3(千问 3)并全面开源多个规格;商业版模型在百炼平台以「通义千问 Max / Plus / Flash / Coder、VL-Plus / VL-Max、Long、Audio、Omni、Omni-Realtime」等形态提供,覆盖文本、视觉、语音与实时多模态场景。
截至 2025 年,Qwen 系列已形成开源与商业协同的产品线(Qwen2.5、Qwen3、Qwen3-Coder、Qwen2.5-VL 等),官方资料显示 Qwen3 支持思考(Thinking)与非思考模式切换,推理、代码、Agent 能力显著提升;百炼平台提供最高 1M 上下文(Plus/Flash/Coder 等)与多区域可用性。
核心技术
Qwen3 在模型训练与推理路径上引入「思考/非思考」双模推理与(部分版本)混合专家(MoE)架构:在更大规模数据上预训练并强化对长文本、结构化输出(JSON)、多语言的稳健性;在需要深度推理时启用思考模式提高可靠性,轻量任务则走非思考模式以降低延迟与成本。多模态方向的 Qwen2.5-VL / 通义千问 VL(Plus / Max)进一步增强文档、图表与长视频理解,并具备作为视觉 Agent 的工具调用能力。
📌 最新进展(2025):
- Qwen3 正式发布与开源(4 月 29 日),引入思考/非思考双模推理,推理与 Agent 能力全面提升。
- Qwen3-Coder 开源发布(7 月 23 日),主打工程化与智能体式编码工作流。
- Qwen2.5-VL 升级,多尺寸开源并强化长视频与视觉 Agent 能力。
- 百炼平台新增/调整模型与计费:通义千问 doc-turbo 增加 Cache 计费项(10 月 24 日起);通义千问 3-VL-Plus 默认启用高分辨率解析(10 月 21 日起)。
- 「模型列表与价格」持续更新,旗舰模型(Max/Plus/Flash/Coder)在中国大陆区最低价分别至 ¥0.006/千 Token(入) / ¥0.024/千 Token(出)(Max)等,并提供 1M 上下文规格(Plus/Flash/Coder)。
整体来看,通义千问从 1.0(2023)→ 2.0/2.5(2023–2024)→ 3(2025)沿着“长上下文 + 多模态 + 推理/Agent”的主线持续演化:C 端定位为中文友好的一体化智能助手,B 端通过百炼平台与开源生态提供从实验到生产的落地路径。
🚀 通义千问 能做什么 · 主要功能解释
超长上下文与复杂长文处理
通义千问商业版在百炼平台提供最高 1M 上下文(Plus / Flash / Coder 等),适合长合同比对、跨论文综述、知识库问答等任务;配合「Long」与结构化输出(JSON)能力,可稳定执行分块归并、证据回溯与格式化抽取流程。
多模态理解与视觉 Agent
通义千问 VL-Plus / VL-Max 面向图像、表格、图表、文档与长视频理解,支持高分辨率解析、区域定位与跨页语义对齐;在视觉 Agent 任务中可结合工具使用,实现“看—想—做”的端到端链路,适配文档审阅、报表抽取与监控视频摘要等场景。
思考/非思考双模推理
Qwen3 引入可切换的思考模式:复杂推理(数学、逻辑、代码)时启用深度思考路径以提升准确性;日常问答走非思考路径以降低延迟与费用。支持 100+ 语言与结构化指令跟随,长文本生成与 JSON 输出更稳健。
工程化编码与智能体协作
通义千问 Coder / Qwen3-Coder 面向大型仓库理解、跨文件引用、单测补全与自动修复;在“Agentic”编码任务中能分解需求、调用工具链、生成补丁与变更说明,形成可回溯的工程流水线。
语音理解与实时多模态
通义千问 Audio 与 Omni / Omni-Realtime 覆盖语音转写、情感分析、语音聊天与实时多模态交互;可将语音、图像与文本统一进对话上下文,支持会议记录、客服质检与直播字幕等场景。
开放平台与成本治理
在百炼平台可选通义商业版与开源版(Qwen2.5、Qwen3),并结合 Batch 调度、上下文缓存(Cache)、节省计划与区域选路实现“性能/成本/并发”的平衡;控制台支持调用统计、账单分析与配额治理。
💡 实用进阶技巧
🧱 分块+索引喂长文:按章分块并生成目录/页码映射;总问询前让模型先输出提纲与引用占位,最后再合并写作,显著降低丢段与跑题。
🔁 善用 Cache 与 Batch:相同前缀对话或模板推理启用缓存,批量生成用 Batch 半价(部分模型);能同时优化时延与单次成本。
🧪 思考模式分级启用:先用非思考模式跑通流程,仅在关键步骤(推理/计算/对齐)切换为思考模式,控制整体费用与时延。
🧩 VL 高分辨率开关:默认已开启(VL-Plus/3-VL-Plus),但遇到简单图片可手动关闭以节省成本;复杂文档/图表务必开启。
🔐 生产接入三件套:限流与并发上限、日志与审计、区域与网络(PrivateLink/专有网络)一起配置;并结合节省计划做预算锁定。
💳 价格套餐与订阅方式
代表型号与中国大陆(北京)区价格(按调用计费)
| 模型(商业版) | 上下文上限 | 最低输入价(¥/千Token) | 最低输出价(¥/千Token) | 要点 |
|---|---|---|---|---|
| 通义千问 Max | 262,144 | 0.006 | 0.024 | 效果最强,复杂任务优先 |
| 通义千问 Plus | 1,000,000 | 0.0008 | 0.002 | 性能/成本均衡,1M 上下文 |
| 通义千问 Flash | 1,000,000 | 0.00015 | 0.0015 | 高性价比与低时延 |
| 通义千问 Coder | 1,000,000 | 0.001 | 0.004 | 工程化编码与工具调用 |
| 通义千问 VL-Plus | 131,072(单图最大 16,384) | 0.001541 | 0.004624 | 图片/文档/长视频理解,默认高分辨率 |
| 通义千问 VL-Max | 131,072(单图最大 16,384) | 0.005871 | 0.023486 | 旗舰视觉推理性能 |
注:不同地域(如新加坡)价格与上限不同;还有 Long、Audio、Omni/Omni-Realtime 等模型可选,详见百炼「模型列表与价格」。阿里云提供节省计划、Batch 半价(部分模型)与新用户千万 Token 免费权益等成本工具。
订阅与开通方式
在阿里云控制台开通「大模型服务平台百炼」,按量计费调用通义千问;可购买节省计划、配置调用统计与账单分析;企业可通过专有网络/PrivateLink 提升数据安全与传输效率。通义 App(个人)提供一体化 AI 助手体验,开发者与团队面向 API/SDK(兼容 OpenAI 接口与 DashScope SDK)。
⚠️ 价格变动提示:模型价格、上下文上限与免费额度会随版本与活动调整,请以百炼「模型列表与价格」与控制台实时信息为准。
❓通义千问 常见问题解答(FAQ)
Q1: 如何选择 Max / Plus / Flash / Coder?
A: 复杂推理与高准确性选 Max;通用与成本敏感选 Plus;追求低延迟与批量生成选 Flash;工程化编码选 Coder。长文与 1M 上下文任务优先 Plus/Flash/Coder,视觉任务选 VL-Plus/VL-Max。
Q2: Qwen3 的“思考/非思考模式”如何使用?
A: 在 API 中通过参数(如 enable_thinking)切换:默认用非思考跑流程,遇到关键推理/计算步骤再切到思考模式;这样兼顾成本与质量。
Q3: 多模态(VL)如何提升文档/图表识别效果?
A: 对扫描件/复杂版式,开启高分辨率解析;分页长文按页切片并附带页码元数据,要求模型输出区域坐标/页码引用,便于复核与回溯。
Q4: 1M 上下文如何稳定使用?
A: 将知识分块并建立“检索→汇总→引用”的管道;对固定前缀提示启用缓存(Cache);必要时用 Long/Plus,并控制单次输出长度与温度。
Q5: 如何降低调用成本?
A: 选合适型号(Flash/Plus)、使用 Batch(部分模型半价)、开启缓存、精简提示/上下文;购买节省计划并做按地域路由与并发限流。
Q6: App 与 API 有何差别?
A: App 面向个人使用的多功能助手;API/百炼面向开发与企业集成,提供模型选型、观测、计费与安全治理;两者可结合:前台探索/验证,后台用 API 承载生产。
Q7: 开源 Qwen 与商业通义千问如何取舍?
A: 本地/离线或高度可定制选开源 Qwen2.5/Qwen3(自运维);追求即开即用、SLA 与多模型编排选商业版;也可采用“开源微调 + 商业补全”的混合策略。
Q8: 最新模型与参数变更如何跟进?
A: 关注百炼「产品动态」与「模型列表与价格」页;如 3-VL-Plus 默认开启高分辨率、doc-turbo 新增 Cache 计费等,都需在上线日前后同步更新调用参数与成本评估。
相关导航


Gemini

纳米AI

腾讯元宝

Claude

豆包

新光速写作

