智谱 GLM-4.6V

Cherry Studio 用户现在可以通过内置的 CherryIN 服务免费体验 智谱 GLM-4.6V——由 Z.ai（智谱 AI）于 2025 年 12 月发布的视觉旗舰模型，MoE 架构、128K 原生多模态上下文、原生多模态工具调用，是图文理解与多模态 Agent 场景的首选。

🚀 什么是 GLM-4.6V？

GLM-4.6V 是 Z.ai GLM-V 系列的最新一代视觉语言模型，原生支持文本 + 图像统一建模，在 GLM-4.5V 的基础上进一步扩展上下文与工具调用能力。

架构：Mixture-of-Experts（MoE）
总参数量：106B
激活参数量：约 12B
上下文长度：128K tokens
开源许可：MIT
发布时间：2025 年 12 月 8–9 日
视觉编码器：支持多分辨率图像（最高 4K）

系列同时包含 GLM-4.6V-Flash（9B），面向本地与低延迟场景，免费可商用。

📚 延续 GLM-V 系列的多模态训练体系

GLM-4.6V 沿用了 GLM-4.1V-Thinking / GLM-4.5V 的技术路线，并在视觉与 Agent 方向做了进一步强化：

原生多模态建模：文本与图像联合训练，支持图文混合输入
上下文扩展：训练上下文扩展至 128K tokens，单次可处理约 150 页密集文档、200 页幻灯片或 1 小时视频
原生多模态工具调用：工具可以直接接收与返回图像，基于扩展的 MCP 协议以 URL 方式处理多模态产物
强化学习增强：沿用 GLM-V 系列的可扩展 RL 流程

⚙️ 原生多模态，面向真实场景

GLM-4.6V 的多模态能力覆盖日常与专业场景：

✅ 富文本内容理解：长文档、多页文本与图文混排
✅ 视觉网页搜索：结合视觉输入进行联网检索与理解
✅ 前端复刻：从设计稿或 UI 截图生成前端代码
✅ 长上下文多模态文档分析：整份 PDF / 幻灯片 / 视频级输入
✅ 图表与表格解析：结构化信息抽取

💡 原生多模态工具调用与 Agent 能力

GLM-4.6V 的核心升级之一，是 "视觉感知 → 可执行动作" 的闭环：工具调用原生支持图像作为输入与输出，让多模态 Agent 在真实业务中落地。

场景	推荐用法	示例
简单图文问答	直接对话	"这张图里有什么？"
中等复杂任务	启用工具调用	读取图表后检索数据
复杂多模态 Agent	多工具 + MCP	截图 → 理解 → 调用 API → 生成报告

🌟 高效 MoE，开放可用

⚡ MoE 稀疏激活：106B 总参数，仅激活约 12B
💰 通过 CherryIN 在 Cherry Studio 中免费使用
🖥️ 权重、推理代码与 MCP 工具已在 GitHub 与 Hugging Face 开源，MIT 许可

🧠 聚焦实用能力：多模态助手

GLM-4.6V 在实际使用中适合以下场景：

文档助手：长文档、扫描件、幻灯片整份阅读与摘要
数据分析：识别并解读图表、仪表盘截图
前端与设计：根据 UI 截图生成或修改前端代码
视觉搜索：结合图像进行联网检索与信息整合
多模态 Agent：结合浏览器、代码执行、检索等工具完成复杂任务

🧭 如何在 Cherry Studio 中使用？

打开 Cherry Studio，进入 设置 → 模型服务。
找到 CherryIN 服务商并开启。
在模型列表中选择 智谱 GLM-4.6V。
返回聊天界面，在顶部模型选择处切换为 GLM-4.6V，即可在对话中直接上传图片进行图文交互。

💡 提示：CherryIN 提供的免费模型额度由 Cherry Studio 官方承担，适合日常体验与评测；生产环境建议结合 Z.ai（智谱）官方 API 使用。

📘 立即体验智谱 GLM-4.6V，解锁原生多模态与视觉 Agent 能力！

智谱 GLM-4.6V

智谱 GLM-4.6V

🚀 什么是 GLM-4.6V？

📚 延续 GLM-V 系列的多模态训练体系

⚙️ 原生多模态，面向真实场景

💡 原生多模态工具调用与 Agent 能力

🌟 高效 MoE，开放可用

🧠 聚焦实用能力：多模态助手

🧭 如何在 Cherry Studio 中使用？

results matching ""

No results matching ""