智谱 GLM-4.6V

Cherry Studio 用户现在可以通过内置的 CherryIN 服务免费体验 智谱 GLM-4.6V——由 Z.ai(智谱 AI)于 2025 年 12 月发布的视觉旗舰模型,MoE 架构、128K 原生多模态上下文、原生多模态工具调用,是图文理解与多模态 Agent 场景的首选。


🚀 什么是 GLM-4.6V?

GLM-4.6V 是 Z.ai GLM-V 系列的最新一代视觉语言模型,原生支持文本 + 图像统一建模,在 GLM-4.5V 的基础上进一步扩展上下文与工具调用能力。

  • 架构:Mixture-of-Experts(MoE)
  • 总参数量:106B
  • 激活参数量:约 12B
  • 上下文长度:128K tokens
  • 开源许可:MIT
  • 发布时间:2025 年 12 月 8–9 日
  • 视觉编码器:支持多分辨率图像(最高 4K)

系列同时包含 GLM-4.6V-Flash(9B),面向本地与低延迟场景,免费可商用。


📚 延续 GLM-V 系列的多模态训练体系

GLM-4.6V 沿用了 GLM-4.1V-Thinking / GLM-4.5V 的技术路线,并在视觉与 Agent 方向做了进一步强化:

  1. 原生多模态建模:文本与图像联合训练,支持图文混合输入
  2. 上下文扩展:训练上下文扩展至 128K tokens,单次可处理约 150 页密集文档、200 页幻灯片或 1 小时视频
  3. 原生多模态工具调用:工具可以直接接收与返回图像,基于扩展的 MCP 协议以 URL 方式处理多模态产物
  4. 强化学习增强:沿用 GLM-V 系列的可扩展 RL 流程

⚙️ 原生多模态,面向真实场景

GLM-4.6V 的多模态能力覆盖日常与专业场景:

  • 富文本内容理解:长文档、多页文本与图文混排
  • 视觉网页搜索:结合视觉输入进行联网检索与理解
  • 前端复刻:从设计稿或 UI 截图生成前端代码
  • 长上下文多模态文档分析:整份 PDF / 幻灯片 / 视频级输入
  • 图表与表格解析:结构化信息抽取

💡 原生多模态工具调用与 Agent 能力

GLM-4.6V 的核心升级之一,是 "视觉感知 → 可执行动作" 的闭环:工具调用原生支持图像作为输入与输出,让多模态 Agent 在真实业务中落地。

场景 推荐用法 示例
简单图文问答 直接对话 "这张图里有什么?"
中等复杂任务 启用工具调用 读取图表后检索数据
复杂多模态 Agent 多工具 + MCP 截图 → 理解 → 调用 API → 生成报告

🌟 高效 MoE,开放可用

  • ⚡ MoE 稀疏激活:106B 总参数,仅激活约 12B
  • 💰 通过 CherryIN 在 Cherry Studio 中免费使用
  • 🖥️ 权重、推理代码与 MCP 工具已在 GitHub 与 Hugging Face 开源,MIT 许可

🧠 聚焦实用能力:多模态助手

GLM-4.6V 在实际使用中适合以下场景:

  • 文档助手:长文档、扫描件、幻灯片整份阅读与摘要
  • 数据分析:识别并解读图表、仪表盘截图
  • 前端与设计:根据 UI 截图生成或修改前端代码
  • 视觉搜索:结合图像进行联网检索与信息整合
  • 多模态 Agent:结合浏览器、代码执行、检索等工具完成复杂任务

🧭 如何在 Cherry Studio 中使用?

  1. 打开 Cherry Studio,进入 设置 → 模型服务
  2. 找到 CherryIN 服务商并开启。
  3. 在模型列表中选择 智谱 GLM-4.6V
  4. 返回聊天界面,在顶部模型选择处切换为 GLM-4.6V,即可在对话中直接上传图片进行图文交互。

💡 提示:CherryIN 提供的免费模型额度由 Cherry Studio 官方承担,适合日常体验与评测;生产环境建议结合 Z.ai(智谱)官方 API 使用。


📘 立即体验 智谱 GLM-4.6V,解锁原生多模态与视觉 Agent 能力!

results matching ""

    No results matching ""