语音功能

Warning

此功能因相关开发者没有继续维护 PR 而搁置。

Cherry Studio 语音功能使用说明

一、语音功能概述

Cherry Studio 提供了三大语音功能模块：TTS（文本转语音）、ASR（语音识别）和语音通话。这些功能让您可以通过语音与 AI 进行自然交流，提升使用体验。

二、TTS（文本转语音）功能

Cherry Studio 支持四种 TTS 服务类型：

1) 进入设置页面，选择"语音功能"选项卡 2) 在"TTS"子选项卡中：

启用 TTS 功能（打开开关）
选择 TTS 服务类型
根据选择的服务类型，配置相应参数：
- OpenAI：填写 API 密钥、API 地址、选择音色和模型
- 浏览器 TTS：选择音色
- 硅基流动：填写 API 密钥、API 地址、选择音色、模型、响应格式和语速
- 免费在线 TTS：选择音色和输出格式 3) 配置 TTS 过滤选项（可选）：
过滤思考过程
过滤 Markdown 标记
过滤代码块 4) 设置是否显示 TTS 进度条 5) 点击"测试 TTS"按钮测试配置是否正确

三、ASR（语音识别）功能

Cherry Studio 支持三种 ASR 服务类型：

1) 进入设置页面，选择"语音功能"选项卡 2) 在"ASR"子选项卡中：

启用 ASR 功能（打开开关）
选择 ASR 服务类型
根据选择的服务类型，配置相应参数：
- OpenAI：填写 API 密钥、API 地址、选择模型
- 浏览器：无需额外配置
- 本地服务器：可以设置是否在应用启动时自动启动 ASR 服务器
选择语音识别语言（默认为中文） 3) 点击"测试 ASR"按钮测试配置是否正确

四、语音通话功能

1) 进入设置页面，选择"语音功能"选项卡 2) 在"通话功能"子选项卡中：

1) 在聊天界面中，点击输入框右侧的语音通话按钮（电话图标） 2) 语音通话窗口会打开，并播放欢迎语音 3) 长按"长按说话"按钮开始录音（或使用设置的快捷键） 4) 松开按钮结束录音并发送给 AI 处理 5) AI 生成回复并通过 TTS 播放 6) 使用窗口中的控制按钮：

1) 在语音通话窗口中，点击设置按钮 2) 在弹出的设置面板中，点击快捷键按钮 3) 按下您想要设置的键（如空格键、Shift 键等） 4) 点击"保存"按钮保存设置 5) 使用时，按住设置的快捷键开始录音，松开结束录音并发送

五、常见问题和解决方案

六、高级设置和自定义选项

七、使用建议

选择合适的 TTS 服务：
- 如果追求高质量语音，推荐使用 OpenAI 或硅基流动
- 如果不想配置 API，可以使用浏览器 TTS 或免费在线 TTS
选择合适的 ASR 服务：
- 如果追求高准确率，推荐使用 OpenAI
- 如果不想配置 API，可以使用浏览器内置的语音识别
优化语音通话体验：
- 使用耳机可以避免 TTS 输出被 ASR 再次捕获
- 在安静的环境中使用可以提高识别准确率
- 使用自定义提示词可以让 AI 回复更适合语音播放
根据需求调整设置：
- 如果主要使用文本交流，可以只启用 TTS 功能
- 如果主要使用语音输入，可以只启用 ASR 功能
- 如果需要完整的语音对话体验，启用语音通话功能

希望这份使用说明能帮助您充分利用 Cherry Studio 的语音功能，享受更自然、便捷的 AI 交互体验！

results matching ""