语音功能

Warning

此功能因相关开发者没有继续维护 PR 而搁置。

Cherry Studio 语音功能使用说明

一、语音功能概述

Cherry Studio 提供了三大语音功能模块:TTS(文本转语音)、ASR(语音识别)和语音通话。这些功能让您可以通过语音与 AI 进行自然交流,提升使用体验。

  • TTS(文本转语音):将 AI 回复的文本转换为语音输出
  • ASR(语音识别):将您的语音转换为文本输入
  • 语音通话:结合 TTS 和 ASR,实现类似 ChatGPT 的语音对话体验

二、TTS(文本转语音)功能

  1. 支持的服务类型

Cherry Studio 支持四种 TTS 服务类型:

  • OpenAI:使用 OpenAI 的 TTS API,需要 API 密钥
  • 浏览器 TTS:使用浏览器内置的语音合成功能,免费无需配置
  • 硅基流动:使用硅基流动(Siliconflow)的 TTS 服务,需要 API 密钥
  • 免费在线 TTS:使用免费的在线 TTS 服务,无需 API 密钥

  • 设置方法

1) 进入设置页面,选择"语音功能"选项卡 2) 在"TTS"子选项卡中:

  • 启用 TTS 功能(打开开关)
  • 选择 TTS 服务类型
  • 根据选择的服务类型,配置相应参数:
    • OpenAI:填写 API 密钥、API 地址、选择音色和模型
    • 浏览器 TTS:选择音色
    • 硅基流动:填写 API 密钥、API 地址、选择音色、模型、响应格式和语速
    • 免费在线 TTS:选择音色和输出格式 3) 配置 TTS 过滤选项(可选):
  • 过滤思考过程
  • 过滤 Markdown 标记
  • 过滤代码块 4) 设置是否显示 TTS 进度条 5) 点击"测试 TTS"按钮测试配置是否正确
  1. 使用方法

  2. 启用 TTS 功能后,AI 的回复会自动转换为语音输出

  3. 在聊天界面中,每条 AI 回复下方会显示 TTS 播放按钮
  4. 点击播放按钮可以播放/暂停语音
  5. 如果启用了 TTS 进度条,会在文本下方显示播放进度
  6. 长文本会自动分段合成并连续播放

三、ASR(语音识别)功能

  1. 支持的服务类型

Cherry Studio 支持三种 ASR 服务类型:

  • OpenAI:使用 OpenAI 的 Whisper 模型,需要 API 密钥
  • 浏览器:使用浏览器内置的语音识别功能,免费无需配置
  • 本地服务器:连接到本地 WebSocket 服务器进行语音识别

  • 设置方法

1) 进入设置页面,选择"语音功能"选项卡 2) 在"ASR"子选项卡中:

  • 启用 ASR 功能(打开开关)
  • 选择 ASR 服务类型
  • 根据选择的服务类型,配置相应参数:
    • OpenAI:填写 API 密钥、API 地址、选择模型
    • 浏览器:无需额外配置
    • 本地服务器:可以设置是否在应用启动时自动启动 ASR 服务器
  • 选择语音识别语言(默认为中文) 3) 点击"测试 ASR"按钮测试配置是否正确
  1. 使用方法

  2. 启用 ASR 功能后,在输入框旁边会显示语音识别按钮

  3. 点击语音识别按钮开始录音
  4. 说话后,语音会被转换为文本并填入输入框
  5. 再次点击按钮结束录音
  6. 语音识别支持连续识别多句话,采用累加模式

四、语音通话功能

  1. 功能特点

  2. 结合 TTS 和 ASR,实现类似 ChatGPT 的语音对话体验

  3. 使用可拖动的悬浮窗口界面
  4. 支持长按说话模式
  5. 支持自定义快捷键
  6. 支持窗口折叠
  7. 可以选择专门的语音通话模型
  8. 支持自定义提示词

  9. 设置方法

1) 进入设置页面,选择"语音功能"选项卡 2) 在"通话功能"子选项卡中:

  • 启用语音通话功能(打开开关)
  • 点击"选择模型"按钮,选择用于语音通话的 AI 模型
  • 在提示词文本框中自定义语音通话提示词(可选)
  • 点击"保存"按钮保存提示词,或点击"重置"按钮恢复默认提示词
  1. 使用方法

1) 在聊天界面中,点击输入框右侧的语音通话按钮(电话图标) 2) 语音通话窗口会打开,并播放欢迎语音 3) 长按"长按说话"按钮开始录音(或使用设置的快捷键) 4) 松开按钮结束录音并发送给 AI 处理 5) AI 生成回复并通过 TTS 播放 6) 使用窗口中的控制按钮:

  • 静音/取消静音按钮:控制 TTS 输出
  • 暂停/继续按钮:暂停或继续对话
  • 设置按钮:配置快捷键
  • 折叠按钮:折叠窗口,只保留长按说话那一行 7) 点击关闭按钮结束通话
  1. 快捷键设置

1) 在语音通话窗口中,点击设置按钮 2) 在弹出的设置面板中,点击快捷键按钮 3) 按下您想要设置的键(如空格键、Shift 键等) 4) 点击"保存"按钮保存设置 5) 使用时,按住设置的快捷键开始录音,松开结束录音并发送

五、常见问题和解决方案

  1. TTS 相关问题

  2. 问题:TTS 无法播放声音 解决方案:检查是否启用了 TTS 功能,确保选择了正确的服务类型和配置了必要的参数

  3. 问题:TTS 播放质量不佳 解决方案:尝试更换不同的 TTS 服务类型或音色

  4. 问题:TTS 播放时显示错误信息 解决方案:检查 API 密钥是否正确,网络连接是否正常

  5. ASR 相关问题

  6. 问题:ASR 无法识别语音 解决方案:检查是否启用了 ASR 功能,确保选择了正确的服务类型和配置了必要的参数

  7. 问题:ASR 识别准确率低 解决方案:尝试更换不同的 ASR 服务类型,或调整麦克风位置和音量

  8. 问题:ASR 服务器连接失败 解决方案:检查本地服务器是否正常运行,或尝试重启应用

  9. 语音通话相关问题

  10. 问题:语音通话窗口无法打开 解决方案:检查是否启用了语音通话功能,确保 TTS 和 ASR 功能配置正确

  11. 问题:长按说话没有反应 解决方案:检查麦克风权限是否已授予,或尝试重新启动语音通话

  12. 问题:AI 回复没有语音输出 解决方案:检查是否启用了 TTS 功能,确保没有静音

六、高级设置和自定义选项

  1. TTS 高级设置

  2. 过滤选项:可以选择过滤思考过程、Markdown 标记和代码块,使 TTS 播放更流畅

  3. 进度条显示:可以选择是否显示 TTS 进度条
  4. 自定义音色和模型:可以添加自定义的音色和模型选项

  5. ASR 高级设置

  6. 自动启动服务器:可以设置应用启动时是否自动启动 ASR 服务器

  7. 语言选择:可以选择不同的语音识别语言

  8. 语音通话高级设置

  9. 自定义提示词:可以自定义语音通话提示词,指导 AI 在语音通话模式下的回复方式

  10. 专用模型选择:可以为语音通话选择专门的 AI 模型,与当前对话使用的模型分开
  11. 快捷键自定义:可以设置自定义快捷键来控制录音

七、使用建议

  1. 选择合适的 TTS 服务:

    • 如果追求高质量语音,推荐使用 OpenAI 或硅基流动
    • 如果不想配置 API,可以使用浏览器 TTS 或免费在线 TTS
  2. 选择合适的 ASR 服务:

    • 如果追求高准确率,推荐使用 OpenAI
    • 如果不想配置 API,可以使用浏览器内置的语音识别
  3. 优化语音通话体验:

    • 使用耳机可以避免 TTS 输出被 ASR 再次捕获
    • 在安静的环境中使用可以提高识别准确率
    • 使用自定义提示词可以让 AI 回复更适合语音播放
  4. 根据需求调整设置:

    • 如果主要使用文本交流,可以只启用 TTS 功能
    • 如果主要使用语音输入,可以只启用 ASR 功能
    • 如果需要完整的语音对话体验,启用语音通话功能

希望这份使用说明能帮助您充分利用 Cherry Studio 的语音功能,享受更自然、便捷的 AI 交互体验!

results matching ""

    No results matching ""