语音识别
本指南将引导你在 SillyTavern 中设置语音识别,将你的语音转录为文本。
前提条件
在开始之前,请确保你已满足以下前提条件:
- 确保你使用的是最新版本的 SillyTavern。
- 从扩展面板(堆叠方块图标)中的“下载扩展与素材”菜单安装“Speech Recognition”扩展。
语音识别设置(浏览器)
-
配置 SillyTavern:
- 启动 SillyTavern,进入 Extensions > Speech Recognition。
- 在下拉选项中选择“Browser”。
- 如果你的浏览器不支持语音识别,将会弹出错误提示。
-
选择消息模式:
- 选择你想要的“消息模式(Message Mode)”:
- 追加(Append):你的消息将被追加到当前用户消息文本框中。
- 替换(Replace):你的消息将替换文本框中当前的用户消息。
- 自动发送(Auto send):检测到语音结束后,你的消息将自动发送。
- 选择你想要的“消息模式(Message Mode)”:
-
启用消息映射 (可选):
- 为语音快捷指令设置短语映射。
- 例如,添加“command delete = /del2”后,当检测到“command delete”时,“/del2”命令将替换你的语音消息。
- 与自动发送模式结合使用可实现完全的语音控制。勾选“启用消息映射(Enable messages mapping)”即可启用。
-
选择语言:
- 选择你要使用的语言(注意:并非每个浏览器都支持所有语言)。
-
录音:
- 要开始录音,请点击消息区域右侧、发送按钮旁边的麦克风按钮。再次点击可停止录音。如果未检测到语音,录音可能会自动停止。
语音识别设置(API 来源)
支持提供语音转文本 API 的来源,如 OpenAI、MistralAI、Groq、Chutes、Z.AI 等。
设置方法:
- 在聊天补全 API 设置中为所选提供商提供 API 密钥。
- 启动 SillyTavern,进入 Extensions > Speech Recognition。
- 在下拉选项中选择所需的 API 来源。
- 根据需要配置其他设置,与“Browser”提供商的设置类似。
语音识别设置(Extras)- 已弃用
需要安装 ffmpeg 二进制文件。更多详情请参见 RVC 设置。
-
启用提供商:
- 使用以下命令在 extras 服务器上启用所需的语音识别提供商:
或
python server.py --enable-modules=whisper-sttpython server.py --enable-modules=vosk-stt - 你也可以通过添加选项
--stt-vosk-model-path或--stt-whisper-model-path并指定模型路径来使用自定义模型。
- 使用以下命令在 extras 服务器上启用所需的语音识别提供商:
-
配置 SillyTavern:
- 启动 SillyTavern,进入 Extensions > Speech Recognition。
- 在下拉选项中选择“Vosk”或“Whisper”(Whisper 更准确)。
- 设置与“Browser”提供商类似(语言除外),参见上文。
语音识别设置(流式)- 已弃用
需要安装 ffmpeg 二进制文件。更多详情请参见 RVC 设置。
-
启用提供商:
- 使用以下命令在 Sillytavern-extras 上启用流式语音识别模块:
python server.py --enable-modules=streaming-stt
- 使用以下命令在 Sillytavern-extras 上启用流式语音识别模块:
-
配置 SillyTavern:
- (可选)按照上文 Whisper 设置中的方法指定自定义 Whisper 模型。
- (可选但推荐)在 SillyTavern 中设置触发词。只有以这些触发词开头的消息才会作为实际消息发送到 SillyTavern。这可以防止随机语音或噪音被转录。通过复选框启用此功能。可以通过复选框选择是否将触发词从实际消息中包含/排除。
- 其他设置与其他提供商类似。
现在你已准备好在 SillyTavern 中使用语音识别将语音转录为文本。