
免费开源语音合成天花板?Qwen3 TTS 实测太强了!从0到1带你本地部署Qwen3-TTS | Hex 电脑课堂
Audio Summary
AI Summary
本期Hex电脑课堂将介绍Qwen3语音合成(TTS)项目,该项目支持十大语言,包括中文、英文和德语等。Qwen3提供了三大模型,包括语音设计、定制化语音和语音合成模型。语音合成模型主要有1.7B和0.6B两种参数量,其中1.7B模型音色质量更佳,0.6B模型推理速度更快。项目支持流式合成,即边输入边合成边播放,以及指令控制功能,允许用户通过指令调整语音情绪和风格。
在Windows 10系统下配置Qwen3 TTS项目,需要Python 3.12版本,推荐显卡为RTX 4060 Ti,并至少具备8GB显存(1.7B模型)或6GB显存(0.6B模型)。配置步骤如下:
1. **下载项目**:通过Git克隆官方仓库到本地。
2. **安装Conda**:下载并安装Anaconda或Miniconda,用于管理Python环境。
3. **创建虚拟环境**:在Conda中创建并激活名为“Qwen-3 TTS env”的虚拟环境。
4. **确认CUDA版本**:使用`nvidia-smi`和`nvcc -V`命令检查显卡驱动和CUDA编译器版本,以便后续安装兼容的依赖包。
5. **安装依赖**:
* 根据CUDA版本和Python版本,从Flash Attention的官方网站下载对应的`.whl`文件(例如`cu124`和`cp312`),并将其放置在项目目录下。
* 通过`pip install`命令安装下载的`.whl`文件。
* 安装`pip install -e .`以编辑模式安装项目依赖。
* 安装`sox`包,防止语音合成报错。
6. **Flash Attention安装**:确认Flash Attention `.whl`文件已下载并安装,此步骤可跳过编译过程,直接安装到本地。
7. **Windows环境优化**:在Windows上操作时,无需执行官方文档中提到的“内存少于96G”的特定命令,因为`.whl`文件安装方式已跳过现场编译,不占用CPU和系统内存。
**下载模型**:
模型可从HuggingFace或ModelScope下载。建议先安装`pip install uv`,再通过`uv`下载`HuggingFace_Hub[cli]`,以避免依赖冲突。下载命令为`hf_hub download <模型名称> --local-dir <本地路径>`,并注意Windows路径使用反斜杠。
**启动程序**:
1. **修改代码**:进入`Qwen/Qwen-3/CLI`目录,打开`demo.py`文件,将第30行的`from ..`修改为`from Qwen.Qwen-3.CLI`,以正确导入包。
2. **卸载并重新安装HuggingFace_Hub**:卸载已安装的`huggingface_hub`包,然后使用`uv`安装版本小于1.0的`huggingface_hub`,例如`uv pip install huggingface-hub<1.0`。
3. **启动Web UI**:执行`python demo.py --model-path <模型路径> --dtype bfloat16`命令。`bfloat16`数据类型是使用Flash Attention 2加速的必要条件。启动过程中可能会出现“Flash Attention 2 did not find explicitly set torch dtype”的报错,此报错可忽略,不影响实际运行。
**功能演示**:
Qwen3 TTS Web UI界面左侧为参考音频和对应文本,右侧为待合成文本和语种选择。用户可上传参考音频,输入文本,选择语种后进行语音合成。此外,项目还支持音色保存与加载功能,用户可将常用音色保存为`.pt`文件,方便后续快速调用。
**项目优缺点**:
* **优点**:支持语种丰富(10+种),音色接近真人,可用于有声小说、字幕音频合成等。
* **缺点**:合成速度较慢,合成10秒音频约需40-50秒,且对显卡利用率不高,因为Qwen3模型是自回归的,每次生成下一个TOKEN都需要上一个TOKEN作为输入,限制了并行处理能力。
如果需要详细文档,可联系作者获取。