价格
263次/1$
商业使用
允许
API文档资料
PolyAI-LDN/pheme 的 Cog 实现
Pheme 模型
本仓库包含用于训练 Pheme TTS 模型的配方和模型。这是论文《Pheme: 高效对话式语音生成》的官方实现。演示可在此处查看,部分音频样本可在此处找到。
我们的 Pheme TTS 框架验证了以下假设:
- 我们可以用比 VALL-E 或 SoundStorm 少得多的训练数据(例如 10 倍)训练基于 Transformer 的对话式 TTS 模型。
- 训练可以使用对话、播客和嘈杂的数据(如 GigaSpeech)进行。
- 效率至关重要,包括参数效率(紧凑模型)、数据效率(更少的训练数据)和推理效率(降低延迟)。
- 一个基本要素是语义和声学标记的分离以及适当的语音标记器。
- 通过 MaskGit 风格的推理可以并行运行,与类似大小的自回归模型相比,速度提升 15 倍。
- 单说话者质量可以通过使用第三方提供的(合成)数据进行师生训练来提升。
@misc{budzianowski2024pheme,
title={Pheme: Efficient and Conversational Speech Generation},
author={Paweł Budzianowski and Taras Sereda and Tomasz Cichy and Ivan Vulić},
year={2024},
eprint={2401.02839},
archivePrefix={arXiv},
primaryClass={eess.AS}
}
使用量分析
总调用次数:520
平均响应时间:1.2s
pheme 使用统计
replicate - 调用数据分析
更新时间: 7/24/2025