pheme

稳定版本

replicate 菲梅（Pheme）为电话应用生成多种16千赫兹的对话语音。

体验模型

replicate语音生成API

价格

263次/1$

商业使用

允许

API文档资料

PolyAI-LDN/pheme 的 Cog 实现

Pheme 模型

本仓库包含用于训练 Pheme TTS 模型的配方和模型。这是论文《Pheme: 高效对话式语音生成》的官方实现。演示可在此处查看，部分音频样本可在此处找到。

我们的 Pheme TTS 框架验证了以下假设：

我们可以用比 VALL-E 或 SoundStorm 少得多的训练数据（例如 10 倍）训练基于 Transformer 的对话式 TTS 模型。
训练可以使用对话、播客和嘈杂的数据（如 GigaSpeech）进行。
效率至关重要，包括参数效率（紧凑模型）、数据效率（更少的训练数据）和推理效率（降低延迟）。
一个基本要素是语义和声学标记的分离以及适当的语音标记器。
通过 MaskGit 风格的推理可以并行运行，与类似大小的自回归模型相比，速度提升 15 倍。
单说话者质量可以通过使用第三方提供的（合成）数据进行师生训练来提升。

@misc{budzianowski2024pheme,
      title={Pheme: Efficient and Conversational Speech Generation}, 
      author={Paweł Budzianowski and Taras Sereda and Tomasz Cichy and Ivan Vulić},
      year={2024},
      eprint={2401.02839},
      archivePrefix={arXiv},
      primaryClass={eess.AS}
}

使用量分析

总调用次数：520

平均响应时间：1.2s

pheme 使用统计

replicate - 调用数据分析

更新时间: 7/24/2025

pheme

价格

商业使用

API文档资料

Pheme 模型

使用量分析

pheme 使用统计

同类模型推荐

f5-tts

xtts-v2

neon-tts