TOP AI APITOP AI API

pheme

稳定版本

replicate 菲梅(Pheme)为电话应用生成多种16千赫兹的对话语音。

体验模型
replicate语音生成API

价格

263次/1$

商业使用

允许

API文档资料

PolyAI-LDN/pheme 的 Cog 实现

Pheme 模型

本仓库包含用于训练 Pheme TTS 模型的配方和模型。这是论文《Pheme: 高效对话式语音生成》的官方实现。演示可在此处查看,部分音频样本可在此处找到。

我们的 Pheme TTS 框架验证了以下假设:

  1. 我们可以用比 VALL-E 或 SoundStorm 少得多的训练数据(例如 10 倍)训练基于 Transformer 的对话式 TTS 模型。
  2. 训练可以使用对话、播客和嘈杂的数据(如 GigaSpeech)进行。
  3. 效率至关重要,包括参数效率(紧凑模型)、数据效率(更少的训练数据)和推理效率(降低延迟)。
  4. 一个基本要素是语义和声学标记的分离以及适当的语音标记器。
  5. 通过 MaskGit 风格的推理可以并行运行,与类似大小的自回归模型相比,速度提升 15 倍。
  6. 单说话者质量可以通过使用第三方提供的(合成)数据进行师生训练来提升。
@misc{budzianowski2024pheme,
      title={Pheme: Efficient and Conversational Speech Generation}, 
      author={Paweł Budzianowski and Taras Sereda and Tomasz Cichy and Ivan Vulić},
      year={2024},
      eprint={2401.02839},
      archivePrefix={arXiv},
      primaryClass={eess.AS}
}

使用量分析

总调用次数:520
平均响应时间:1.2s

pheme 使用统计

replicate - 调用数据分析

更新时间: 7/24/2025

同类模型推荐

f5-tts

F5-TTS,开源语音克隆领域最新尖端技术

语音生成
查看详情 →

xtts-v2

Coqui XTTS-v2:多语言文本转语音声音克隆

语音生成
查看详情 →

neon-tts

NeonAI Coqui AI 文本转语音插件

语音生成
查看详情 →