TOP AI APITOP AI API

mochi-1

稳定版本

replicate Mochi 1预览版是一款开源视频生成模型,在初步评估中展现出高保真运动表现与精准的提示词遵循能力

体验模型
replicate视频生成API

价格

14次/1$

商业使用

允许

API文档资料

Mochi 1

博客 | Hugging Face | 体验平台 | 招聘

Genmo开发的前沿视频生成模型。

board

概述

Mochi 1预览版是目前公开的最先进视频生成模型,在初步评估中展现出高保真运动表现和强大的提示词跟随能力。该模型显著缩小了闭源与开源视频生成系统之间的差距。我们采用宽松的Apache 2.0许可证发布该模型。您可以在我们的体验平台免费试用。

模型架构

Mochi 1代表了开源视频生成领域的重大突破,其基于创新的非对称扩散Transformer架构(AsymmDiT),构建了一个拥有100亿参数的扩散模型。这是完全从零开始训练的最大规模开源视频生成模型,其架构设计简洁且易于修改。我们还同步发布了包含高效上下文并行实现的推理框架。

与Mochi配套开源的还有我们的非对称视频变分自编码器(AsymmVAE)。该压缩模型采用非对称编解码器结构,能以128倍压缩率高效处理视频数据,实现8x8空间压缩和6倍时间压缩,最终输出12通道的潜在空间表示。

AsymmVAE技术规格

参数量 编码器基础
通道数
解码器基础
通道数
潜在
维度
空间
压缩率
时间
压缩率
3.62亿 64 128 12 8x8 6倍

AsymmDiT通过精简文本处理流程并集中神经网络容量于视觉推理,实现了用户提示词与压缩视频标记的高效联合处理。该架构采用多模态自注意力机制,为不同模态设计独立的MLP层(类似Stable Diffusion 3),但视觉流的参数量达到文本流的近4倍(通过更大的隐藏维度实现)。在自注意力层中,我们使用非对称的QKV和输出投影层来统一多模态表示,这种设计显著降低了推理时的内存需求。

与当前主流扩散模型使用多个预训练语言模型不同,Mochi 1仅采用单个T5-XXL语言模型进行提示词编码。

AsymmDiT技术规格

参数量 层数 注意力头数 视觉
维度
文本
维度
视觉
标记数
文本
标记数
100亿 48 24 3072 1536 44520 256

硬件需求

本代码库支持多GPU分布式运算和单GPU运行模式。单GPU运行约需60GB显存,虽然ComfyUI可优化至20GB以下显存运行,但本实现更注重灵活性而非内存效率。建议至少使用1张H100 GPU进行推理。

安全性

Genmo视频模型作为通用文生视频扩散模型,会自然反映训练数据中的偏见和预设观念。虽然我们已采取措施限制不当内容生成,但建议商业应用前实施额外的安全协议并审慎评估。

局限性

作为研究预览版,Mochi 1是持续演进的检查点版本。当前存在以下已知限制:初始版本仅支持480p视频生成;极端运动场景可能出现轻微扭曲;模型针对写实风格优化,动画内容生成效果欠佳。我们期待社区能通过微调来适应多样化的美学需求。

  • ComfyUI-MochiWrapper 为Mochi添加ComfyUI支持,其PyTorch SDPA注意力实现被本仓库采用
  • mochi-xdit 是本仓库的分支,通过xDiT提升了并行推理速度

引用文献

@misc{genmo2024mochi,
      title={Mochi 1},
      author={Genmo Team},
      year={2024},
      publisher = {GitHub},
      journal = {GitHub repository},
      howpublished={\url{https://github.com/genmoai/models}}
}

使用量分析

总调用次数:2,700
平均响应时间:1.2s

mochi-1 使用统计

replicate - 调用数据分析

更新时间: 7/11/2025

同类模型推荐

tile-morph

创建可平铺动画,实现无缝过渡

视频生成
查看详情 →

damo-text-to-video

多阶段文本到视频生成

视频生成
查看详情 →

text2video-zero

文本到图像扩散模型是零样本视频生成器

视频生成
查看详情 →