价格
14次/1$
商业使用
允许
API文档资料
Mochi 1
博客 | Hugging Face | 体验平台 | 招聘
由Genmo开发的前沿视频生成模型。
概述
Mochi 1预览版是目前公开的最先进视频生成模型,在初步评估中展现出高保真运动表现和强大的提示词跟随能力。该模型显著缩小了闭源与开源视频生成系统之间的差距。我们采用宽松的Apache 2.0许可证发布该模型。您可以在我们的体验平台免费试用。
模型架构
Mochi 1代表了开源视频生成领域的重大突破,其基于创新的非对称扩散Transformer架构(AsymmDiT),构建了一个拥有100亿参数的扩散模型。这是完全从零开始训练的最大规模开源视频生成模型,其架构设计简洁且易于修改。我们还同步发布了包含高效上下文并行实现的推理框架。
与Mochi配套开源的还有我们的非对称视频变分自编码器(AsymmVAE)。该压缩模型采用非对称编解码器结构,能以128倍压缩率高效处理视频数据,实现8x8空间压缩和6倍时间压缩,最终输出12通道的潜在空间表示。
AsymmVAE技术规格
参数量 | 编码器基础 通道数 |
解码器基础 通道数 |
潜在 维度 |
空间 压缩率 |
时间 压缩率 |
---|---|---|---|---|---|
3.62亿 | 64 | 128 | 12 | 8x8 | 6倍 |
AsymmDiT通过精简文本处理流程并集中神经网络容量于视觉推理,实现了用户提示词与压缩视频标记的高效联合处理。该架构采用多模态自注意力机制,为不同模态设计独立的MLP层(类似Stable Diffusion 3),但视觉流的参数量达到文本流的近4倍(通过更大的隐藏维度实现)。在自注意力层中,我们使用非对称的QKV和输出投影层来统一多模态表示,这种设计显著降低了推理时的内存需求。
与当前主流扩散模型使用多个预训练语言模型不同,Mochi 1仅采用单个T5-XXL语言模型进行提示词编码。
AsymmDiT技术规格
参数量 | 层数 | 注意力头数 | 视觉 维度 |
文本 维度 |
视觉 标记数 |
文本 标记数 |
---|---|---|---|---|---|---|
100亿 | 48 | 24 | 3072 | 1536 | 44520 | 256 |
硬件需求
本代码库支持多GPU分布式运算和单GPU运行模式。单GPU运行约需60GB显存,虽然ComfyUI可优化至20GB以下显存运行,但本实现更注重灵活性而非内存效率。建议至少使用1张H100 GPU进行推理。
安全性
Genmo视频模型作为通用文生视频扩散模型,会自然反映训练数据中的偏见和预设观念。虽然我们已采取措施限制不当内容生成,但建议商业应用前实施额外的安全协议并审慎评估。
局限性
作为研究预览版,Mochi 1是持续演进的检查点版本。当前存在以下已知限制:初始版本仅支持480p视频生成;极端运动场景可能出现轻微扭曲;模型针对写实风格优化,动画内容生成效果欠佳。我们期待社区能通过微调来适应多样化的美学需求。
相关项目
- ComfyUI-MochiWrapper 为Mochi添加ComfyUI支持,其PyTorch SDPA注意力实现被本仓库采用
- mochi-xdit 是本仓库的分支,通过xDiT提升了并行推理速度
引用文献
@misc{genmo2024mochi,
title={Mochi 1},
author={Genmo Team},
year={2024},
publisher = {GitHub},
journal = {GitHub repository},
howpublished={\url{https://github.com/genmoai/models}}
}
使用量分析
mochi-1 使用统计
replicate - 调用数据分析