价格
40次/1$
商业使用
允许
API文档资料
模型描述
MasaCtrl(免调谐互自注意力控制实现一致图像合成与编辑)由腾讯ARC实验室和东京大学联合研发。该模型以CompVis/stable-diffusion-v1-4
为基础模型,可同步实现图像合成与编辑功能。
摘要: 尽管大规模文本生成图像和文本条件图像编辑已取得显著进展,现有方法仍难以保持生成与编辑结果的一致性。例如,生成方法通常无法合成同一对象/角色在不同视角或姿态下的多幅图像;而现有编辑方法要么难以在保持整体纹理特征的同时实现有效的复杂非刚性编辑,要么需要耗时的微调来捕捉图像特定外观。本文提出免调谐方法MasaCtrl,可同步实现一致性图像生成与复杂非刚性图像编辑。其核心是将扩散模型中的自注意力机制转化为互自注意力机制,从而从源图像查询关联的局部内容与纹理以保持一致性。为缓解前景背景的查询混淆,我们进一步提出掩码引导的互自注意力策略,该掩码可直接从交叉注意力图中提取。大量实验表明,MasaCtrl在一致性图像生成和复杂非刚性真实图像编辑中均能产生令人印象深刻的结果。
使用说明
本模型提供两种模式:(1) 图像合成与编辑同步模式:只需输入初始图像对应的source_prompt(源提示词)和最终编辑图像对应的target_prompt(目标提示词);(2) 真实/生成图像编辑模式:上传source_image(源图像)并输入target_prompt即可进行编辑。
其他MasaCtrl变体
- 基于xyn-ai/anything-v4.0的MasaCtrl模型
引用文献
@InProceedings{cao_2023_masactrl,
author = {Cao, Mingdeng and Wang, Xintao and Qi, Zhongang and Shan, Ying and Qie, Xiaohu and Zheng, Yinqiang},
title = {MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing},
booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
month = {October},
year = {2023},
pages = {22560-22570}
}
使用量分析
总调用次数:2,500
平均响应时间:1.2s
masactrl-stable-diffusion-v1-4 使用统计
replicate - 调用数据分析
更新时间: 7/16/2025