TOP AI APITOP AI API

masactrl-stable-diffusion-v1-4

稳定版本

replicate 编辑真实或生成的图像

体验模型
replicate图像编辑API

价格

40次/1$

商业使用

允许

API文档资料

模型描述

MasaCtrl(免调谐互自注意力控制实现一致图像合成与编辑)由腾讯ARC实验室和东京大学联合研发。该模型以CompVis/stable-diffusion-v1-4为基础模型,可同步实现图像合成与编辑功能。

摘要: 尽管大规模文本生成图像和文本条件图像编辑已取得显著进展,现有方法仍难以保持生成与编辑结果的一致性。例如,生成方法通常无法合成同一对象/角色在不同视角或姿态下的多幅图像;而现有编辑方法要么难以在保持整体纹理特征的同时实现有效的复杂非刚性编辑,要么需要耗时的微调来捕捉图像特定外观。本文提出免调谐方法MasaCtrl,可同步实现一致性图像生成与复杂非刚性图像编辑。其核心是将扩散模型中的自注意力机制转化为互自注意力机制,从而从源图像查询关联的局部内容与纹理以保持一致性。为缓解前景背景的查询混淆,我们进一步提出掩码引导的互自注意力策略,该掩码可直接从交叉注意力图中提取。大量实验表明,MasaCtrl在一致性图像生成和复杂非刚性真实图像编辑中均能产生令人印象深刻的结果。

更多信息请参阅论文官方代码库项目主页

使用说明

本模型提供两种模式:(1) 图像合成与编辑同步模式:只需输入初始图像对应的source_prompt(源提示词)和最终编辑图像对应的target_prompt(目标提示词);(2) 真实/生成图像编辑模式:上传source_image(源图像)并输入target_prompt即可进行编辑。

其他MasaCtrl变体

引用文献

@InProceedings{cao_2023_masactrl,
    author    = {Cao, Mingdeng and Wang, Xintao and Qi, Zhongang and Shan, Ying and Qie, Xiaohu and Zheng, Yinqiang},
    title     = {MasaCtrl: Tuning-Free Mutual Self-Attention Control for Consistent Image Synthesis and Editing},
    booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)},
    month     = {October},
    year      = {2023},
    pages     = {22560-22570}
}

使用量分析

总调用次数:2,500
平均响应时间:1.2s

masactrl-stable-diffusion-v1-4 使用统计

replicate - 调用数据分析

更新时间: 7/16/2025

同类模型推荐

modnet

一种深度学习方法来去除背景并添加新的背景图像

图像编辑
查看详情 →

styleclip

文本驱动的StyleGAN图像操控

图像编辑
查看详情 →

instruct-pix2pix

根据人类指令编辑图像

图像编辑
查看详情 →