TOP AI APITOP AI API

controlnet-pose

稳定版本

replicate 使用姿势检测修改含有人物的图像

体验模型
replicate图像生成控制API

价格

6次/1$

商业使用

允许

API文档资料

模型作者:张吕敏 (Lyumin Zhang)

使用说明

输入一张图像,并像使用Stable Diffusion时那样提供提示语来生成图像。Openpose将自动检测图像中的人体姿态。

模型描述

该ControlNet模型在Stable Diffusion基础上,通过输入图像中的人体姿态图结合文本提示来生成输出图像。

ControlNet是一种神经网络结构,能够扩展预训练大模型以支持提示语之外的额外输入条件。它以端到端方式学习特定任务的条件控制,即使在小训练集(<5万样本)下也具有鲁棒性。其训练速度与微调扩散模型相当,甚至可在个人设备上完成。若配备强大算力集群,还能处理海量训练数据(百万至十亿级)。通过ControlNet,Stable Diffusion等大型扩散模型可新增边缘图、分割图、关键点等条件控制能力。

GitHub原始模型与代码

其他ControlNet变体

ControlNet可通过多种方式改造Stable Diffusion的输出效果。以下是几种不同方案,均需同时输入图像和提示语,其差异在于对输入图像的处理方式:

基于绘图的图像生成 涂鸦控制:https://replicate.com/jagilley/controlnet-scribble

基于输入图像的人体生成 人体姿态检测:https://replicate.com/jagilley/controlnet-pose

保留输入图像整体特征 边缘检测:https://replicate.com/jagilley/controlnet-canny HED图:https://replicate.com/jagilley/controlnet-hed 深度图:https://replicate.com/jagilley/controlnet-depth2img 霍夫线检测:https://replicate.com/jagilley/controlnet-hough 法线图:https://replicate.com/jagilley/controlnet-normal

引用文献

@misc{https://doi.org/10.48550/arxiv.2302.05543,
  doi = {10.48550/ARXIV.2302.05543},
  url = {https://arxiv.org/abs/2302.05543},
  author = {Zhang, Lvmin and Agrawala, Maneesh},
  keywords = {Computer Vision and Pattern Recognition (cs.CV), Artificial Intelligence (cs.AI), Graphics (cs.GR), Human-Computer Interaction (cs.HC), Multimedia (cs.MM), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {Adding Conditional Control to Text-to-Image Diffusion Models},
  publisher = {arXiv},
  year = {2023},
  copyright = {arXiv.org perpetual, non-exclusive license}
}

使用量分析

总调用次数:174,600
平均响应时间:1.2s

controlnet-pose 使用统计

replicate - 调用数据分析

更新时间: 7/3/2025

同类模型推荐

controlnet-hough

使用M-LSD线条检测修改图像

图像生成控制
查看详情 →

controlnet-seg

使用语义分割修改图像

图像生成控制
查看详情 →

controlnet-normal

使用法线贴图修改图像

图像生成控制
查看详情 →