价格
10次/1$
商业使用
允许
API文档资料
高鲁棒性视频抠像 (RVM)
English | 中文
本文是论文《基于时序引导的高分辨率视频鲁棒抠像》的官方实现。RVM专为高鲁棒性的人物视频抠像设计,与现有将视频帧作为独立图像处理的神经网络不同,RVM采用循环神经网络架构处理具有时序记忆的视频流。该模型无需任何辅助输入即可实时处理任意视频,在Nvidia GTX 1080 Ti显卡上可实现4K分辨率76FPS和HD分辨率104FPS的实时性能。本项目由字节跳动团队开发。
效果展示
速度基准
测试代码详见inference_speed_test.py
。
显卡型号 | 数据类型 | 高清(1920x1080) | 4K(3840x2160) |
---|---|---|---|
RTX 3090 | FP16 | 172帧/秒 | 154帧/秒 |
RTX 2060 Super | FP16 | 134帧/秒 | 108帧/秒 |
GTX 1080 Ti | FP32 | 104帧/秒 | 74帧/秒 |
- 注1:HD测试使用
downsample_ratio=0.25
,4K测试使用downsample_ratio=0.125
。所有测试均为batch size=1,帧块数=1。 - 注2:图灵架构前显卡不支持FP16推理,故GTX 1080 Ti采用FP32。
- 注3:测试仅测量张量处理吞吐量。本仓库提供的视频转换脚本效率较低,因其未使用硬件编解码且未实现张量传输的并行线程处理。如需实现Python硬件编解码,可参考PyNvCodec方案。
项目成员
第三方项目
使用量分析
总调用次数:55,200
平均响应时间:1.2s
robust_video_matting 使用统计
replicate - 调用数据分析
更新时间: 7/14/2025