Samenvatting en 1. Inleiding
Gerelateerd Werk
MaGGIe
3.1. Efficiënte Gemaskeerde Geleide Instance Matting
3.2. Feature-Matte Temporele Consistentie
Instance Matting Datasets
4.1. Beeld Instance Matting en 4.2. Video Instance Matting
Experimenten
5.1. Pre-training op beelddata
5.2. Training op videodata
Discussie en Referenties
\ Aanvullend Materiaal
Architectuurdetails
Beeld matting
8.1. Dataset generatie en voorbereiding
8.2. Trainingsdetails
8.3. Kwantitatieve details
8.4. Meer kwalitatieve resultaten op natuurlijke beelden
Video matting
9.1. Dataset generatie
9.2. Trainingsdetails
9.3. Kwantitatieve details
9.4. Meer kwalitatieve resultaten
Deze sectie breidt het beeldmattingproces uit en biedt aanvullende inzichten in datasetgeneratie en uitgebreide vergelijkingen met bestaande methoden. We gaan dieper in op de creatie van I-HIM50K en M-HIM2K datasets, bieden gedetailleerde kwantitatieve analyses en presenteren verdere kwalitatieve resultaten om de effectiviteit van onze aanpak te onderstrepen.
De I-HIM50K dataset werd gesynthetiseerd uit de HHM50K [50] dataset, die bekend staat om zijn uitgebreide collectie menselijke beeldmattes. We gebruikten een MaskRCNN [14] Resnet-50 FPN 3x model, getraind op de COCO dataset, om afbeeldingen met één persoon eruit te filteren, wat resulteerde in een subset van 35 053 afbeeldingen. Volgens de InstMatt [49] methodologie werden deze afbeeldingen gecomponeerd tegen diverse achtergronden uit de BG20K [29] dataset, waardoor multi-instance scenario's ontstonden met 2-5 onderwerpen per afbeelding. De onderwerpen werden van grootte veranderd en gepositioneerd om een realistische schaal te behouden en overmatige overlapping te vermijden, zoals aangegeven door instance IoU's die niet hoger waren dan 30%. Dit proces leverde 49 737 afbeeldingen op, met gemiddeld 2,28 instances per afbeelding. Tijdens de training werden geleidingsmaskers gegenereerd door de alfa-mattes te binariseren en willekeurige dropout-, dilatatie- en erosie-operaties toe te passen. Voorbeeldafbeeldingen van I-HIM50K worden getoond in Fig. 10.
\ De M-HIM2K dataset werd ontworpen om de modelrobuustheid tegen variërende maskerkwaliteiten te testen. Het omvat tien maskers per instance, gegenereerd met verschillende MaskRCNN modellen. Meer informatie over de modellen die voor dit generatieproces zijn gebruikt, wordt getoond in Tabel 8. De maskers werden aan instances gekoppeld op basis van de hoogste IoU met de ground truth alfa-mattes, waarbij een minimale IoU-drempel van 70% werd gegarandeerd. Maskers die niet aan deze drempel voldeden, werden kunstmatig gegenereerd uit ground truth. Dit proces resulteerde in een uitgebreide set van 134 240 maskers, met 117 660 voor samengestelde en 16 600 voor natuurlijke afbeeldingen, wat een robuuste benchmark biedt voor het evalueren van gemaskeerde geleide instance matting. De volledige dataset I-HIM50K en M-HIM2K zal worden vrijgegeven na acceptatie van dit werk.
\ 
\ 
\
:::info Auteurs:
(1) Chuong Huynh, University of Maryland, College Park (chuonghm@cs.umd.edu);
(2) Seoung Wug Oh, Adobe Research (seoh,jolee@adobe.com);
(3) Abhinav Shrivastava, University of Maryland, College Park (abhinav@cs.umd.edu);
(4) Joon-Young Lee, Adobe Research (jolee@adobe.com).
:::
:::info Dit artikel is beschikbaar op arxiv onder CC by 4.0 Deed (Attribution 4.0 International) licentie.
:::
\


