EfficientDet: Směrem K škálovatelné A Efektivní Detekci Objektů

Obsah:

EfficientDet: Směrem K škálovatelné A Efektivní Detekci Objektů
EfficientDet: Směrem K škálovatelné A Efektivní Detekci Objektů

Video: EfficientDet: Směrem K škálovatelné A Efektivní Detekci Objektů

Video: EfficientDet: Směrem K škálovatelné A Efektivní Detekci Objektů
Video: Створення ефекту полірованого каменю зі шпаклівками Capadecor Marmorino Romantico 2024, Listopad
Anonim

Jako jedna z hlavních aplikací v počítačovém vidění je detekce objektů stále důležitější ve scénářích, které vyžadují vysokou přesnost, ale mají omezené výpočetní zdroje, jako je robotika a auta bez řidiče. Mnoho moderních vysoce přesných detektorů tato omezení bohužel nesplňuje. Ještě důležitější je, že aplikace pro detekci objektů v reálném světě běží na různých platformách, které často vyžadují různé zdroje.

Škálovatelná a efektivní detekce objektů
Škálovatelná a efektivní detekce objektů

Přirozenou otázkou tedy je, jak navrhnout přesné a efektivní detektory objektů, které se také mohou přizpůsobit široké škále omezení zdrojů?

EfficientDet: Škálovatelná a efektivní detekce objektů, přijatá na CVPR 2020, představuje novou rodinu škálovatelných a efektivních detektorů objektů. V návaznosti na předchozí práci na škálování neuronových sítí (EfficientNet) a začlenění nové obousměrné funkční sítě (BiFPN) a nových pravidel škálování dosahuje EfficientDet moderní přesnosti, která je 9krát menší a využívá podstatně méně výpočtu než známé moderní detektory. Následující obrázek ukazuje obecnou síťovou architekturu modelů.

obraz
obraz

Optimalizace modelové architektury

Myšlenka za EfficientDet vychází ze snahy najít řešení pro zlepšení výpočetní efektivity systematickým zkoumáním předchozích nejmodernějších detekčních modelů. Detektory objektů mají obecně tři hlavní součásti: páteř, která extrahuje prvky z daného obrazu; síť objektů, která přebírá více úrovní funkcí z páteře jako vstup a výstup seznam kombinovaných funkcí, které představují charakteristické vlastnosti obrazu; a finální síť třídy / krabice, která používá kombinované funkce k předpovědi třídy a umístění každého objektu.

Po kontrole návrhových možností pro tyto komponenty jsme identifikovali několik klíčových optimalizací pro zlepšení výkonu a efektivity. Předchozí detektory většinou používají jako páteřní sítě ResNets, ResNeXt nebo AmoebaNet, které jsou buď méně výkonné, nebo mají nižší účinnost než EfficientNets. Počáteční implementací páteřní sítě EfficientNet lze dosáhnout mnohem větší efektivity. Například počínaje základní linií RetinaNet, která používá páteřní síť ResNet-50, naše ablační studie ukazuje, že pouhá výměna ResNet-50 za EfficientNet-B3 může zlepšit přesnost o 3% a zároveň snížit výpočet o 20%. Další optimalizací je zlepšení efektivity funkčních sítí. Zatímco většina předchozích detektorů jednoduše používá Downlink Pyramid Network (FPN), zjistíme, že následná FPN je ve své podstatě omezena na jednosměrný tok informací. Alternativní FPN, jako je PANet, přidávají další upstream za cenu dalšího výpočtu.

Nedávné pokusy o použití Neural Architecture Search (NAS) objevily složitější architekturu NAS-FPN. I když je tato síťová struktura účinná, je také nepravidelná a vysoce optimalizovaná pro konkrétní úkol, což ztěžuje přizpůsobení jiným úkolům. K vyřešení těchto problémů navrhujeme novou síť obousměrných funkcí BiFPN, která implementuje myšlenku kombinování vícevrstvých funkcí z FPN / PANet / NAS-FPN, která umožňuje přenos informací shora dolů i zdola nahoru. pomocí pravidelných a efektivních připojení.

obraz
obraz

Pro další zlepšení účinnosti navrhujeme novou techniku rychlé normalizované syntézy. Tradiční přístupy obvykle zacházejí se všemi vstupy do FPN stejně, dokonce i v různých rozlišeních. Pozorujeme však, že vstupní funkce s různým rozlišením často přispívají nerovnoměrně k výstupním funkcím. Proto přidáváme každé vstupní funkci další váhu a necháme síť zjistit důležitost každé z nich. Rovněž nahradíme všechny běžné závity levnějšími, hluboce oddělitelnými závity. Díky této optimalizaci naše BiFPN dále zlepšuje přesnost o 4% a zároveň snižuje výpočetní náklady o 50%.

Třetí optimalizace zahrnuje dosažení nejlepšího kompromisu mezi přesností a účinností při různých omezeních zdrojů. Naše předchozí práce ukázala, že společné škálování hloubky, šířky a rozlišení sítě může výrazně zlepšit výkon rozpoznávání obrázků. Inspirováni touto myšlenkou navrhujeme novou metodu kompozitního měřítka pro detektory objektů, která společně zvyšuje rozlišení / hloubku / šířku. Každá síťová komponenta, tj. Páteřní, objektová a prediktivní síť bloku / třídy, bude mít jeden komplexní faktor škálování, který řídí všechny dimenze škálování pomocí heuristických pravidel. Tento přístup usnadňuje určení způsobu škálování modelu výpočtem faktoru měřítka pro dané omezení cílového zdroje.

Kombinací nové páteře a BiFPN nejprve navrhneme malou základní linii EfficientDet-D0 a poté aplikujeme škálování sloučenin, abychom získali EfficientDet-D1 až D7. Každý sériový model má vyšší výpočetní náklady, pokrývá širokou škálu omezení zdrojů od 3 miliard FLOPů do 300 miliard FLOPS a poskytuje vyšší přesnost.

Výkonový model

Vyhodnocení EfficientDet na datové sadě COCO, široce používaném referenčním datovém souboru pro detekci objektů. EfficientDet-D7 dosahuje průměrné průměrné přesnosti (mAP) 52,2, což je o 1,5 bodu vyšší než u předchozího moderního modelu, při použití 4krát méně parametrů a 9,4krát méně výpočtů

obraz
obraz

Rovněž jsme porovnali velikost parametrů a latenci CPU / GPU mezi EfficientDet a předchozími modely. S podobnými omezeními přesnosti běží modely EfficientDet 2–4krát rychleji na GPU a 5–11krát rychleji na procesoru než jiné detektory. Zatímco modely EfficientDet jsou primárně určeny pro detekci objektů, testujeme jejich účinnost také v jiných úlohách, jako je sémantická segmentace. Abychom mohli provést segmentační úkoly, mírně upravíme EfficientDet-D4 tím, že nahradíme detekční hlavu a ztrátu a ztrátu hlavy při zachování stejné škálované páteře a BiFPN. Porovnáváme tento model s předchozími moderními segmentačními modely pro Pascal VOC 2012, široce používaný soubor dat pro testování segmentace.

obraz
obraz

Vzhledem k jejich výjimečnému výkonu se očekává, že EfficientDet poslouží jako nový základ pro budoucí výzkum detekce objektů a potenciálně učiní vysoce přesné modely detekce objektů užitečné v mnoha aplikacích v reálném světě. Takže otevřel všechny zarážky kódu a předcvičený model na Github.com.

Doporučuje: