EfficientDet: Směrem K škálovatelné A Efektivní Detekci Objektů

2025 Autor: Ian Gardner | [email protected]. Naposledy změněno: 2025-06-01 06:35

Jako jedna z hlavních aplikací v počítačovém vidění je detekce objektů stále důležitější ve scénářích, které vyžadují vysokou přesnost, ale mají omezené výpočetní zdroje, jako je robotika a auta bez řidiče. Mnoho moderních vysoce přesných detektorů tato omezení bohužel nesplňuje. Ještě důležitější je, že aplikace pro detekci objektů v reálném světě běží na různých platformách, které často vyžadují různé zdroje.

Přirozenou otázkou tedy je, jak navrhnout přesné a efektivní detektory objektů, které se také mohou přizpůsobit široké škále omezení zdrojů?

EfficientDet: Škálovatelná a efektivní detekce objektů, přijatá na CVPR 2020, představuje novou rodinu škálovatelných a efektivních detektorů objektů. V návaznosti na předchozí práci na škálování neuronových sítí (EfficientNet) a začlenění nové obousměrné funkční sítě (BiFPN) a nových pravidel škálování dosahuje EfficientDet moderní přesnosti, která je 9krát menší a využívá podstatně méně výpočtu než známé moderní detektory. Následující obrázek ukazuje obecnou síťovou architekturu modelů.

Optimalizace modelové architektury

Myšlenka za EfficientDet vychází ze snahy najít řešení pro zlepšení výpočetní efektivity systematickým zkoumáním předchozích nejmodernějších detekčních modelů. Detektory objektů mají obecně tři hlavní součásti: páteř, která extrahuje prvky z daného obrazu; síť objektů, která přebírá více úrovní funkcí z páteře jako vstup a výstup seznam kombinovaných funkcí, které představují charakteristické vlastnosti obrazu; a finální síť třídy / krabice, která používá kombinované funkce k předpovědi třídy a umístění každého objektu.

Po kontrole návrhových možností pro tyto komponenty jsme identifikovali několik klíčových optimalizací pro zlepšení výkonu a efektivity. Předchozí detektory většinou používají jako páteřní sítě ResNets, ResNeXt nebo AmoebaNet, které jsou buď méně výkonné, nebo mají nižší účinnost než EfficientNets. Počáteční implementací páteřní sítě EfficientNet lze dosáhnout mnohem větší efektivity. Například počínaje základní linií RetinaNet, která používá páteřní síť ResNet-50, naše ablační studie ukazuje, že pouhá výměna ResNet-50 za EfficientNet-B3 může zlepšit přesnost o 3% a zároveň snížit výpočet o 20%. Další optimalizací je zlepšení efektivity funkčních sítí. Zatímco většina předchozích detektorů jednoduše používá Downlink Pyramid Network (FPN), zjistíme, že následná FPN je ve své podstatě omezena na jednosměrný tok informací. Alternativní FPN, jako je PANet, přidávají další upstream za cenu dalšího výpočtu.

Nedávné pokusy o použití Neural Architecture Search (NAS) objevily složitější architekturu NAS-FPN. I když je tato síťová struktura účinná, je také nepravidelná a vysoce optimalizovaná pro konkrétní úkol, což ztěžuje přizpůsobení jiným úkolům. K vyřešení těchto problémů navrhujeme novou síť obousměrných funkcí BiFPN, která implementuje myšlenku kombinování vícevrstvých funkcí z FPN / PANet / NAS-FPN, která umožňuje přenos informací shora dolů i zdola nahoru. pomocí pravidelných a efektivních připojení.

Pro další zlepšení účinnosti navrhujeme novou techniku rychlé normalizované syntézy. Tradiční přístupy obvykle zacházejí se všemi vstupy do FPN stejně, dokonce i v různých rozlišeních. Pozorujeme však, že vstupní funkce s různým rozlišením často přispívají nerovnoměrně k výstupním funkcím. Proto přidáváme každé vstupní funkci další váhu a necháme síť zjistit důležitost každé z nich. Rovněž nahradíme všechny běžné závity levnějšími, hluboce oddělitelnými závity. Díky této optimalizaci naše BiFPN dále zlepšuje přesnost o 4% a zároveň snižuje výpočetní náklady o 50%.

Třetí optimalizace zahrnuje dosažení nejlepšího kompromisu mezi přesností a účinností při různých omezeních zdrojů. Naše předchozí práce ukázala, že společné škálování hloubky, šířky a rozlišení sítě může výrazně zlepšit výkon rozpoznávání obrázků. Inspirováni touto myšlenkou navrhujeme novou metodu kompozitního měřítka pro detektory objektů, která společně zvyšuje rozlišení / hloubku / šířku. Každá síťová komponenta, tj. Páteřní, objektová a prediktivní síť bloku / třídy, bude mít jeden komplexní faktor škálování, který řídí všechny dimenze škálování pomocí heuristických pravidel. Tento přístup usnadňuje určení způsobu škálování modelu výpočtem faktoru měřítka pro dané omezení cílového zdroje.

Kombinací nové páteře a BiFPN nejprve navrhneme malou základní linii EfficientDet-D0 a poté aplikujeme škálování sloučenin, abychom získali EfficientDet-D1 až D7. Každý sériový model má vyšší výpočetní náklady, pokrývá širokou škálu omezení zdrojů od 3 miliard FLOPů do 300 miliard FLOPS a poskytuje vyšší přesnost.

Výkonový model

Vyhodnocení EfficientDet na datové sadě COCO, široce používaném referenčním datovém souboru pro detekci objektů. EfficientDet-D7 dosahuje průměrné průměrné přesnosti (mAP) 52,2, což je o 1,5 bodu vyšší než u předchozího moderního modelu, při použití 4krát méně parametrů a 9,4krát méně výpočtů

Rovněž jsme porovnali velikost parametrů a latenci CPU / GPU mezi EfficientDet a předchozími modely. S podobnými omezeními přesnosti běží modely EfficientDet 2-4krát rychleji na GPU a 5-11krát rychleji na procesoru než jiné detektory. Zatímco modely EfficientDet jsou primárně určeny pro detekci objektů, testujeme jejich účinnost také v jiných úlohách, jako je sémantická segmentace. Abychom mohli provést segmentační úkoly, mírně upravíme EfficientDet-D4 tím, že nahradíme detekční hlavu a ztrátu a ztrátu hlavy při zachování stejné škálované páteře a BiFPN. Porovnáváme tento model s předchozími moderními segmentačními modely pro Pascal VOC 2012, široce používaný soubor dat pro testování segmentace.

Vzhledem k jejich výjimečnému výkonu se očekává, že EfficientDet poslouží jako nový základ pro budoucí výzkum detekce objektů a potenciálně učiní vysoce přesné modely detekce objektů užitečné v mnoha aplikacích v reálném světě. Takže otevřel všechny zarážky kódu a předcvičený model na Github.com.

Doporučuje:

Jak Otáčet Fotoaparátem Kolem Objektu

Při vytváření objektu v 3D editorech je důležité vzít v úvahu model ze všech stran, aby bylo možné určit, jak bude vypadat z různých úhlů. Otáčením kamery kolem objektu můžete včas najít nedostatky a opravit je. Instrukce Krok 1 Chcete-li otočit kameru kolem objektu v MilkShape 3D, musíte ji nejprve namířit směrem k objektu

Jak Zabránit Detekci Telefonního čísla

Někteří lidé nechtějí, aby bylo identifikováno jejich číslo mobilního telefonu. Osoba, která přijme hovor, by měla na displeji zobrazit „neznámé“nebo „žádné číslo“. Existuje několik způsobů, jak zajistit, aby mobilní předplatitelé nebyli k dispozici pro identifikaci

Jak Vytvořit Efektivní Prodejní Reklamu Na Avitu

V podmínkách vysoké konkurence na této internetové stránce musíte pečlivě promyslet každý prvek reklamy. Co je třeba vzít v úvahu, aby si vaši reklamu všimli mezi podobnými? I když máte jedinečný a užitečný předmět, je velmi snadné jej neprodat, pokud vytvoříte reklamu, která nepřitahuje pozornost ani velmi zajímavého kupujícího

EfficientDet: Směrem K škálovatelné A Efektivní Detekci Objektů

Obsah:

Optimalizace modelové architektury

Výkonový model

Doporučuje:

Jak Otáčet Fotoaparátem Kolem Objektu

Jak Zabránit Detekci Telefonního čísla

Jak Vytvořit Efektivní Prodejní Reklamu Na Avitu

Jak Nastavit černou Listinu V Telefonu

Jak Si Vybrat Mobilní Telefon

Jak Si Vybrat Smartphone

Jak Koupit Použitou DSLR

Které Smartphony Jsou Považovány Za Spolehlivé A Odolné

Jak Používat Telefon Jako Mikrofon

Jak Nastavit Digitální Televizi

Jak Povolit Integrovanou Kameru

Jak Odemknout Televizi

Jak Dlouho Trvá Nabití Baterie

Jak Připojit Druhý Pevný Disk

Jak Nabíjet Baterii Netbooku

Jak Zapnout Gamepad

Jakou Myš A Klávesnici Zvolit

Jak Převést Film Do Telefonu