Počítačové videnie v kocke II. – Úloha detekcie a segmentácie

14. júna 2019 Ing. Juraj Muráň

Detekcia

Ďalšou z úloh je detekcia objektov. Tu je cieľom lokalizovať a ohraničiť objekty, ktoré sa nachádzajú v snímke a rovnako ako pri klasifikácii určiť triedy jednotlivých objektov. Výsledkom algoritmu je teda zoznam objektov, ktoré boli nájdené. Pre každý jeden objekt by mali byť výstupom súradnice jeho ohraničujúceho obdĺžnika v rámci snímku, trieda do ktorej patrí, a pravdepodobnosť príslušnosti k tejto triede.

Na detekciu objektov sa používa viacero rôznych prístupov, napríklad kombinácia konvolučných neurónových sietí a regresie. S týmto problémom relatívne úzko súvisí úloha generovania popisu obrázkov. Tu je cieľom nielen zistiť, aké objekty sa na obrázku nachádzajú, ale aj v akom kontexte. Používajú sa na to 2 modely. Prvý z nich slúži na spracovanie obrazovej informácie. Výstup z tohto modelu je následne použitý ako vstup na „prevod“ extrahovaných obrazových príznakov do textovej podoby. Spravidla sa to robí kombináciou konvolučnej a rekurentnej neurónovej siete. Výsledkom takejto analýzy nasledujúceho obrázku teda môže byť popis „Dievča kráča po ceste a nesie si veľkého plyšového medveďa.“

zdroj: Lisa Runnels, Pixabay.com

Segmentácia

Ďalšia veľmi podobná je úloha segmentácie obrazu. Vo všeobecnosti ide o to, že chceme s presnosťou na pixely v obraze nájsť a oddeliť jednotlivé objekty od pozadia. V prípade, že chceme všetky objekty jednej triedy segmentovať ako celok, ide o sématickú segmentáciu. Ak chceme segmentovať každý jeden objekt samostatne, ide o o segmentáciu inštancií. Toto sú už z pohľadu počítačového videnia skutočne zložité úlohy, ako na návrh algoritmov, tak aj na ich následnú výpočtovú náročnosť. Používajú sa na to rôzne techniky. Medzi nimi opäť konvolučné neurónové siete či zhlukovanie, ale aj algoritmy z oblasti mimo strojového učenia.

zdroj: Christoph Koerner, Intro to Deep Learning for Computer Vision

Z ostatných úloh počítačového videnia s použitím strojového učenia, ktoré patria mimo „kategóriu“ rozpoznávania obrazu, môžeme spomenúť transformáciu štýlov. Tu je cieľom analyzovať štýl vstupného obrázku / viacerých obrázkov, naučiť sa ho, a vedieť ho potom aplikovať na iný obrázok. Toto je možné použiť napríklad na vytvorenie filtrov pre fotky na sociálne siete. Ďalej tu môžeme uviesť úlohy ako je transformácia obrázku uloženého v odtieňoch sivej na farebný obrázok, rekonštrukcia chýbajúcich či poškodených častí obrazu, zvýšenie kvality obrázku s nízkym rozlíšením, či generovanie podobných alebo nových obrazových dát na základe existujúcich. Pre statický obraz (obrázok, fotka) najčastejšie riešime konkrétne úlohy ako je klasifikácia, lokalizácia, detekcia objektov či segmentácia obrazu. Pre obrazovú sekvenciu (videozáznam) je to napríklad detekcia pohyblivých objektov či trasovanie.