Prišiel čas malých dát a veľkých sietí

Ak by padla otázka: „Čo je najhoršie v procese vytvárania AI?“, moja odpoveď by bola bez váhania zber dát. Nech už si vyberiete akýkoľvek programovací jazyk alebo metódu, vždy všetko stojí a padá na tom istom. Aby ste mohli ukázať svetu, že vaša umelá inteligencia dokáže pripraviť parádnu, aj keď netradičnú, vianočnú kapustnicu, záleží na množstve a kvalite dát, na ktorých sa umelá inteligencia učí. Vedci z NVIDIA sa opäť pochlapili, ale na rozdiel od predchádzajúcich úspechov ako GauGAN alebo GANimals, oprášili starší projekt StyleGAN2. A zas a znova nám vyrazili dych.

Začnime od Adama

Keď som na začiatku písal o probléme s nedostatkom dát, nebolo to len tak. Každý jednotlivec sa pri práci na AI stretáva s týmto problémom, dokonca aj velikán ako NVIDIA. Skutočnosť je taká, že ak chcete natrénovať kvalitnú GAN sieť, potrebujete približne 100 000 vzoriek. V prípade StyleGAN2 by išlo o klasické olejomaľby. StyleGAN2 bol vytvorený na generovanie obrazov v rôznom umeleckom štýle, hoci aj slávnych maliarov v svetových múzeách, ale aj pre jednotlivcov. Adobe túto funkciu implementovalo dokonca aj do Photoshop-u. Je však ťažké nájsť také množstvo vzoriek. V NVIDIA prišli s riešením, ktoré toto číslo redukuje vyše 20x. Volá sa ADA (Adaptive Discriminator Augmentation), do slovenčiny sa túto skratku nebudem ani pokúšať prekladať. Podstatný je výsledok, a to, že sa chlapcom z NVIDIA podarilo natrénovať StyleGAN2 na mikrobiálnom počte 1 500 obrazov. Zo stotisíc na tisícpäťsto je to skvelý výsledok, čo poviete?

Zázrak ADA spočíva v klonovaní jednotlivých obrázkov do množstva kópií, ktoré sa náhodne transformujú, napríklad sa invertujú farby, otočí sa o niekoľko stupňov alebo sa rozmaže maľba. Je to famózny spôsob, ktorý má však jeden háčik. Takto trénovaná sieť sa začne učiť na modifikovaných kópiách a výsledok je podobný skôr Picassovi po mŕtvici, než samotnému Picassovi. ADA sa vybrala trochu iným smerom. Dáta pozmeňuje adaptívne. To znamená, že zmeny kópií sú aplikované v rôznych štádiách procesu učenia, čím predchádza pretrénovaniu modelu a zabráni „opisovaniu“ modifikovaných dát.

To, že sa dnes Rembrandtom alebo Michelangelom môžete stať aj vy, je super. ADA a jej prínos má však potenciál v rôznych odvetviach, ako zdravotná starostlivosť, kde medicínske záznamy vzácnych patologických chorôb môžu obsahovať iba niekoľko jednotiek dát.

NVIDIA skutočne pchá nos do všetkého a pokiaľ bude pravidelne predvádzať nové a nové zázraky, ako je ADA, tak jej držím palce. Na koniec, ak by ste sa chceli dozvedieť viac o GAN sieťach ako fungujú a k čomu sa používajú, máme o nich článok na našom webe. Odporúčam… Je to skutočne skvelé čítanie!

Zdroj:

https://blogs.nvidia.com/blog/2020/12/07/neurips-research-limited-data-gan/

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená. Vyžadované polia sú označené *