Datasety pre strojové učenie

7. augusta 2019 Ing. Barbora Tináková

Ak začínate so strojovým učením, možno ste narazili na problém, kde získať potrebné dáta. Potrebujete ucelenú množinu súvisiacich dát, ktorá poslúži na váš účel, dataset. Niektoré prípady si vyžiadajú vytvorenie vlastného datasetu. Dáta môžete vytvoriť aj umelo (ide napr. o fotografie vs. vygenerované obrázky, t.j. reálne vs. syntetické dáta). Väčšinou si môžete cestu zjednodušiť a vybrať si z dostupných datasetov s kvalitnými a rozsiahlymi dátami.

Na úvod ešte pár základných pripomienok, a to:

– Pozerajte na kvalitu dát, nech nestrácate čas s ich očisťovaním. Rovnako kvalita dát odzrkadlí aj úspešnosť použitého algoritmu v projekte.

– Dbajte na formuláciu cieľa, aby naň dáta vedeli presne odpovedať.

Na výber máte údaje z rôznych oblastí a zdrojov. Pre vás sú relevantné datasety priamo pre strojové učenie (existujú aj všeobecné datasety, využiteľné nie len pre programovanie).

zdroj: Mika Baumeister, Unsplash

Spracovanie obrazu

CIFAR10 / CIFAR100 – vhodný pre vás, ktorí sa len ponárate do tajov strojového učenia a potrebujete dataset obrázkov.

COCO dataset – vytvorený pre detekciu objektov, segmentáciu a ich označenie. Ponúka vyše 300 tisíc, väčšinou označených, obrázkov.

ImageNet – v databáze má vyše 14 mil. obrázkov a 1000 tried. Používa ho množstvo algoritmov počítačového videnia.

MNIST – obsahuje trénovací set so 60 tisíc príkladmi rukou písaných číslic. Predstavuje základný, „cvičný“ dataset vhodný pre výučbu.

VisualData – poslúži pri zameraní na počítačové videnie, spracovanie obrazu či hlboké strojové učenie. K dispozícii sú obrázky, videá aj niekoľko máp.

zdroj: VisualData, snímka obrazovky

Spracovanie textu

Billion Words – použiteľný pre spracovanie textu pomocou NLP. Ponúka viac ako miliardu slov.

Sentiment140 – nápomocný pri projektoch s analýzou sentimentu. Automaticky vytvorené dáta vytiahol z konverzácií Twitteru podľa emotikonov.

WordNet – obsahuje anglické výrazy, štyri slovné druhy zoskupené podľa sémantických vzťahov. Každý záznam (synset) má odlišný význam. Existuje aj slovenská verzia s takmer 25 tisíc synsetmi dostupná TU.

UCI Machine Learning Repository – je jeden z najstarších. Slúžila ako hlavný zdroj pre študentov pracujúcich so strojovým učením. Najrozšírenejšie oblasti dát má z počítačového inžinierstva a medicíny. Ponúka aj datasety pre spracovanie zvuku.

Vyhľadať a vybrať si môžete aj sami. Existujú tzv. vyhľadávače datasetov, z ktorých spomenieme ten od spoločnosti Google.

Nie je možné vymenovať všetky. Ak máte overený dataset hodný spomenutia, napíšte nám. Aj vďaka vám si možno pripravíme pokračovanie tejto témy.