Algoritmy strojového učenia III. – Učenie formou odmeňovania

14. júna 2019 Ing. Juraj Muráň

Osobitnou kategóriou algoritmov strojového učenia je učenie formou odmeňovania (Reinforcement learning). V tomto prípade už na trénovanie modelu nepoužijeme žiadne označené, či neoznačené trénovacie príklady. Učenie tu prebieha tak, že vytvoríme systém – agenta, ktorého nasadíme do prostredia a necháme ho nech sa učí prostredníctvom interakcie s prostredím.

Jediné čo mu musíme určiť, sú pravidlá ako sa môže v danom prostredí správať a tzv. odmeňovaciu funkciu. Pomocou nej vie agent vyhodnotiť, či rozhodnutie, ktoré práve vykonal bolo preňho prospešné alebo nie. Následne metódou pokus-omyl podobne ako človek skúša jednotlivé možnosti a naučí sa ako sa má ideálne správať v jednotlivých situáciách.

Zhruba na takomto princípe funguje algoritmus Q-learning, či Deep Q-learning. Modelovým príkladom pre učenie formou odmeňovania je hra šach, kde vytvoríme agenta, definujeme mu povolené ťahy a pravidlo pre výhru. Odmeníme ho, ak vyradí súperovu figúrku alebo vyhrá, potrestáme ho, ak je vyhodená jeho figúrka alebo prehrá. Následne ho necháme, nech si zahrá sám proti sebe niekoľko (miliónov) partií. Výsledkom je umelá inteligencia, ktorú neporazia ani najväčší šachoví veľmajstri. (pozn. počítač Deep blue vyhral nad majstrom Kasparovom v roku 1997).

Zdroj: Phil Shaw, Pixabay.com

Strojové učenie umožňuje spracovanie a analýzu obrovského množstva dát. V mnohých oblastiach už dosahuje rýchlejšie a presnejšie výsledky ako človek, môže však vyžadovať veľké množstvo času a zdrojov na natrénovanie. Najkritickejšou je však potreba dostatočného množstva kvalitných dát na trénovanie. To dnes ale vôbec nie je problém, a to vďaka konceptu Big data a neustále narastajúcemu počtu voľne dostupných datasetov.

Zdroje:

https://www.expertsystem.com/machine-learning-definition/

https://towardsdatascience.com/types-of-machine-learning-algorithms-you-should-know-953a08248861

https://blog.brainstation.io/machine-learning-supervised-unsupervised-reinforcement/

https://machinelearningmastery.com/supervised-and-unsupervised-machine-learning-algorithms/