Slovák navrhol neurónové siete, ktoré rozpoznávajú emócie v hudbe
Úvodný obrázok zdroj: Pexels, Pixabay
Súčasný nárast sociálnych aplikácií umožňujúcich zdieľanie hudby priniesol vyššie nároky na funkcionalitu vyhľadávačov v hudbe. Dôsledkom tohoto posunu sa väčšina nových služieb začala orientovať na vyhľadávanie hudobného obsahu podľa emócií. Hoci používatelia častokrát nevedia akú skladbu presne hľadajú (nehľadia veľmi na emócie v hudbe), ale zdá sa, že majú jasnejšie predstavy o tom, akú emóciu chcú vyvolať. Automatické rozpoznávanie emócií spôsobených hudbou sa preto stalo dôležitou oblasťou výskumu, ktorého cieľom je priniesť riešenia pre ľahší a efektívnejší prístup k informáciám.
Emócie v hudbe nie sú ničím novým. Mnoho interpretov či skladateľov vkladá svoje vlastné emócie do hudby alebo si dávajú za úlohu vyvolať určité pocity u poslucháčov. Existujúce riešenia pre rozpoznávanie emócií v hudbe zahŕňa napr. Moodtrack, MusicSense, Moody, Mood Cloud, LyQ aj i.MTV. Jedným z najväčších problémov v tejto oblasti je skutočnosť, že emócie vyvolané hudbou sú subjektívneho charakteru. A tak sa modely na ich opísanie vo všeobecnosti rozdeľujú podľa toho, či sú kategorického alebo dimenzionálneho charakteru.
Zdroj: cdd20 , Pixabay
Kategorický model
Zameriava sa na charakteristiky, ktoré odlišujú jednu emóciu od druhej. Populárne riešenia sú založené na klasifikácii emócií do skupín ako je napríklad “šťastný”, “nahnevaný”, “smutný” alebo “uvoľnený”. Strojové učenie sa v tomto prípade aplikuje na trénovanie klasifikátora, spracovaním príznakov pre reprezentáciu akustických vlastností ako je farba zvuku, rytmus alebo harmónia.
Dimenzionálny model
Ten je zameraný na identifikáciu emócií na základe ich usporiadania v emočnej škále. Na mapovanie sa vo väčšine prípadov používa spojitý dvojrozmerný Valence-Arousal priestor.
Už viacerí sa snažili vo výskume zachytiť emócie. Mnohé riešenia aplikovali Gauss-ovské procesy pre dynamické rozpoznávanie emócií v hudbe, no výskum postupne začal využívať konvolučné a rekurentné neurónové siete. Medzinárodný tím vo svojej práci ukázal, že metóda spojitých podmienkových neurónových polí (CCNF) dosahuje lepšie výsledky ako predchádzajúce riešenia. V neskorších štúdiách sa ukázalo, že konvolučné a rekurentné siete dosahujú ešte lepšie výsledky ich skombinovaním. A to s podstatne nižším počtom potrebných parametrov.
Zdroj: Arek Socha, Pixabay
Úspech na domácej pôde
Na základe týchto zistení navrhol absolvent Žilinskej univerzity Ing. Miroslav Malík, PhD. v spolupráci s tímom Technologickej univerzity v Tampere (Fínsko), vlastné riešenia, ktoré sú tvorené hybridnou architektúrou v spojení konvolučnej a rekurentnej neurónovej siete so separátnou ako aj bez separátnej vetvy. Navrhnutá metóda je výkonnejšia a menej zložitá v porovnaní s vyššie uvedeným riešením, pretože prináša menší počet parametrov potrebných na klasifikáciu emócií. Bola porovnávaná aj s inými riešeniami, vyhodnotenými v rámci MediaEval benchmark testov, kde dosiahla najlepšie výsledky.
Sme radi, že tento úspech môžeme pripísať našim – slovenským prívržencom umelej inteligencie.
Zdroje:
A. Casey, R. Veltkamp, M. Goto, M. Leman, C. Rhodes, M. Slaney: Musical Interpretation In Improvised Human-Machine
Performance
J.C. Wang, Y.H. Yang, H.M. Wang, S.K. Jeng: The Acoustic Emotion Gaussians Model for Emotion-based Music Annotation and Retrieval
Malik, S. Adavanne, K. Drossos, T. Virtanen, D. Ticha, R. Jarina: Stacked convolutional and recurrent neural networks for music emotion recognition.