Techniky spracovania prirodzeného jazyka – NLP

Pozrime sa bližšie na to, ako NLP (z ang. Natual Language Processing, ďalej len skratka NLP), spracovanie prirodzeného jazyka, funguje. Bežná hovorená komunikácia či správy na sociálnych sieťach, predstavujú pre program neštruktúrované dáta. Na zachytenie významu týchto slov vieme veľmi efektívne použiť strojové učenie. Cieľom NLP je s jeho použitím spracovať neštruktúrované dáta tak, aby s nimi vedeli pracovať relačné databázy, kde budú k dispozícii pre ich ďalšie spracovanie.

Syntaktická analýza

Keď program potrebuje vyhodnotiť vstup napr. písaného textu, potrebuje si ho upraviť. Sami dobre vieme, že určité veci vieme opísať viacerými spôsobmi. Používame homonymá (rovnako znejúce slová s rôznym významom) a synonymá (rozdielne slová s rovnakým významom). Čo urobí systém s takou vetou?

Rozdelenie vety na kúsky (tokenization)

S vetou na tri riadky si systém neporadí. Rovnako pre neho môže byť zložitá aj veta so štyrmi slovami. Pomocou tejto techniky si celú vetu rozdelí na samostatné slová, tokeny, s ktorými bude ďalej pracovať. Napr. veta Hladný kuchár varí polievku bude vyzerať nasledovne.

Stemovanie (stemming)

V tomto kroku sa odstránia predpony a prípony, rovnako sa slovo aj normalizuje. V praxi to znamená, že slovo odlet sa upraví na tvar let.

Lematizácia (lemmatization)

Tokeny sa upravujú na základný tvar, ako ho nájdeme napr. v slovníku. To znamená, že napr. vyčasované slovesá či vyskloňované podstatné mená, si program nastaví na základný tvar, napr. šiel => ísť, jablkami => jablko.

Parsovanie (parsing)

Okrem úpravy slov na základný tvar sa slová rozoberú z hľadiska vetnej štruktúry, to znamená, rozdelenie podmetovej a prísudkovej časti a následne klasifikácia týchto častí. Systém robí v tomto bode tzv. parsovací strom.

Sémantická analýza

Moduly pracujú aj samostatne, avšak ich prepojenie môže ušetriť čas. Sémantika dokáže rozlúštiť význam vety niekedy skôr ako syntax, ktorý by rozoberal slovo za slovom (napr. ak by vo vete bolo slovo pero alebo kohútik).

Na to, aby sme predložený text dostali dokonale preložený, alebo sa audio záznam prekonvertoval na 100 % korektný text, si budeme musieť ešte počkať. Ľudský jazyk je totiž veľmi zložitý a obsahuje rôzne výnimky, dialekty a pod.

Zdroj:

https://becominghuman.ai/a-simple-introduction-to-natural-language-processing-ea66a1747b32

Pridaj komentár

Vaša e-mailová adresa nebude zverejnená.