Keď sa prirodzený jazyk stal neefektívny

17. februára 2021 Andrej Novotný

Úvodný obrázok zdroj: Adi Goldstein, Unsplash

Ak ste už niekedy nútili počítač, aby sa z kopy šrotu zmenil na užitočnú vec a začal sa niečo učiť, určite ste narazili na problém (takmer) nekonečného čakania na použiteľný výsledok. Toto sa obzvlášť týka NLP (Natural Language Processing) modelov. Váš nadupaný model musí prechádzať každučkým slovkom vo vete, aj tým najmenej podstatným, aby skutočne pochopil význam celku. V súčasnosti nie je moc miesta, kde by sa dali posunúť súčasné NLP modely a vytvoriť nové je viac-menej neefektívne. Preto sa pár inžinierov z MIT rozhodlo zhotoviť nie len špecializovaný softvér, ale do balíka k nemu pripravili aj nablýskaný hardvér špeciálne určený na NLP problematiku.

„Spôsob akým NLP modely spracovávajú text je neefektívny,“ hovorí vedúci výskumu Hanrui Wang. „Model spracováva každé slovo a prikladá mu rovnakú váhu, aj keď nemá žiadny význam vo vete. Náš model pracuje celkom ako ľudský mozog. Vo svojej podstate sa sústredí iba na kľúčové slová a zanedbáva ostatné.“

Jedinečný systém

Systém SpAtten (Sparse Attention) vedcov MIT je dedikovaný na problémy ako je tento. Na úrovni hardvéru sa využíva spôsob paralelizmu úloh, t.j. zabezpečenie veľkého množstva výpočtov rozdelených medzi jadrá procesora za jeden tik hodín. Keď spúšťali záťažové testy, na konci dňa odchádzali s krásnymi výsledkami, kedy SpAtten dosahoval 100x kratší čas výpočtov ako na konkurenčných grafických kartách. Všetky testy však zatiaľ bežali iba v simulovanom prostredí, skutočný čip by chceli mať na stole už tento rok.

zdroj: Age Barros, Unsplash

Ak sa zameriame na vyššiu úroveň, a to softvér, zistíme ako SpAtten spracuváva text. Vyžíva techniku zvanú „cascade prunning“ – vo voľnom preklade kaskádové orezávanie -, ktoré sa snaží zabezpečiť menší objem dát pri počítaní. V momente, kedy mechanizmus deteguje kľúčové slová, SpAtten ich očistí od nepotrebných zvyšných slov. Tým sa výpočty značne urýchľujú a tu to nekončí. Na ešte väčšie zrýchlenie využívajú ďalšiu techniku „progressive quantization“, kedy sa systém snaží zredukovať dĺžku jedného slova na čo najkratšie možné napr. „computer program“ skráti na „cmptr prgrm“.

Sľubná budúcnosť

Vyžitie dynamickej dvojice SpAtten a pribaleného hardvéru vedci vidia hlavne v oblasti vývoja umelej inteligencie sústreďujúcej sa na spracovanie prirodzeného jazyka, čo znamená, že firmy pohybujúce sa v tomto biznise by mohli prejaviť obrovský záujem. Ďalšie využitie vidia v úspore energie, kedy by mohli NLP modely priniesť aj na mobilné zariadenia alebo do IoT zariadení, čím by sa niekoľkonásobne predĺžila životnosť batérie.

Na konci Wang pripomína že SpAtten sa sústreďuje na odstránenie redundancie a efektivitu pri výskume NLP a nezabúda vysloviť isté predpovede, že NLP modely, ktoré sú zriedkavo aktivované (Sparsely Activated) sú sľubnou vyhliadkou do budúcnosti. Neostáva dodať už nič iné len, že: „Nie všetky slová sú si rovné – treba sa sústrediť len na tie podstatné.“