Detekcia falošných správ (Fake News)

24. júna 2019 Ing. Barbora Tináková

Ak čítate správy na internete, s istotou ste už niekedy mali dočinenia s falošnou správou. Tieto nepravdivé či zavádzajúce správy existujú už od nepamäti. Avšak v časoch, keď má na nás internet a najmä sociálne siete taký veľký vplyv, je to obzvlášť nebezpečný jav. Podľa Jumpshot bol napr. Facebook v roku 2016 médiom pre prenos 50% falošných správ. Mnohí ľudia sa informujú čo sa deje iba na základe správ cez sociálne siete. A týmto správam slepo veria bez toho, aby si overili ich dôveryhodnosť.

Šírenie falošných správ môže spôsobiť mnoho problémov. Keďže nie je nijako možné manuálne overovať všetky uverejnené správy kvôli ich enormnému množstvu, veľmi by pomohol nástroj, ktorý by ich vedel kontrolovať automaticky a sám určiť ich dôveryhodnosť.

Zdroj: pixel2013, Pixabay

Výskum v tejto oblasti funguje už dlho. Vytvoriť dostatočne dobrý nástroj na riešenie tohto problému vôbec nie je jednoduché. Boli tu testované rôzne prístupy, ktoré boli rôznymi kombináciami psychológie, sociológie, dolovania dát či strojového učenia.

Model CSI

Falošná správa má 3 hlavné charakteristiky: obsah správy, zdroj z ktorého je správa šírená a reakcie čitateľov. Doterajšie pokusy sa zameriavali väčšinou len na jednu konkrétnu charakteristiku. V kalifornskom výskume to však skúsili tak, že sa zamerali sa na všetky dokopy. Vytvorili model s názvom CSI (z angl. Capture, Score, Integrate) pozostávajúci z troch modulov.

Prvý z modulov analyzuje obsah článku a reakcie používateľov. Používa na to rekurentné neurónové siete, aby zachytil potrebné závislosti. Druhý z modulov sa učí charakteristiky zdroja, taktiež na základe správania sa používateľov. Posledný modul potom spojí výsledky oboch predošlých a vykoná finálne vyhodnotenie, či ide o zavádzajúci článok alebo nie.

Vytvorený model bol následne natrénovaný na veľkom množstve existujúcich správ s cieľom naučiť ho správne rozoznávať pravdivé a nepravdivé správy, na základe už vyhodnotených správ. Boli na to použité dve voľne dostupné databázy Twitter a Weibo, ktoré obsahujú obrovské množstvo správ a diskusných príspevkov z reálneho sveta.

Zdroj: Photo Mix, Pixabay

Výsledky, ktoré následne s týmto modelom dosiahli sú sľubné. Na datasete Twitter dosiahli presnosť označovania správ na úrovni 89,2% a na datasete Weibo dokonca až 95,3%. Aj napriek povzbudivým výsledkom uvedeného výskumu ostáva odhaľovanie falošných správ neustále veľkou výzvou. Jedným zo spôsobov, ako tieto výsledky ešte vylepšiť, by možno bolo zahrnúť do modelu učenie odmeňovaním a tzv. crowd sourcing, teda do učiaceho procesu modelu zapojiť aj ľudí.

Zdroj:

Natali Ruchansky, Sungyong Seo, Yan Liu: CSI: A Hybrid Deep Model for Fake News Detection