Odtlačky mysle: Ako lingvistická analýza (štylometria) odhaľuje páchateľov

V histórii modernej forenznej vedy žiaria technológie ako DNA analýza, balistika či analýza odtlačkov prstov – exaktné metódy, ktoré dokážu spojiť páchateľa s miestom činu. Existuje však aj jedna, oveľa tichšia, subtílnejšia a psychologicky fascinujúcejšia disciplína, ktorá nepotrebuje krv, nábojnice ani fyzický kontakt. Pracuje s jediným dôkazom, ktorý za sebou zanecháva myseľ páchateľa: so slovami. Vitajte vo svete štylometrie, alebo forenznej lingvistickej analýzy – vedy, ktorá dokáže z anonymného textu, ako je výhražný list, blogový príspevok alebo správa na darknetovom fóre, extrahovať unikátny podpis autora s desivou presnosťou. Každý z nás má totiž svoj vlastný, zväčša nevedomý štýl písania, akýsi "lingvistický odtlačok prsta". Dnes v našej tejto kategórii preskúmame, ako táto metóda funguje, na akých princípoch je založená a ako pomohla odhaliť niektorých z najznámejších zločincov v histórii.

Čo je to štylometria a prečo je taká účinná?

Štylometria je na pomedzí lingvistiky, štatistiky a umelej inteligencie. Jej základným predpokladom je, že náš spôsob písania je definovaný stovkami drobných, automatických a nevedomých návykov, ktoré sa len veľmi ťažko vedome kontrolujú alebo menia. Nejde primárne o to, čo píšeme (obsah), ale o to, ako to píšeme (štruktúru a formu). Špecializovaný softvér dokáže analyzovať text a kvantifikovať tieto návyky, pričom sa zameriava na desiatky až stovky premenných: 

  • Lexikálne ukazovatele:
    • Priemerná dĺžka viet a slov: Používate skôr krátke a úderné vety, alebo dlhé a zložité súvetia? Aké bohatstvo slovnej zásoby máte?
    • Frekvencia slov: Najdôležitejšie nie sú obsahové slová (podstatné mená, slovesá), ktoré sa menia s témou, ale tie "funkčné" a nenápadné slová, ktoré používame automaticky – spojky, predložky, zámená (napr. "a", "ale", "ktorý", "však", "ako"). Ich relatívna frekvencia je u každého autora prekvapivo stabilná a ťažko sa falšuje.
  • Syntaktické ukazovatele:
    • Štruktúra viet: Začínate vety často príslovkou? Používate pasívny alebo aktívny rod? Aká je zložitosť vašich vetných konštrukcií?
  • Štrukturálne a idiosynkratické ukazovatele:
    • Používanie interpunkcie: Toto je extrémne silný identifikátor. Dávate medzeru pred otáznikom alebo výkričníkom? Používate často pomlčky, tri bodky, alebo úvodzovky špecifickým spôsobom? Píšete výkričníky v pároch ()?!!
    • Gramatické chyby a preferencie: Robíte opakovane tú istú, špecifickú gramatickú chybu (napr. zamieňate si "by" a "bi")? Preferujete určité slovné spojenia alebo slangové výrazy?

Spojením stoviek takýchto premenných dokáže algoritmus vytvoriť unikátny, multidimenzionálny matematický "podpis" autora. Keď potom má forenzný lingvista k dispozícii anonymný text ("korešpondencia od neznámeho páchateľa") a zároveň dostatočne veľké vzorky písania od viacerých podozrivých (ich e-maily, blogy, školské práce, listy), dokáže ich porovnať a so silnou štatistickou pravdepodobnosťou určiť, ktorý z podozrivých je najpravdepodobnejším autorom.

Prípady, kde slová usvedčili – Od Unabombera po Dark Web

1. Unabomber – Ted Kaczynski: Toto je absolútne najslávnejší prípad, kde lingvistická analýza zohrala kľúčovú rolu v dolapení nepolapiteľného teroristu. Po rokoch neúspešného pátrania po páchateľovi, ktorý posielal bomby univerzitám a aerolinkám, urobila FBI v roku 1995 zúfalý, no geniálny krok. Na žiadosť páchateľa zverejnili v denníkoch The New York Times a The Washington Post jeho rozsiahly, 35 000-slovný manifest "Industriálna spoločnosť a jej budúcnosť". David Kaczynski, ktorý so svojím bratom Tedom roky nebol v kontakte, si pri čítaní manifestu všimol, že štýl písania a niektoré unikátne, takmer až archaické frázy (napríklad "You can't eat your cake and have it too" namiesto bežného "You can't have your cake and eat it too") mu nápadne pripomínajú staré listy, ktoré mu jeho brat písal. Kontaktoval FBI, ktorá následne podrobila manifest a Tedove listy detailnej lingvistickej analýze. Zhoda bola taká vysoká, že to viedlo k získaniu povolenia na prehliadku a nakoniec k zatknutiu Teda Kaczynskeho.

2. Zodiac a nové analýzy: Aj v prípade Zodiaca, o ktorom sme už písali, zohráva štylometria dôležitú rolu v modernom vyšetrovaní. Hoci vrah nebol chytený, jeho početné listy a pohľadnice sú pre lingvistov zlatou baňou. Analytici a umelá inteligencia neustále analyzujú jeho špecifické pravopisné chyby (napr. "Christmass" namiesto "Christmas"), jeho obmedzenú slovnú zásobu a štruktúru viet. Tieto "odtlačky" sa potom porovnávajú so spismi a známymi textami hlavných podozrivých, ako bol Arthur Leigh Allen. Hoci výsledky nie sú zatiaľ jednoznačné a nedokážu ho priamo usvedčiť, lingvistická analýza pomohla vylúčiť niektorých iných podozrivých a spresniť psychologický a vzdelanostný profil páchateľa.

3. Odhalenie na Dark Webe (Prípad Gal Vallerius): Účinnosť štylometrie sa dramaticky ukazuje aj v boji proti anonymným aktérom v digitálnom podsvetí. Dokonalým príkladom je fascinujúci prípad Gala Valleria, administrátora trhoviska Dream Market. Práve jeho príbeh sme do hĺbky analyzovali v samostatnom spise na našom partnerskom blogu, ktorý sa venuje svetu Dark Webu, kde sme ukázali, ako bol "OxyMonster" odhalený. Vyšetrovatelia ho totiž dolapili, pretože porovnali jeho unikátny štýl písania (používanie slova "cheers", dvojité výkričníky) s verejnými príspevkami Gala Valleria na jeho Instagrame a Twitteri.

Na záver môžeme povedať len toľko, že štylometria nie je magická guľa a jej výsledky samy o sebe nie sú vždy 100% dôkazom viny. V kombinácii s inými dôkazmi je to však neuveriteľne mocný investigatívny nástroj, ktorý dokáže v mori textu nájsť stopu, ktorá je pre ľudské oko takmer neviditeľná. Ukazuje, že aj v anonymnom digitálnom svete zanechávame za sebou stopy – nielen v kóde a finančných transakciách, ale aj v tom najzákladnejšom a najosobnejšom prejave našej identity: v spôsobe, akým skladáme slová.

Komentáre

Obľúbené príspevky