Odtlačky mysle: Ako lingvistická analýza (štylometria) odhaľuje páchateľov
V histórii modernej forenznej vedy žiaria technológie ako DNA analýza, balistika či analýza odtlačkov prstov – exaktné metódy, ktoré dokážu spojiť páchateľa s miestom činu. Existuje však aj jedna, oveľa tichšia, subtílnejšia a psychologicky fascinujúcejšia disciplína, ktorá nepotrebuje krv, nábojnice ani fyzický kontakt. Pracuje s jediným dôkazom, ktorý za sebou zanecháva myseľ páchateľa: so slovami. Vitajte vo svete štylometrie, alebo forenznej lingvistickej analýzy – vedy, ktorá dokáže z anonymného textu, ako je výhražný list, blogový príspevok alebo správa na darknetovom fóre, extrahovať unikátny podpis autora s desivou presnosťou. Každý z nás má totiž svoj vlastný, zväčša nevedomý štýl písania, akýsi "lingvistický odtlačok prsta". Dnes v našej tejto kategórii preskúmame, ako táto metóda funguje, na akých princípoch je založená a ako pomohla odhaliť niektorých z najznámejších zločincov v histórii.
Čo je to štylometria a prečo je taká účinná?
Štylometria je na pomedzí lingvistiky, štatistiky a umelej inteligencie. Jej základným predpokladom je, že náš spôsob písania je definovaný stovkami drobných, automatických a nevedomých návykov, ktoré sa len veľmi ťažko vedome kontrolujú alebo menia. Nejde primárne o to, čo píšeme (obsah), ale o to, ako to píšeme (štruktúru a formu). Špecializovaný softvér dokáže analyzovať text a kvantifikovať tieto návyky, pričom sa zameriava na desiatky až stovky premenných:
- Lexikálne
ukazovatele:
- Priemerná
dĺžka viet a slov: Používate skôr krátke a úderné vety, alebo
dlhé a zložité súvetia? Aké bohatstvo slovnej zásoby máte?
- Frekvencia
slov: Najdôležitejšie nie sú obsahové slová (podstatné mená,
slovesá), ktoré sa menia s témou, ale tie "funkčné" a nenápadné
slová, ktoré používame automaticky – spojky, predložky, zámená (napr.
"a", "ale", "ktorý", "však",
"ako"). Ich relatívna frekvencia je u každého autora prekvapivo
stabilná a ťažko sa falšuje.
- Syntaktické
ukazovatele:
- Štruktúra
viet: Začínate vety často príslovkou? Používate pasívny alebo
aktívny rod? Aká je zložitosť vašich vetných konštrukcií?
- Štrukturálne
a idiosynkratické ukazovatele:
- Používanie
interpunkcie: Toto je extrémne silný identifikátor. Dávate
medzeru pred otáznikom alebo výkričníkom? Používate často pomlčky, tri
bodky, alebo úvodzovky špecifickým spôsobom? Píšete výkričníky v pároch
()?!!
- Gramatické
chyby a preferencie: Robíte opakovane tú istú, špecifickú
gramatickú chybu (napr. zamieňate si "by" a "bi")?
Preferujete určité slovné spojenia alebo slangové výrazy?
Spojením stoviek takýchto premenných dokáže algoritmus
vytvoriť unikátny, multidimenzionálny matematický "podpis" autora.
Keď potom má forenzný lingvista k dispozícii anonymný text
("korešpondencia od neznámeho páchateľa") a zároveň dostatočne veľké
vzorky písania od viacerých podozrivých (ich e-maily, blogy, školské práce,
listy), dokáže ich porovnať a so silnou štatistickou pravdepodobnosťou určiť,
ktorý z podozrivých je najpravdepodobnejším autorom.
Prípady, kde slová usvedčili – Od Unabombera po Dark Web
1. Unabomber – Ted Kaczynski: Toto je absolútne
najslávnejší prípad, kde lingvistická analýza zohrala kľúčovú rolu v dolapení
nepolapiteľného teroristu. Po rokoch neúspešného pátrania po páchateľovi, ktorý
posielal bomby univerzitám a aerolinkám, urobila FBI v roku 1995 zúfalý, no
geniálny krok. Na žiadosť páchateľa zverejnili v denníkoch The New York Times a
The Washington Post jeho rozsiahly, 35 000-slovný manifest "Industriálna
spoločnosť a jej budúcnosť". David Kaczynski, ktorý so svojím bratom Tedom
roky nebol v kontakte, si pri čítaní manifestu všimol, že štýl písania a
niektoré unikátne, takmer až archaické frázy (napríklad "You can't eat
your cake and have it too" namiesto bežného "You can't have your cake
and eat it too") mu nápadne pripomínajú staré listy, ktoré mu jeho brat
písal. Kontaktoval FBI, ktorá následne podrobila manifest a Tedove listy
detailnej lingvistickej analýze. Zhoda bola taká vysoká, že to viedlo k
získaniu povolenia na prehliadku a nakoniec k zatknutiu Teda Kaczynskeho.
2. Zodiac a nové analýzy: Aj v prípade Zodiaca,
o ktorom sme už písali, zohráva štylometria dôležitú rolu v modernom
vyšetrovaní. Hoci vrah nebol chytený, jeho početné listy a pohľadnice sú pre
lingvistov zlatou baňou. Analytici a umelá inteligencia neustále analyzujú jeho
špecifické pravopisné chyby (napr. "Christmass" namiesto
"Christmas"), jeho obmedzenú slovnú zásobu a štruktúru viet. Tieto
"odtlačky" sa potom porovnávajú so spismi a známymi textami hlavných
podozrivých, ako bol Arthur Leigh Allen. Hoci výsledky nie sú zatiaľ jednoznačné
a nedokážu ho priamo usvedčiť, lingvistická analýza pomohla vylúčiť niektorých
iných podozrivých a spresniť psychologický a vzdelanostný profil páchateľa.
Na záver môžeme povedať len toľko, že štylometria nie je magická guľa a jej výsledky samy o sebe nie sú vždy 100% dôkazom viny. V kombinácii s inými dôkazmi je to však neuveriteľne mocný investigatívny nástroj, ktorý dokáže v mori textu nájsť stopu, ktorá je pre ľudské oko takmer neviditeľná. Ukazuje, že aj v anonymnom digitálnom svete zanechávame za sebou stopy – nielen v kóde a finančných transakciách, ale aj v tom najzákladnejšom a najosobnejšom prejave našej identity: v spôsobe, akým skladáme slová.





Komentáre
Zverejnenie komentára