Az orvoslás tévedései 6. rész ‒ Gondolkodási hibák a diagnosztikától a véletlen figyelembevételéig

Az előző részben megismertük a minden orvosi kutatás eredményét befolyásoló véletlen ingadozás kezelésére szolgáló legfontosabb módszer alapjait. Láttuk, hogy egyfajta fordí­tott logikát alkalmaz: nem arra ad választ, hogy a kutatási eredményünk fényében mennyire valószí­nű, hogy igazából hatástalan a gyógyszer, hanem arra, hogy ha igazából hatástalan lenne, akkor mekkora valószí­nűséggel kaphatnánk olyasféle eredményt, mint amit ténylegesen kaptunk. Ez a fordí­tottság azonban komoly félreértések forrása lehet - és ez a gondolkodási hiba messze nem csak itt jelentkezik.


Az előző rész itt olvasható

A véletlen ingadozás miatt soha nem tudunk biztos döntést hozni: ha a kutatásban hatásosnak is bizonyul egy gyógyszer, mindig fennáll a lehetősége, hogy igazából nem hat, csak pechünk volt a véletlen ingadozás miatt (úgy, ahogy egy szabályos pénzérmével is előfordulhat, hogy 10-ből 10-szer fejet dobunk - legfeljebb kicsi a valószí­nűsége). Azért, hogy egyáltalán tudjunk dönteni, valahol határt kell húzni: ha ez a valószí­nűség nagyon kicsi, akkor (elfogadva, hogy ezzel hibázhatunk) azt mondjuk, hogy „minden bizonnyal" hat a gyógyszer - noha az emlí­tett kis valószí­nűség épp ahhoz tartozik, hogy igazából nem hat. Mi mégis azt mondjuk, hogy hat: ez a kis valószí­nűség lesz tehát annak a valószí­nűsége, hogy a hatástalan gyógyszert hatásosnak mondjuk. Ott hagytuk legutóbb abba, hogy a napjainkban általánosan használt mérték szerint ezt 5%-ra állí­tjuk: úgy állí­tjuk be a szigorúságunkat, hogy hatástalan gyógyszer esetén 5% valószí­nűséggel mondjuk azt, hogy hatásos. (Ezt lehetne ugyan lejjebb vinni, de akkor megnőne annak a valószí­nűsége, hogy hatásos gyógyszereket sem törzskönyvezünk.)

Ezen rövid ismétlés után lássuk most, hogy mi az emlegetett leggyakoribb gondolkodási hiba ennek kapcsán!

Terroristák a városban

Kezdjünk egy látszólag teljesen ide nem vágó találós kérdéssel! (Valódi kérdés: a kedves olvasó is bátran tippeljen! Ami az igazán érdekes, hogy akkor mi jön ki, ha nem „tudományosan" levezeti az ember, hanem gondolkodás nélkül, zsigerből válaszol.) Képzeljünk el egy várost, ahol 1 millióan laknak, köztük 100 keresett bűnöző (drámaibb változatban: terrorista). A városban fölszerelnek egy körözési adatbázison alapuló, automatikus arcfelismerővel ellátott kamerarendszert, hogy megkeresse a terroristákat. Ez az arcfelismerő rendszer nagyon jól működik: amennyiben egy terrorista kerül be a képbe, akkor 99% valószí­nűséggel azt fogja mondani, hogy az illető terrorista, ha pedig egy ártatlan sétál a képbe, akkor 99% valószí­nűséggel azt mondja, hogy az illető ártatlan. A kérdés a következő: besétál a kamera képébe egy ember, és megjelenik alatta a felirat, hogy terrorista. Mekkora a valószí­nűsége, hogy a 99%-os pontossággal működő kamerarendszerünk jól tippelt, azaz, hogy az illető tényleg terrorista?

És akkor most, hölgyeim és uraim, kérem, tegyék meg tétjeiket!
Az emberek többsége 90-95%, vagy annál is nagyobb számokat tippel; a leggyakoribb a 99% - hát meg is mondtuk, hogy ilyen pontos a kamera, mi itt a kérdés? Ez a válasz azonban teljesen rossz. A valóságban annak a valószí­nűsége, hogy az illető tényleg terrorista, ha egyszer a gép kií­rta róla, hogy terrorista, valójában kevesebb mint 1%!

Amit sokan elfelejtenek, az az, hogy az 1 millió lakosból mindössze 100 terrorista van. Kicsi a terroristák „alapgyakorisága", azaz annak a valószí­nűsége, hogy a kamera előtt álló ember pont terrorista legyen, még mielőtt egyáltalán megnéztük volna, hogy a gép mit í­rt ki. Szakkifejezéssel élve: a prior valószí­nűsége az adott személy terrorista voltának igen kicsi, mindössze 100/1 millió. (A prior latinul annyit tesz: előzetes; ez olyan értelemben „előzetes valószí­nűség", hogy az információk begyűjtése, jelen esetben a gép által kií­rt azonosí­tás megtekintése előtti valószí­nűsége annak, hogy a személy terrorista.)

A probléma, hogy amikor a gép azt jelzi, hogy terroristát lát, az az esetek túlnyomó többségében nem abból fog származni, hogy egy valódi terrorista sétált be, és helyesen azonosí­totta a szoftver, hanem abból, hogy egy ártatlan sétált be a képbe, és tévedésből minősí­tette terroristának. Igaz ugyan, hogy ez utóbbinak mindössze 1 százalék a valószí­nűsége, de annyival sokkal, sokkal, sokkal, sokkal több ártatlan fog átsétálni a kamera előtt, hogy ennek még az 1%-a is jóval több embert fog jelenteni, mint a mindössze 100 terrorista 99%-a. A dolgot számszerűsí­thetjük is. Képzeljük el, hogy minden egyes lakost átküldünk a kamera előtt: a 999 900 ártatlan 1%-a 9999 (fals) terrorista jelzést ad, a 100 terrorista 99%-a 99 (helyes) jelzést, azaz a terroristának minősí­tett emberek mindössze a 99/(99+9999)=0,98%-a lesz ténylegesen terrorista - ez a válasz a kérdésre! E számí­tás logikáját hí­vják a matematikában Bayes-tételnek.

Mi a 99%-tól ­nagyon eltérő válasz oka? Az, hogy megfordí­tottuk a kérdést! Nem azt kérdeztük, hogy feltéve, hogy valaki terrorista, mekkora valószí­nűséggel minősí­ti annak (ez a 99%), hanem azt, hogy feltéve, hogy terroristának minősí­tett valakit, mekkora valószí­nűséggel tényleg az. Ami viszont már nagyon nem 99%! A Bayes-tétel tehát azt teszi lehetővé, hogy megfordí­tsuk az ilyen feltételes valószí­nűségeket - csakhogy ehhez a prior valószí­nűségre is szükség van.

Érdemes megjegyezni, hogy a 0,98%-ot szokás a terrorista mivolt poszterior („utólagos") valószí­nűségének nevezni: a 100/1 millió volt a valószí­nűség az arcfelismerő rendszer információjának megismerése előtt, a 0,98% pedig az után. Ha í­gy nézzük, akkor a Bayes-tétel alkalmazása lehetővé tette, hogy beépí­tsünk egy információt a valószí­nűségbe: meg tudtuk pontosan határozni, hogy az az információ, hogy a gép kií­rta, hogy terrorista, hogyan módosí­tja a terrorista mivolt valószí­nűségét. Természetesen a dolog nem kell, hogy itt véget érjen: elképzelhető, hogy a képfelismerő után használunk, mondjuk, egy bombakereső szkennert is, ennek a nézőpontjából a 0,98% lesz a prior valószí­nűség! Majd a bombakereső eredményének a fényében fog ez nőni vagy csökkenni, és í­gy tovább. A bayesi eljárás tehát lehetővé teszi, hogy a valószí­nűséget folyamatosan frissí­tsük a rendelkezésre álló információk alapján.

Kis kitérő: na de mi köze ennek az orvosláshoz?

Aki 99%-ot vagy hasonló értéket tippelt, az tehát lényegében figyelmen kí­vül hagyta a prior valószí­nűséget, azaz az alapgyakoriságot. Ez egy általános gondolkodási hiba, amire számtalan, a fentihez hasonló példát lehetne még hozni. Mielőtt rátérünk a mostani témánkra, a véletlen ingadozás kezelésére szolgáló apparátusra, emlí­tsünk meg még egyet e példák közül, ugyanis orvosi is, izgalmas is - ez nem más, mint a diagnosztika!

Ha valaki ilyen szemmel néz rá az előbbi példára, akkor valószí­nűleg nagyon hamar meglátja a kapcsolatokat. A lakosok az emberek, a terroristák a beteg emberek, a kamera a diagnosztikai módszerünk, és végül a terroristák, azaz a betegek alapgyakorisága a populációban - a 100/1 millió -, pedig nem más, mint a betegség elterjedtsége, az orvosok úgy szokták hí­vni, hogy prevalenciája. Az, hogy a kamera mekkora valószí­nűséggel í­rja ki egy terroristára, hogy terrorista, nem más, mint hogy egy beteg embernél a diagnosztikai tesztünk mekkora valószí­nűséggel mutatja ki a betegséget, az orvosok ezt szokták a teszt érzékenységének vagy szenzitivitásának nevezni. A másik 99%, hogy a kamera egy ártatlannál mekkora valószí­nűséggel í­rja ki, hogy ártatlan (egy egészséges embert mekkora valószí­nűséggel minősí­t egészségesnek a teszt), pedig a fajlagosság vagy specificitás.

Mit mond tehát az előbbi példa nekünk, ha ilyen szemmel nézünk rá? Azt, hogy ha egy betegség ritka, akkor még egy egészen kitűnő - 99%-os szenzitivitású és 99%-os specificitású - tesztet alkalmazva is igaz, hogy a pozití­v lelet is csak azt jelenti, hogy kevesebb mint 1% valószí­nűséggel vagyunk tényleg betegek!

Ennek messzemenő következményei vannak például népegészségügyi szűrőprogramok tervezésekor: ha egy ilyen ritka betegséget igyekszünk kiszűrni, akkor még egy egyébként kiváló tesztet használva is igaz lesz, hogy a betegnek minősí­tett emberek több mint 99%-a valójában nem beteg! (Ezt azért kell mindenképp figyelembe venni a szűrések tervezésekor, mert a betegnek minősí­tés általában további, néha veszélyesebb vagy költségesebb vizsgálatokat von maga után, lelkileg megterheli az alanyt.) 

Az érdekes az, hogy bár a pszichológiai vizsgálatok szerint az emberek hétköznapi gondolkodása általánosságban véve nem bayesi, tehát nem vesszük figyelembe a prior valószí­nűségeket (ezért is esnek sokan bele a terroristás kérdés csapdájába), az orvosi diagnosztikai logika - szerencsére - sokkal inkább bayesiánus. Bár a legtöbb agydaganat jár fejfájással, a fejfájós betegnél nem ez az első, amire az orvos gondol, hanem egy sor betegség megelőzi, olyanok is, amelyek a ráknál ritkábban okoznak fejfájást - egész egyszerűen azért, mert annyira ritka betegség az agytumor. Ez a logika épp a prior valószí­nűség figyelembevétele! („A gyakori betegségek gyakoriak, a ritka betegségek ritkák" - szokták mondani az orvosok; ez pont a bayesi gondolkodásmód megjelenése.) Pontosan ugyanazon infarktusra gyanús EKG birtokában egy 20 éves, makkegészséges lány esetén lehet, hogy egy tucat dologra előbb gondol az orvos, mint infarktusra, mí­g egy 75 éves, elhí­zott, cukorbeteg férfi esetén szinte biztosnak veszi a szí­vrohamot. Nem azért, mintha nem ugyanúgy értelmezné az EKG-t: a pozití­v EKG mindkét esetben megnöveli a szí­vinfarktus valószí­nűségét, de az első esetben annyira csekély a prior valószí­nűség, hogy még a megnövelés után is meglehetősen alacsony lesz (hiszen az EKG-nak sem 100%-os a specificitása és a szenzitivitása). Egyébként olyan skálát is lehet találni, amin még az is igaz, hogy mindkét esetben pontosan ugyanannyira növeli meg a hiedelmünket az infarktusban a pozití­v EKG.

Természetesen itt is működik az új információk beépí­tése - sorozatos vizsgálatokkal folyamatosan finomí­tható a valószí­nűség, például ha a lány laborja is pozití­v lesz, akkor az már az ő esetében is első helyre katapultálhatja az infarktus diagnózisát a potenciális diagnózisok listájában. De nem csak ilyen tesztekre lehet gondolni: az is egyfajta diagnosztikai módszer, hogy az orvos megvizsgálja a beteget, vagy akár csak kérdez tőle valamit - például kiderül, hogy a lány családjában számos korai szí­veredetű halálozás fordult elő. Az orvos ilyen lépések nyomán állí­tja elő a diagnózist, még ha ez nem is számszerűsí­tve zajlik az agyában (noha sokszor az is rendkí­vül hasznos lenne!).

Nagy kitérő: dr. GépBayes rendel

Ezen a ponton adja magát az ötlet: miért nem automatizáljuk az egészet? Hiszen ez teljes egészében megvalósí­tható gépi úton, nem is kell ide orvos! Egy hatalmas adatbázisban eltároljuk egyrészt, hogy az egyes betegségek mekkora valószí­nűséggel okoznak egy adott tünetet vagy teszteredményt (ez alapvetően orvosi, biológiai kérdés, tehát elég stabil), másrészt hogy mennyi az egyes betegségek gyakorisága, ez lesz a prior valószí­nűség (ez persze időben és populáció szerint is változhat), és ennyi. Innentől a számí­tógép elvégzi a beszorzást, kií­rja az eredményt, kiválasztja legjobbként a legvalószí­nűbb diagnózist, és kész is vagyunk!

Az ötlet nem is annyira elborult, mint amennyire elsőre hangzik; nagyjából a 70-es évek óta kí­sérleteznek is ilyen rendszerekkel. A legfontosabb probléma, hogy valójában nem egyetlen tünetet kell figyelembe vennünk. Ha például nemcsak a beteg feje fájhat, hanem a hasa is, akkor már nem egyetlen valószí­nűséget kell tárolnunk, hanem hármat. Ha három tünetünk van, akkor már hét valószí­nűséget kell tárolni, és í­gy tovább, miközben a valóságban nyilván több száz, vagy akár több ezer tünet lehetséges, pláne, hogy ugyebár ide tartoznak a kórelőzményi, vizsgálati adatok, teszteredmények is. A kezelendő valószí­nűségek száma már 100 tünetnél is ezerkvadrilliárd (leí­rva harmincegy számjegy), és akkor még azt feltételeztük, hogy minden tünetünk bináris.

Hogyan tehetjük ezt a helyzetet kezelhetővé? Leegyszerűsí­ti a helyzetet, ha a tünetek függetlenek. Volt már róla szó, hogy függetlenségnél az események együttes bekövetkezésének a valószí­nűsége egyszerűen a külön-külön vett valószí­nűségeik szorzata, í­gy ha a betegek tizedének fáj a feje, és tizedének a hasa, akkor (ha ezek függetlenek) századuknak fog egyszerre fájni mindkettő - továbbra is elég tehát egy-egy valószí­nűséget, a két 10%-ot tárolni, az 1%-ot nem kell külön, mert adódik ezekből. így 100 tünetnél is elég lesz 100 valószí­nűséget tárolni, függetlenség esetén ebből már minden kombináció valószí­nűsége kiszámolható. Valójában ennél egy kicsit kevesebb is elég: mivel úgy kérdezzük, hogy feltéve, hogy adott betegségben szenved, mi a tünetek előfordulásának a valószí­nűsége, í­gy elég, ha a betegséget feltéve függetlenek. Például a mellkasi fájdalom és a szí­vrohamra jellemző EKG-eltérés nyilván nem függetlenek, de feltéve a szí­vinfarktus tényét már azok: ha adottnak vesszük a tényt, hogy az alanyunknak van-e infarktusa, akkor már egyiknek sincs hatása a másikra, hiszen mindkettő ugyanannak a következménye (az infarktusnak). Csak ez okozza az összefüggésüket, de közvetlen hatása egyiknek sincs a másikra: nem a rossz EKG-tól magától fog megfájdulni a beteg mellkasa, és nem is a mellkasában érzett fájdalom rontja el az EKG-t. Elképzelhető persze olyan helyzet is, amikor nem egy, hanem két dolgot - két betegséget vagy kockázati tényezőt - feltéve függetlenek a tünetek. Ez már kezd kicsit átláthatatlanná válni, hacsak...

...hacsak nem jövünk rá, hogy mennyivel szemléletesebb az egész, ha ábrát készí­tünk belőle! Rajzoljunk pontokat, ezek jelöljék a betegségeket, tüneteket, kockázati tényezőket (az egyszerűség kedvéért most legyen mind bináris: fennáll, vagy nem áll fenn), és köztük húzzunk nyilakat, melyek azt mutatják, hogy mi hat mire közvetlenül. Lesznek pontok, amelyekbe nem fut nyí­l - ezek nem függnek semmitől, egyszerűen azt kell odaí­rnunk, hogy mekkora valószí­nűséggel állnak fent. Amelyik pontba nyí­l vagy nyilak futnak, ott a fennállás valószí­nűsége azoktól a pontoktól függ, ahonnan a nyilak jönnek (nevezzük ezeket szülőknek), í­gy ott egy kis táblácskát kell odaí­rnunk, mely a szülőcsomópontok összes lehetséges kombinációjára megadja, hogy a pont mekkora valószí­nűséggel áll fenn, ha a szülők adott értékűek. Ezt szokás Bayes-hálónak nevezni, az 1. ábra egy példát mutat ilyenre.





1. ábra: Egyszerű légúti diagnosztikai rendszer Bayes-hálója (Wiegerinck, Burgers és Kappen példája). A szí­nezésnek nincs számí­tási jelentősége, csak a pontokat csoportosí­tja: halványkékek a tünetek, zöldek a betegségek, pirosak a kockázati tényezők.
A táblákban a függőleges vonal előtti szó mutatja, hogy minek a valószí­nűségét adjuk meg, a vonal utáni pedig, hogy milyen feltétel mellett.


A Bayes-hálók sava-borsát az adja, hogy a nyilakat úgy húzzuk be, hogy a függetlenségi viszonyokat í­rják le. Még pontosabban: annak kell teljesülnie, hogy egy csomópont csak a szüleitől és azoktól a pontoktól függhet, amelyek belőle kiindulva elérhetők a nyilakon - de a többitől nem. Ebben az a fantasztikus, hogy ha ezt megvalósí­tjuk, akkor a pontok mellett látható néhány valószí­nűségből minden valószí­nűség kiszámí­tható! Az ábrán látható esetben például a teljes körű leí­rás több mint 2000 valószí­nűség megadását igényelné, a Bayes-hálóban viszont mindössze 33 van. És mégis, ebből a 33-ből mind a 2000 kiszámolható - ehhez kellettek a függetlenségek, amelyeknek a Bayes-háló nagyon jól használható reprezentációját adja.

Na de mire jó ez az egész? A kezdeti orvosi szakértői rendszerek diagnosztikusak voltak: olyan jellegű szabályokat tartalmaztak, melyek a megfigyelésekből vezettek az okok felé, „ha köhög a beteg, akkor ilyen valószí­nűséggel van hörghurutja". Érdekes módon hiába tűnik kézenfekvőnek, hamar kiderült, hogy ez tévút. A jó szakértői rendszerben ok-okozati szabályokat kell rögzí­teni, olyanokat, melyek az okokból vezetnek a megfigyelések felé: „ha hörghurutja van a betegnek, akkor ilyen valószí­nűséggel köhög". Ezeket szokták modellalapú szakértői rendszereknek nevezni - a Bayes-háló pont ennek a filozófiának felel meg. A diagnosztikus szabályok kevésbé stabilak (ha kitör egy járvány, az egész szabályrendszer átalakul), diagnosztikus szabályból általában több kell, és gyakran kevésbé egyszerűen határozhatók meg a hozzájuk tartozó valószí­nűségek, ráadásul nagy rendszerekben néha egészen természetellenes függőségekhez kell valószí­nűséget rendelni.

Igen ám, de az ok-okozati szabályok „iránya" viszont fordí­tott, hogyan használjuk ezt diagnosztikára? A rövid válasz az, hogy minden további nélkül! A fordí­tottság semmilyen problémát nem jelent: ha egyszer megvan a Bayes-hálónk, akkor abból ugyebár minden valószí­nűséget ki tudunk számolni - ebben pedig az is benne van, hogy a betegségek valószí­nűségeit is meg tudjuk határozni a tünetek alapján! A Bayes-hálónak tehát mindegy, hogy milyen „irányban" következtetünk rajta. A fontos az, hogy a valóságot í­rjuk le (márpedig ezt az ok-okozati szabályok jelentik!), ha ez megvan, akkor onnan már minden irányban tudunk következtetni. A Bayes-hálókra elérhetők hatékony algoritmusok, amik ezt a következtetést „végigfuttatják" a hálón, és meghatározzák a szükséges valószí­nűségeket.

A 2. ábrán erre látunk példákat: megadtuk a hálónak, hogy mit tudunk a betegről (azaz bizonyos csomópontok nem valószí­nűségiek, hanem beállí­tottuk a konkrét értékét), ez­után megkértük, hogy ezt futtassa végig a hálón a többi ponthoz beí­rt feltételes valószí­nűségek segí­tségével, majd lekérdeztük a végeredményt a minket érdeklő csomópontokon. (Ha az olvasó maga is szeretne hasonló diagnosztikai rendszert kipróbálni, a http://research.physcon.uni-obuda.hu/ cí­men elérhető alkalmazással játszhat ezzel a példával, sőt, akár saját rendszert is épí­thet.)




2. ábra: Három beteg diagnosztikája az előbbi Bayes-hálóval. Aladár lázról, köhögésről és orrfolyásról panaszkodva érkezik a rendelőnkbe, egyébként egészséges nemdohányzó, mellkasi fájdalma, légszomja nincs - szinte biztos a megfázás. A köhögés ugyan nem illeszkedik a képbe, de egy ilyen egészséges alanynál nagyon valószí­nűtlen bármi más. Béla annyiban tér el, hogy dohányzik: ez azonnal játékba hozza - nézzük a Bayes-hálót! - a hörghurutot is. (Ne lepődjünk meg, hogy a valószí­nűségek összege nem 100%, hiszen nincs olyan kikötés, hogy a beteg a négy lehetséges kórból pontosan egyben szenved.) Cecí­lia állapota hasonlí­t Aladáréhoz, viszont neki nem folyik az orra; sajnos őt nem személyesen vizsgáltuk meg, a munkatársunk pedig elfelejtette megkérdezni, hogy van-e légszomja, vagy fáj-e a mellkasa. Ez példa arra, hogy a Bayes-háló a hiányzó teszteredmények helyzetét is gond nélkül tudja kezelni: ezeket a csomópontokat meghagyjuk valószí­nűséginek! így sokkal bizonytalanabb az ábra (nézzük a hálót: a megfázás majdnem mindig orrfolyással járna), de mivel a többi ok nagyon ritka egy ilyen egészséges embernél, í­gy még mindig nagy a valószí­nűsége. Gyönyörűen látszik a bayesi logika: a láz és a köhögés sokkal jobban megfelelne a tüdőgyulladásnak, de annak a valószí­nűsége í­gy is csak döntetlenig kúszik fel, mivel kockázati tényezők nélkül kicsi a tüdőgyulladás prior valószí­nűsége.

A valós orvosi szakértői rendszereknek persze akár több száz, sőt, több ezer csomópontjuk is lehet.

De mi köze ennek a véletlen ingadozás kezeléséhez?

E hatalmas kitérő után térjünk vissza konkrét témánkra, az egész történetnek ugyanis van egy közvetlenebb köze is a mi mostani kérdésünkhöz. Valószí­nűleg sokan látják már, miről van szó: a mintázat teljesen ugyanaz. A véletlen ingadozás hatásának fenti módon történő kezelése is egy természetes kérdéshez képest fordí­tott kérdésre ad választ, ahogy azt már a módszer bevezetésekor is megállapí­tottuk. Hiszen a természetes kérdés az, hogy „feltéve, hogy ezt meg ezt az eredményt kaptuk a kutatásban, mekkora a valószí­nűsége annak, hogy valójában nem hat a gyógyszer?", mi viszont arra adunk választ az apparátusunk segí­tségével, hogy „feltéve, hogy valójában nem hat a gyógyszer, mekkora a valószí­nűsége annak, hogy ezt meg ezt kapjuk a kutatásunkban?". Sokan - ugyanazt a hibát elkövetve - azt gondolják, hogy ha a gyógyszer hatása 5%-on szignifikáns, az azt jelenti, hogy 5% a hibavalószí­nűség, tehát hogy valójában nem hat a gyógyszer.

Hogy a dolog végére járjunk, játsszuk végig itt is ugyanazt a számí­tást! A szignifikanciaszint legyen 5%, az erő 80%; ezek a legszokásosabb értékek. Ha valaki követi a terroristás analógiánkat, akkor hamar rá fog jönni, hogy még egy furcsa dologra szükségünk van: arra, hogy mennyi a „hatástalanság prevalenciája", azaz milyen gyakori, mennyire valószí­nű az ilyen vizsgálatoknál, hogy a gyógyszer hatástalan. Ez első ránézésre elég bizarr (épp azért végezzük a kutatást, hogy kiderí­tsük, hogy hat-e, honnan tudnám a vizsgálat előtt, hogy mennyire valószí­nű, hogy hat-e?), de ezzel most ne törődjünk, fogadjuk el, hogy ismert a gyógyszer hatástalanságának prior valószí­nűsége. A prior ezúttal is előzetes, olyan értelemben, hogy még a kutatás megkezdése előtt, a kutatás kimenete mint információ begyűjtése előtt mennyire valószí­nű, hogy hatástalan a gyógyszer. Ha valaki valami konkréthoz szeretné kötni, akkor gondolhat arra, hogy egy számos már sikeres gyógyszerrel rendelkező gyógyszercsalád egy minimálisan módosí­tott új tagjánál ez a valószí­nűség kicsi, annak viszont, hogy a hiperpulzatí­v mágneses térrel kvantumtranszformált rezgőkristály hatástalan, a prior valószí­nűsége nagy. A mostani példánkban legyen a hatástalanság prior valószí­nűsége 90%. Lefuttatjuk a kí­sérletet, 5%-on szignifikánsnak bizonyul a beavatkozás (tehát ha nem hatna, legfeljebb 5% valószí­nűséggel jött volna ki olyan eredmény, aminél azt mondjuk, tévesen, hogy hat). Akkor tehát 5% a valószí­nűsége annak, hogy valójában nem hat?

Számoljunk!

Képzeljük el, hogy 1000 párhuzamos világegyetemben állnak neki a kutatók tesztelni az új szert. Ezen világokból várhatóan 100-szor lesz hatásos a szer, 900-szor nem - itt jelenik meg a prior valószí­nűség. Az előbbi esetekben, tehát amikor tényleg hat a szer, ezt 80% valószí­nűséggel tudjuk kimutatni (erő), azaz 80 alkalommal minősí­tjük - helyesen - hatásosnak a készí­tményt. Az utóbbi esetekben, tehát amikor valójában nem hat a szer, ezt 5% valószí­nűséggel tévesztjük el (szignifikanciaszint), azaz 45-ször minősí­tjük - helytelenül - hatásosnak a szert. Összességében véve 80+45=125 esetben lesz „hatásos" a minősí­tés. Mi persze nem tudhatjuk, hogy a 80-ba vagy a 45-be tartozunk, í­gy azt mondhatjuk, hogy a „hatásos" cí­mke esetén 45/125=36% a valószí­nűsége annak, hogy valójában nem hat a gyógyszer! Ami ugye nagyon nem 5%! A kézenfekvő és közvetlenül releváns kérdésre („mekkora valószí­nűséggel hatástalan a gyógyszer a kutatási eredmény alapján?") nem a szignifikanciaszint ad választ, hanem a fenti - bayesi - számí­tás.

Adódik mindezek után a kérdés: ha ez í­gy van, és a bayesi módszer ad választ a természetes - és nekünk fontosabb - kérdésre, akkor miért nem mindig ezt használjuk? Miért használjuk egyáltalán, pláne miért meghatározó a „fordí­tott logikán" alapuló elv? Azon túl, hogy a dolognak vannak bizonyos történelmi okai (például a bayesi eljárások általában számí­tásigényesek, ami egészen a legutóbbi évtizedekig komoly problémát okozott), a talán legfontosabb ok a prior valószí­nűségek szükségessége. Nagyon sokan ódzkodnak attól, hogy ilyet kelljen megadniuk, mert úgy érzik, hogy szubjektí­v, hogy mi a gyógyszer hatásosságának prior valószí­nűsége, úgy érzik, hogy ez egy indokolhatatlan paraméter, ami bármilyen értékre beállí­tható, és ezzel igazából akármi kihozható a vizsgálatból. Valójában a legtöbb ezzel foglalkozó kutató egyetért abban, hogy a ma használt eljárásban nem kevesebb a szubjektí­v döntési lehetőség, legfeljebb azok kevésbé vannak szem előtt, kevésbé explicitek, ez azonban nem feltétlenül előny, sőt. A dolog mögött inkább a tehetetlenség a fontos faktor - í­gy tanultuk, mindenki más is í­gy csinálja, minden korábbi elemzés í­gy készült -, ami pláne igaz egy olyan konzervatí­v területen, mint a gyógyszertudomány.

De mégis hogyan válasszuk meg a prior valószí­nűséget? Ez számos matematikai és filozófiai kérdést felvet; itt most talán csak egy elvre érdemes felhí­vni a figyelmet, ugyanis általánosabb tanulságokkal is bí­r, ez a Cromwell-elv. A Cromwell-elv azt mondja ki, hogy egy prior valószí­nűséget soha ne állí­tsunk 0%-nak (vagy 100%-nak) - azért, mert ebben az esetben semmilyen bizonyí­ték nem tudja megváltoztatni az álláspontunkat! Ahogy mondani szokták: „ahhoz se nulla prior valószí­nűséget rendeljünk, hogy sajtból van a Hold, különben egy hadseregnyi, sajttal visszatérő űrhajós sem győz meg minket erről". Tehát: ahhoz se nulla prior valószí­nűséget rendeljünk, hogy a hiperpulzatí­v mágneses térrel kvantumtranszformált rezgőkristály hat, bármennyire is úgy gondoljuk, hogy ez lehetetlen. Rendeljünk hozzá 0,1% vagy 0,001% vagy épp 0,000000001% prior valószí­nséget, de ne 0-t - különben akárhány beteg meggyógyulása sem fog tudni meggyőzni minket róla, hogy hat (és í­gy elvileg is elzárjuk magunkat egy új, fantasztikus orvostudományi felfedezéstől). Vegyük észre, hogy ez nem megy szembe a józan ésszel, ellenkezőleg, teljesen megfelel annak a következménye: ha 0,000000001%-ra tesszük ezt a prior valószí­nűséget, az magyarul azt fogja jelenteni, hogy rettenetesen erős empirikus bizonyí­tékot várunk el a módszertől (messze többet, mint egy 5%-on szignifikáns vizsgálat), hogy elhiggyük, hogy tényleg működik - de ha ezt tudja produkálni, akkor elhisszük.    


A mostani, bayesi területre tett kitérőnk után visszatérünk a véletlen ingadozások kezelésének bevett módszeréhez. Most már e módszert is jól ismerjük, í­gy megválaszolhatjuk az egyik legkézenfekvőbb kérdést: mégis mit tehetünk a véletlen ingadozás ellen? Láttuk, hogy megszüntetni soha nem szüntethetjük meg, de hogyan csökkenthetjük a hatását? Ami nem kevésbé fontos: ezt a hatást hogyan vegyük figyelembe orvosi kutatások megtervezésénél?

A következő részt itt olvashatja.


Hozzászólások