Az orvoslás tévedései 6. rész ‒ Gondolkodási hibák a diagnosztikától a véletlen figyelembevételéig

Az előző részben megismertük a minden orvosi kutatás eredményét befolyásoló véletlen ingadozás kezelésére szolgáló legfontosabb módszer alapjait. Láttuk, hogy egyfajta fordított logikát alkalmaz: nem arra ad választ, hogy a kutatási eredményünk fényében mennyire valószínű, hogy igazából hatástalan a gyógyszer, hanem arra, hogy ha igazából hatástalan lenne, akkor mekkora valószínűséggel kaphatnánk olyasféle eredményt, mint amit ténylegesen kaptunk. Ez a fordítottság azonban komoly félreértések forrása lehet - és ez a gondolkodási hiba messze nem csak itt jelentkezik.


A véletlen ingadozás miatt soha nem tudunk biztos döntést hozni: ha a kutatásban hatásosnak is bizonyul egy gyógyszer, mindig fennáll a lehetősége, hogy igazából nem hat, csak pechünk volt a véletlen ingadozás miatt (úgy, ahogy egy szabályos pénzérmével is előfordulhat, hogy 10-ből 10-szer fejet dobunk - legfeljebb kicsi a valószínűsége). Azért, hogy egyáltalán tudjunk dönteni, valahol határt kell húzni: ha ez a valószínűség nagyon kicsi, akkor (elfogadva, hogy ezzel hibázhatunk) azt mondjuk, hogy „minden bizonnyal" hat a gyógyszer - noha az említett kis valószínűség épp ahhoz tartozik, hogy igazából nem hat. Mi mégis azt mondjuk, hogy hat: ez a kis valószínűség lesz tehát annak a valószínűsége, hogy a hatástalan gyógyszert hatásosnak mondjuk. Ott hagytuk legutóbb abba, hogy a napjainkban általánosan használt mérték szerint ezt 5%-ra állítjuk: úgy állítjuk be a szigorúságunkat, hogy hatástalan gyógyszer esetén 5% valószínűséggel mondjuk azt, hogy hatásos. (Ezt lehetne ugyan lejjebb vinni, de akkor megnőne annak a valószínűsége, hogy hatásos gyógyszereket sem törzskönyvezünk.)

Ezen rövid ismétlés után lássuk most, hogy mi az emlegetett leggyakoribb gondolkodási hiba ennek kapcsán!

Terroristák a városban

Kezdjünk egy látszólag teljesen ide nem vágó találós kérdéssel! (Valódi kérdés: a kedves olvasó is bátran tippeljen! Ami az igazán érdekes, hogy akkor mi jön ki, ha nem „tudományosan" levezeti az ember, hanem gondolkodás nélkül, zsigerből válaszol.) Képzeljünk el egy várost, ahol 1 millióan laknak, köztük 100 keresett bűnöző (drámaibb változatban: terrorista). A városban fölszerelnek egy körözési adatbázison alapuló, automatikus arcfelismerővel ellátott kamerarendszert, hogy megkeresse a terroristákat. Ez az arcfelismerő rendszer nagyon jól működik: amennyiben egy terrorista kerül be a képbe, akkor 99% valószínűséggel azt fogja mondani, hogy az illető terrorista, ha pedig egy ártatlan sétál a képbe, akkor 99% valószínűséggel azt mondja, hogy az illető ártatlan. A kérdés a következő: besétál a kamera képébe egy ember, és megjelenik alatta a felirat, hogy terrorista. Mekkora a valószínűsége, hogy a 99%-os pontossággal működő kamerarendszerünk jól tippelt, azaz, hogy az illető tényleg terrorista?

És akkor most, hölgyeim és uraim, kérem, tegyék meg tétjeiket!
Az emberek többsége 90-95%, vagy annál is nagyobb számokat tippel; a leggyakoribb a 99% - hát meg is mondtuk, hogy ilyen pontos a kamera, mi itt a kérdés? Ez a válasz azonban teljesen rossz. A valóságban annak a valószínűsége, hogy az illető tényleg terrorista, ha egyszer a gép kiírta róla, hogy terrorista, valójában kevesebb mint 1%!

Amit sokan elfelejtenek, az az, hogy az 1 millió lakosból mindössze 100 terrorista van. Kicsi a terroristák „alapgyakorisága", azaz annak a valószínűsége, hogy a kamera előtt álló ember pont terrorista legyen, még mielőtt egyáltalán megnéztük volna, hogy a gép mit írt ki. Szakkifejezéssel élve: a prior valószínűsége az adott személy terrorista voltának igen kicsi, mindössze 100/1 millió. (A prior latinul annyit tesz: előzetes; ez olyan értelemben „előzetes valószínűség", hogy az információk begyűjtése, jelen esetben a gép által kiírt azonosítás megtekintése előtti valószínűsége annak, hogy a személy terrorista.)

A probléma, hogy amikor a gép azt jelzi, hogy terroristát lát, az az esetek túlnyomó többségében nem abból fog származni, hogy egy valódi terrorista sétált be, és helyesen azonosította a szoftver, hanem abból, hogy egy ártatlan sétált be a képbe, és tévedésből minősítette terroristának. Igaz ugyan, hogy ez utóbbinak mindössze 1 százalék a valószínűsége, de annyival sokkal, sokkal, sokkal, sokkal több ártatlan fog átsétálni a kamera előtt, hogy ennek még az 1%-a is jóval több embert fog jelenteni, mint a mindössze 100 terrorista 99%-a. A dolgot számszerűsíthetjük is. Képzeljük el, hogy minden egyes lakost átküldünk a kamera előtt: a 999 900 ártatlan 1%-a 9999 (fals) terrorista jelzést ad, a 100 terrorista 99%-a 99 (helyes) jelzést, azaz a terroristának minősített emberek mindössze a 99/(99+9999)=0,98%-a lesz ténylegesen terrorista - ez a válasz a kérdésre! E számítás logikáját hívják a matematikában Bayes-tételnek.

Mi a 99%-tól ­nagyon eltérő válasz oka? Az, hogy megfordítottuk a kérdést! Nem azt kérdeztük, hogy feltéve, hogy valaki terrorista, mekkora valószínűséggel minősíti annak (ez a 99%), hanem azt, hogy feltéve, hogy terroristának minősített valakit, mekkora valószínűséggel tényleg az. Ami viszont már nagyon nem 99%! A Bayes-tétel tehát azt teszi lehetővé, hogy megfordítsuk az ilyen feltételes valószínűségeket - csakhogy ehhez a prior valószínűségre is szükség van.

Érdemes megjegyezni, hogy a 0,98%-ot szokás a terrorista mivolt poszterior („utólagos") valószínűségének nevezni: a 100/1 millió volt a valószínűség az arcfelismerő rendszer információjának megismerése előtt, a 0,98% pedig az után. Ha így nézzük, akkor a Bayes-tétel alkalmazása lehetővé tette, hogy beépítsünk egy információt a valószínűségbe: meg tudtuk pontosan határozni, hogy az az információ, hogy a gép kiírta, hogy terrorista, hogyan módosítja a terrorista mivolt valószínűségét. Természetesen a dolog nem kell, hogy itt véget érjen: elképzelhető, hogy a képfelismerő után használunk, mondjuk, egy bombakereső szkennert is, ennek a nézőpontjából a 0,98% lesz a prior valószínűség! Majd a bombakereső eredményének a fényében fog ez nőni vagy csökkenni, és így tovább. A bayesi eljárás tehát lehetővé teszi, hogy a valószínűséget folyamatosan frissítsük a rendelkezésre álló információk alapján.

Kis kitérő: na de mi köze ennek az orvosláshoz?

Aki 99%-ot vagy hasonló értéket tippelt, az tehát lényegében figyelmen kívül hagyta a prior valószínűséget, azaz az alapgyakoriságot. Ez egy általános gondolkodási hiba, amire számtalan, a fentihez hasonló példát lehetne még hozni. Mielőtt rátérünk a mostani témánkra, a véletlen ingadozás kezelésére szolgáló apparátusra, említsünk meg még egyet e példák közül, ugyanis orvosi is, izgalmas is - ez nem más, mint a diagnosztika!

Ha valaki ilyen szemmel néz rá az előbbi példára, akkor valószínűleg nagyon hamar meglátja a kapcsolatokat. A lakosok az emberek, a terroristák a beteg emberek, a kamera a diagnosztikai módszerünk, és végül a terroristák, azaz a betegek alapgyakorisága a populációban - a 100/1 millió -, pedig nem más, mint a betegség elterjedtsége, az orvosok úgy szokták hívni, hogy prevalenciája. Az, hogy a kamera mekkora valószínűséggel írja ki egy terroristára, hogy terrorista, nem más, mint hogy egy beteg embernél a diagnosztikai tesztünk mekkora valószínűséggel mutatja ki a betegséget, az orvosok ezt szokták a teszt érzékenységének vagy szenzitivitásának nevezni. A másik 99%, hogy a kamera egy ártatlannál mekkora valószínűséggel írja ki, hogy ártatlan (egy egészséges embert mekkora valószínűséggel minősít egészségesnek a teszt), pedig a fajlagosság vagy specificitás.

Mit mond tehát az előbbi példa nekünk, ha ilyen szemmel nézünk rá? Azt, hogy ha egy betegség ritka, akkor még egy egészen kitűnő - 99%-os szenzitivitású és 99%-os specificitású - tesztet alkalmazva is igaz, hogy a pozitív lelet is csak azt jelenti, hogy kevesebb mint 1% valószínűséggel vagyunk tényleg betegek!

Ennek messzemenő következményei vannak például népegészségügyi szűrőprogramok tervezésekor: ha egy ilyen ritka betegséget igyekszünk kiszűrni, akkor még egy egyébként kiváló tesztet használva is igaz lesz, hogy a betegnek minősített emberek több mint 99%-a valójában nem beteg! (Ezt azért kell mindenképp figyelembe venni a szűrések tervezésekor, mert a betegnek minősítés általában további, néha veszélyesebb vagy költségesebb vizsgálatokat von maga után, lelkileg megterheli az alanyt.) 

Az érdekes az, hogy bár a pszichológiai vizsgálatok szerint az emberek hétköznapi gondolkodása általánosságban véve nem bayesi, tehát nem vesszük figyelembe a prior valószínűségeket (ezért is esnek sokan bele a terroristás kérdés csapdájába), az orvosi diagnosztikai logika - szerencsére - sokkal inkább bayesiánus. Bár a legtöbb agydaganat jár fejfájással, a fejfájós betegnél nem ez az első, amire az orvos gondol, hanem egy sor betegség megelőzi, olyanok is, amelyek a ráknál ritkábban okoznak fejfájást - egész egyszerűen azért, mert annyira ritka betegség az agytumor. Ez a logika épp a prior valószínűség figyelembevétele! („A gyakori betegségek gyakoriak, a ritka betegségek ritkák" - szokták mondani az orvosok; ez pont a bayesi gondolkodásmód megjelenése.) Pontosan ugyanazon infarktusra gyanús EKG birtokában egy 20 éves, makkegészséges lány esetén lehet, hogy egy tucat dologra előbb gondol az orvos, mint infarktusra, míg egy 75 éves, elhízott, cukorbeteg férfi esetén szinte biztosnak veszi a szívrohamot. Nem azért, mintha nem ugyanúgy értelmezné az EKG-t: a pozitív EKG mindkét esetben megnöveli a szívinfarktus valószínűségét, de az első esetben annyira csekély a prior valószínűség, hogy még a megnövelés után is meglehetősen alacsony lesz (hiszen az EKG-nak sem 100%-os a specificitása és a szenzitivitása). Egyébként olyan skálát is lehet találni, amin még az is igaz, hogy mindkét esetben pontosan ugyanannyira növeli meg a hiedelmünket az infarktusban a pozitív EKG.

Természetesen itt is működik az új információk beépítése - sorozatos vizsgálatokkal folyamatosan finomítható a valószínűség, például ha a lány laborja is pozitív lesz, akkor az már az ő esetében is első helyre katapultálhatja az infarktus diagnózisát a potenciális diagnózisok listájában. De nem csak ilyen tesztekre lehet gondolni: az is egyfajta diagnosztikai módszer, hogy az orvos megvizsgálja a beteget, vagy akár csak kérdez tőle valamit - például kiderül, hogy a lány családjában számos korai szíveredetű halálozás fordult elő. Az orvos ilyen lépések nyomán állítja elő a diagnózist, még ha ez nem is számszerűsítve zajlik az agyában (noha sokszor az is rendkívül hasznos lenne!).

Nagy kitérő: dr. GépBayes rendel

Ezen a ponton adja magát az ötlet: miért nem automatizáljuk az egészet? Hiszen ez teljes egészében megvalósítható gépi úton, nem is kell ide orvos! Egy hatalmas adatbázisban eltároljuk egyrészt, hogy az egyes betegségek mekkora valószínűséggel okoznak egy adott tünetet vagy teszteredményt (ez alapvetően orvosi, biológiai kérdés, tehát elég stabil), másrészt hogy mennyi az egyes betegségek gyakorisága, ez lesz a prior valószínűség (ez persze időben és populáció szerint is változhat), és ennyi. Innentől a számítógép elvégzi a beszorzást, kiírja az eredményt, kiválasztja legjobbként a legvalószínűbb diagnózist, és kész is vagyunk!

Az ötlet nem is annyira elborult, mint amennyire elsőre hangzik; nagyjából a 70-es évek óta kísérleteznek is ilyen rendszerekkel. A legfontosabb probléma, hogy valójában nem egyetlen tünetet kell figyelembe vennünk. Ha például nemcsak a beteg feje fájhat, hanem a hasa is, akkor már nem egyetlen valószínűséget kell tárolnunk, hanem hármat. Ha három tünetünk van, akkor már hét valószínűséget kell tárolni, és így tovább, miközben a valóságban nyilván több száz, vagy akár több ezer tünet lehetséges, pláne, hogy ugyebár ide tartoznak a kórelőzményi, vizsgálati adatok, teszteredmények is. A kezelendő valószínűségek száma már 100 tünetnél is ezerkvadrilliárd (leírva harmincegy számjegy), és akkor még azt feltételeztük, hogy minden tünetünk bináris.

Hogyan tehetjük ezt a helyzetet kezelhetővé? Leegyszerűsíti a helyzetet, ha a tünetek függetlenek. Volt már róla szó, hogy függetlenségnél az események együttes bekövetkezésének a valószínűsége egyszerűen a külön-külön vett valószínűségeik szorzata, így ha a betegek tizedének fáj a feje, és tizedének a hasa, akkor (ha ezek függetlenek) századuknak fog egyszerre fájni mindkettő - továbbra is elég tehát egy-egy valószínűséget, a két 10%-ot tárolni, az 1%-ot nem kell külön, mert adódik ezekből. Így 100 tünetnél is elég lesz 100 valószínűséget tárolni, függetlenség esetén ebből már minden kombináció valószínűsége kiszámolható. Valójában ennél egy kicsit kevesebb is elég: mivel úgy kérdezzük, hogy feltéve, hogy adott betegségben szenved, mi a tünetek előfordulásának a valószínűsége, így elég, ha a betegséget feltéve függetlenek. Például a mellkasi fájdalom és a szívrohamra jellemző EKG-eltérés nyilván nem függetlenek, de feltéve a szívinfarktus tényét már azok: ha adottnak vesszük a tényt, hogy az alanyunknak van-e infarktusa, akkor már egyiknek sincs hatása a másikra, hiszen mindkettő ugyanannak a következménye (az infarktusnak). Csak ez okozza az összefüggésüket, de közvetlen hatása egyiknek sincs a másikra: nem a rossz EKG-tól magától fog megfájdulni a beteg mellkasa, és nem is a mellkasában érzett fájdalom rontja el az EKG-t. Elképzelhető persze olyan helyzet is, amikor nem egy, hanem két dolgot - két betegséget vagy kockázati tényezőt - feltéve függetlenek a tünetek. Ez már kezd kicsit átláthatatlanná válni, hacsak...

...hacsak nem jövünk rá, hogy mennyivel szemléletesebb az egész, ha ábrát készítünk belőle! Rajzoljunk pontokat, ezek jelöljék a betegségeket, tüneteket, kockázati tényezőket (az egyszerűség kedvéért most legyen mind bináris: fennáll, vagy nem áll fenn), és köztük húzzunk nyilakat, melyek azt mutatják, hogy mi hat mire közvetlenül. Lesznek pontok, amelyekbe nem fut nyíl - ezek nem függnek semmitől, egyszerűen azt kell odaírnunk, hogy mekkora valószínűséggel állnak fent. Amelyik pontba nyíl vagy nyilak futnak, ott a fennállás valószínűsége azoktól a pontoktól függ, ahonnan a nyilak jönnek (nevezzük ezeket szülőknek), így ott egy kis táblácskát kell odaírnunk, mely a szülőcsomópontok összes lehetséges kombinációjára megadja, hogy a pont mekkora valószínűséggel áll fenn, ha a szülők adott értékűek. Ezt szokás Bayes-hálónak nevezni, az 1. ábra egy példát mutat ilyenre.





1. ábra: Egyszerű légúti diagnosztikai rendszer Bayes-hálója (Wiegerinck, Burgers és Kappen példája). A színezésnek nincs számítási jelentősége, csak a pontokat csoportosítja: halványkékek a tünetek, zöldek a betegségek, pirosak a kockázati tényezők.
A táblákban a függőleges vonal előtti szó mutatja, hogy minek a valószínűségét adjuk meg, a vonal utáni pedig, hogy milyen feltétel mellett.


A Bayes-hálók sava-borsát az adja, hogy a nyilakat úgy húzzuk be, hogy a függetlenségi viszonyokat írják le. Még pontosabban: annak kell teljesülnie, hogy egy csomópont csak a szüleitől és azoktól a pontoktól függhet, amelyek belőle kiindulva elérhetők a nyilakon - de a többitől nem. Ebben az a fantasztikus, hogy ha ezt megvalósítjuk, akkor a pontok mellett látható néhány valószínűségből minden valószínűség kiszámítható! Az ábrán látható esetben például a teljes körű leírás több mint 2000 valószínűség megadását igényelné, a Bayes-hálóban viszont mindössze 33 van. És mégis, ebből a 33-ből mind a 2000 kiszámolható - ehhez kellettek a függetlenségek, amelyeknek a Bayes-háló nagyon jól használható reprezentációját adja.

Na de mire jó ez az egész? A kezdeti orvosi szakértői rendszerek diagnosztikusak voltak: olyan jellegű szabályokat tartalmaztak, melyek a megfigyelésekből vezettek az okok felé, „ha köhög a beteg, akkor ilyen valószínűséggel van hörghurutja". Érdekes módon hiába tűnik kézenfekvőnek, hamar kiderült, hogy ez tévút. A jó szakértői rendszerben ok-okozati szabályokat kell rögzíteni, olyanokat, melyek az okokból vezetnek a megfigyelések felé: „ha hörghurutja van a betegnek, akkor ilyen valószínűséggel köhög". Ezeket szokták modellalapú szakértői rendszereknek nevezni - a Bayes-háló pont ennek a filozófiának felel meg. A diagnosztikus szabályok kevésbé stabilak (ha kitör egy járvány, az egész szabályrendszer átalakul), diagnosztikus szabályból általában több kell, és gyakran kevésbé egyszerűen határozhatók meg a hozzájuk tartozó valószínűségek, ráadásul nagy rendszerekben néha egészen természetellenes függőségekhez kell valószínűséget rendelni.

Igen ám, de az ok-okozati szabályok „iránya" viszont fordított, hogyan használjuk ezt diagnosztikára? A rövid válasz az, hogy minden további nélkül! A fordítottság semmilyen problémát nem jelent: ha egyszer megvan a Bayes-hálónk, akkor abból ugyebár minden valószínűséget ki tudunk számolni - ebben pedig az is benne van, hogy a betegségek valószínűségeit is meg tudjuk határozni a tünetek alapján! A Bayes-hálónak tehát mindegy, hogy milyen „irányban" következtetünk rajta. A fontos az, hogy a valóságot írjuk le (márpedig ezt az ok-okozati szabályok jelentik!), ha ez megvan, akkor onnan már minden irányban tudunk következtetni. A Bayes-hálókra elérhetők hatékony algoritmusok, amik ezt a következtetést „végigfuttatják" a hálón, és meghatározzák a szükséges valószínűségeket.

A 2. ábrán erre látunk példákat: megadtuk a hálónak, hogy mit tudunk a betegről (azaz bizonyos csomópontok nem valószínűségiek, hanem beállítottuk a konkrét értékét), ez­után megkértük, hogy ezt futtassa végig a hálón a többi ponthoz beírt feltételes valószínűségek segítségével, majd lekérdeztük a végeredményt a minket érdeklő csomópontokon. (Ha az olvasó maga is szeretne hasonló diagnosztikai rendszert kipróbálni, a http://research.physcon.uni-obuda.hu/ címen elérhető alkalmazással játszhat ezzel a példával, sőt, akár saját rendszert is építhet.)




2. ábra: Három beteg diagnosztikája az előbbi Bayes-hálóval. Aladár lázról, köhögésről és orrfolyásról panaszkodva érkezik a rendelőnkbe, egyébként egészséges nemdohányzó, mellkasi fájdalma, légszomja nincs - szinte biztos a megfázás. A köhögés ugyan nem illeszkedik a képbe, de egy ilyen egészséges alanynál nagyon valószínűtlen bármi más. Béla annyiban tér el, hogy dohányzik: ez azonnal játékba hozza - nézzük a Bayes-hálót! - a hörghurutot is. (Ne lepődjünk meg, hogy a valószínűségek összege nem 100%, hiszen nincs olyan kikötés, hogy a beteg a négy lehetséges kórból pontosan egyben szenved.) Cecília állapota hasonlít Aladáréhoz, viszont neki nem folyik az orra; sajnos őt nem személyesen vizsgáltuk meg, a munkatársunk pedig elfelejtette megkérdezni, hogy van-e légszomja, vagy fáj-e a mellkasa. Ez példa arra, hogy a Bayes-háló a hiányzó teszteredmények helyzetét is gond nélkül tudja kezelni: ezeket a csomópontokat meghagyjuk valószínűséginek! Így sokkal bizonytalanabb az ábra (nézzük a hálót: a megfázás majdnem mindig orrfolyással járna), de mivel a többi ok nagyon ritka egy ilyen egészséges embernél, így még mindig nagy a valószínűsége. Gyönyörűen látszik a bayesi logika: a láz és a köhögés sokkal jobban megfelelne a tüdőgyulladásnak, de annak a valószínűsége így is csak döntetlenig kúszik fel, mivel kockázati tényezők nélkül kicsi a tüdőgyulladás prior valószínűsége.

A valós orvosi szakértői rendszereknek persze akár több száz, sőt, több ezer csomópontjuk is lehet.

De mi köze ennek a véletlen ingadozás kezeléséhez?

E hatalmas kitérő után térjünk vissza konkrét témánkra, az egész történetnek ugyanis van egy közvetlenebb köze is a mi mostani kérdésünkhöz. Valószínűleg sokan látják már, miről van szó: a mintázat teljesen ugyanaz. A véletlen ingadozás hatásának fenti módon történő kezelése is egy természetes kérdéshez képest fordított kérdésre ad választ, ahogy azt már a módszer bevezetésekor is megállapítottuk. Hiszen a természetes kérdés az, hogy „feltéve, hogy ezt meg ezt az eredményt kaptuk a kutatásban, mekkora a valószínűsége annak, hogy valójában nem hat a gyógyszer?", mi viszont arra adunk választ az apparátusunk segítségével, hogy „feltéve, hogy valójában nem hat a gyógyszer, mekkora a valószínűsége annak, hogy ezt meg ezt kapjuk a kutatásunkban?". Sokan - ugyanazt a hibát elkövetve - azt gondolják, hogy ha a gyógyszer hatása 5%-on szignifikáns, az azt jelenti, hogy 5% a hibavalószínűség, tehát hogy valójában nem hat a gyógyszer.

Hogy a dolog végére járjunk, játsszuk végig itt is ugyanazt a számítást! A szignifikanciaszint legyen 5%, az erő 80%; ezek a legszokásosabb értékek. Ha valaki követi a terroristás analógiánkat, akkor hamar rá fog jönni, hogy még egy furcsa dologra szükségünk van: arra, hogy mennyi a „hatástalanság prevalenciája", azaz milyen gyakori, mennyire valószínű az ilyen vizsgálatoknál, hogy a gyógyszer hatástalan. Ez első ránézésre elég bizarr (épp azért végezzük a kutatást, hogy kiderítsük, hogy hat-e, honnan tudnám a vizsgálat előtt, hogy mennyire valószínű, hogy hat-e?), de ezzel most ne törődjünk, fogadjuk el, hogy ismert a gyógyszer hatástalanságának prior valószínűsége. A prior ezúttal is előzetes, olyan értelemben, hogy még a kutatás megkezdése előtt, a kutatás kimenete mint információ begyűjtése előtt mennyire valószínű, hogy hatástalan a gyógyszer. Ha valaki valami konkréthoz szeretné kötni, akkor gondolhat arra, hogy egy számos már sikeres gyógyszerrel rendelkező gyógyszercsalád egy minimálisan módosított új tagjánál ez a valószínűség kicsi, annak viszont, hogy a hiperpulzatív mágneses térrel kvantumtranszformált rezgőkristály hatástalan, a prior valószínűsége nagy. A mostani példánkban legyen a hatástalanság prior valószínűsége 90%. Lefuttatjuk a kísérletet, 5%-on szignifikánsnak bizonyul a beavatkozás (tehát ha nem hatna, legfeljebb 5% valószínűséggel jött volna ki olyan eredmény, aminél azt mondjuk, tévesen, hogy hat). Akkor tehát 5% a valószínűsége annak, hogy valójában nem hat?

Számoljunk!

Képzeljük el, hogy 1000 párhuzamos világegyetemben állnak neki a kutatók tesztelni az új szert. Ezen világokból várhatóan 100-szor lesz hatásos a szer, 900-szor nem - itt jelenik meg a prior valószínűség. Az előbbi esetekben, tehát amikor tényleg hat a szer, ezt 80% valószínűséggel tudjuk kimutatni (erő), azaz 80 alkalommal minősítjük - helyesen - hatásosnak a készítményt. Az utóbbi esetekben, tehát amikor valójában nem hat a szer, ezt 5% valószínűséggel tévesztjük el (szignifikanciaszint), azaz 45-ször minősítjük - helytelenül - hatásosnak a szert. Összességében véve 80+45=125 esetben lesz „hatásos" a minősítés. Mi persze nem tudhatjuk, hogy a 80-ba vagy a 45-be tartozunk, így azt mondhatjuk, hogy a „hatásos" címke esetén 45/125=36% a valószínűsége annak, hogy valójában nem hat a gyógyszer! Ami ugye nagyon nem 5%! A kézenfekvő és közvetlenül releváns kérdésre („mekkora valószínűséggel hatástalan a gyógyszer a kutatási eredmény alapján?") nem a szignifikanciaszint ad választ, hanem a fenti - bayesi - számítás.

Adódik mindezek után a kérdés: ha ez így van, és a bayesi módszer ad választ a természetes - és nekünk fontosabb - kérdésre, akkor miért nem mindig ezt használjuk? Miért használjuk egyáltalán, pláne miért meghatározó a „fordított logikán" alapuló elv? Azon túl, hogy a dolognak vannak bizonyos történelmi okai (például a bayesi eljárások általában számításigényesek, ami egészen a legutóbbi évtizedekig komoly problémát okozott), a talán legfontosabb ok a prior valószínűségek szükségessége. Nagyon sokan ódzkodnak attól, hogy ilyet kelljen megadniuk, mert úgy érzik, hogy szubjektív, hogy mi a gyógyszer hatásosságának prior valószínűsége, úgy érzik, hogy ez egy indokolhatatlan paraméter, ami bármilyen értékre beállítható, és ezzel igazából akármi kihozható a vizsgálatból. Valójában a legtöbb ezzel foglalkozó kutató egyetért abban, hogy a ma használt eljárásban nem kevesebb a szubjektív döntési lehetőség, legfeljebb azok kevésbé vannak szem előtt, kevésbé explicitek, ez azonban nem feltétlenül előny, sőt. A dolog mögött inkább a tehetetlenség a fontos faktor - így tanultuk, mindenki más is így csinálja, minden korábbi elemzés így készült -, ami pláne igaz egy olyan konzervatív területen, mint a gyógyszertudomány.

De mégis hogyan válasszuk meg a prior valószínűséget? Ez számos matematikai és filozófiai kérdést felvet; itt most talán csak egy elvre érdemes felhívni a figyelmet, ugyanis általánosabb tanulságokkal is bír, ez a Cromwell-elv. A Cromwell-elv azt mondja ki, hogy egy prior valószínűséget soha ne állítsunk 0%-nak (vagy 100%-nak) - azért, mert ebben az esetben semmilyen bizonyíték nem tudja megváltoztatni az álláspontunkat! Ahogy mondani szokták: „ahhoz se nulla prior valószínűséget rendeljünk, hogy sajtból van a Hold, különben egy hadseregnyi, sajttal visszatérő űrhajós sem győz meg minket erről". Tehát: ahhoz se nulla prior valószínűséget rendeljünk, hogy a hiperpulzatív mágneses térrel kvantumtranszformált rezgőkristály hat, bármennyire is úgy gondoljuk, hogy ez lehetetlen. Rendeljünk hozzá 0,1% vagy 0,001% vagy épp 0,000000001% prior valószínséget, de ne 0-t - különben akárhány beteg meggyógyulása sem fog tudni meggyőzni minket róla, hogy hat (és így elvileg is elzárjuk magunkat egy új, fantasztikus orvostudományi felfedezéstől). Vegyük észre, hogy ez nem megy szembe a józan ésszel, ellenkezőleg, teljesen megfelel annak a következménye: ha 0,000000001%-ra tesszük ezt a prior valószínűséget, az magyarul azt fogja jelenteni, hogy rettenetesen erős empirikus bizonyítékot várunk el a módszertől (messze többet, mint egy 5%-on szignifikáns vizsgálat), hogy elhiggyük, hogy tényleg működik - de ha ezt tudja produkálni, akkor elhisszük.    


A mostani, bayesi területre tett kitérőnk után visszatérünk a véletlen ingadozások kezelésének bevett módszeréhez. Most már e módszert is jól ismerjük, így megválaszolhatjuk az egyik legkézenfekvőbb kérdést: mégis mit tehetünk a véletlen ingadozás ellen? Láttuk, hogy megszüntetni soha nem szüntethetjük meg, de hogyan csökkenthetjük a hatását? Ami nem kevésbé fontos: ezt a hatást hogyan vegyük figyelembe orvosi kutatások megtervezésénél?

A következő részt itt olvashatja.


Hozzászólások