Az orvoslás tévedései 3. rész: Megfigyelés és kísérlet

Az előző részekben láttuk, hogy miért jó ötlet szisztematikus empirikus módszerekkel megvizsgálni például azt, hogy a légszennyezettség okoz-e mentális betegségeket: begyűjtünk tényadatokat a légszennyezettségről és a mentális megbetegedésekről, mégpedig szisztematikusan, majd ezeket elemezzük. Azt is láttuk, hogy mindeközben óvatosan kell eljárnunk: az, hogy a szennyezettebb területeken több a megbetegedés, még egyáltalán nem jelenti azt, hogy bizonyosan a szennyezés a ludas. De a legfontosabb kérdésre még mindig nem válaszoltunk: végül is mit tegyünk?


Idézzük fel az empirikus vizsgálatok tételmondatát: egy vizsgált tényező akkor van okozati összefüggésben a végponttal, ha a kizárólag abban a tényezőben eltérő csoportok eltérnek a végpontban, mégpedig olyan mértékben, ami már nem tudható be a véletlen ingadozásnak. Azt is láttuk, hogy az egyik legalapvetőbb csapda a „csak" szóban van elrejtve: a naiv vizsgálati módszerek, például amikor összehasonlítjuk a szennyezettebb és a kevésbé szennyezett területeken a mentális betegségek előfordulását, nem garantálják, hogy az összehasonlított csoportok csak a csoportképzés szempontjában, jelen esetben a légszennyezettségben fognak eltérni. Mi van, ha a szennyezettebb területen élők kevésbé tehetősek, így kevésbé egészségesen táplálkoznak, kevésbé vesznek részt a szülés előtti gondozásban, és így tovább. Innentől kezdve, ha találunk is különbséget a mentális betegségek előfordulásában, nem tudhatjuk, hogy az mitől van: a vizsgált különbség (légszennyezettség) miatt, a vizsgált különbséggel automatikusan együtt járó egyéb eltérések (táplálkozás, szülés előtti gondozás) miatt, vagy ezek valamilyen keveréke miatt? Ez volt a confounding problémája.

Egy aranyérmes megoldás

Mit tudunk tenni? Törekedni sokféleképp lehet arra, hogy a csoportok csak a vizsgált tényezőben térjenek el, de biztosan elérni csak egyféleképpen. Tulajdonképpen az a meglepő, hogy a megoldás milyen későn merült fel. 1931-ben a michigani William H. Maybury Tüdőszanatórium orvosa, James Burns Amberson ki akarta deríteni, mégpedig empirikusan, hogy egy sanocrysin nevű szervetlen aranyvegyület gyógyítja-e a tbc-t (elég sok írás született ennek lehetőségéről akkoriban).

Az ugyebár nem jó megoldás, hogy összehasonlítjuk a gyógyszert kapó és gyógyszert nem kapó betegek gyógyulását, hiszen mi van, ha ők másban is eltérnek a gyógyszerben részesülés tényén túl? Mi van, ha a gyógyszert inkább kapták a fiatalok (vagy pont az idősek), inkább kapták a férfiak vagy a nők, inkább kapták a több vagy kevesebb társbetegséggel rendelkezők. Ez jelen esetben a legkevésbé sem elméleti spekuláció, nagyon is könnyen lehet, hogy egy új, még nem jól ismert kezelést a jobb állapotú és így egyúttal legjobb gyógyhajlamú betegeknek írnak fel inkább az orvosok. Tehát a gyógyszert kapó és nem kapó csoportok ilyen összehasonlítása teljesen félrevezető lehet - belefutottunk a confounding problémájába.

Amberson és munkatársai egy huszárvágással megoldották a problémát: pénzfeldobással döntötték el, hogy ki kapjon sanocrysint! És ezt most nem irodalmi fordulatként mondom, hanem a szó szoros értelmében: Amberson konkrétan feldobott egy pénzérmét, és az alapján adott sanocrysint vagy egyszerű desztillált vizet a betegeknek, hogy fejt vagy írást kapott, ezt pontosan dokumentálta is a cikkében. Még arról is gondoskodott, hogy a két szer külsőleg ne legyen megkülönböztethető, és hogy a dobás eredményéről ne tudjon a beteg, csak két orvos és a beadó nővér. (Cikksorozatunk későbbi részeiben erre majd azt fogjuk mondani: egyszeresen vak, placebokontrollált kutatást hajtott végre.)


1. ábra - James Burns Amberson (1890–1979)


És ennyi. Ezzel, a történelemben először, megoldódott a confounding problémája. Majd látni fogjuk, hogy az ismert confounderek kiszűrésére lesz módunk: ha eszünkbe jut, hogy a gyógyszert inkább fiatalabbak vagy inkább férfiak kapják, és ezért feljegyezzük nemcsak a gyógyszerben részesülés tényét, hanem azt is, hogy az alany milyen idős és mi a neme, akkor ezeket - mint zavaró tényezőket - ki fogjuk tudni szűrni. De ennek minimális feltétele, hogy eszünkbe jusson, hogy mik a confounderek, és le is tudjuk őket mérni (egy olyannál, mint a „szocioökonómiai státusz", ez utóbbi sem nyilvánvaló). Amberson megoldásában, amit az orvosi irodalomban randomizációnak szokás nevezni, az a zseniális, hogy minden confoundert kiszűr, azokat is, amelyeket nem tudunk feljegyezni, sőt azokat is, amelyek eszünkbe sem jutnak! Tegyük fel például, hogy kiderül, hogy a kék szeműeknek az orvosok inkább adnak sanocrysint, és a kék szem egyúttal növeli a tbc-ből való gyógyhajlamot. Ez csúnyán tönkretenné az összes vizsgálatot, hiszen ki gondolna arra, hogy a szemszínt is fel kell jegyezni, de vegyük észre, hogy - mert ez a lényeg - Amberson módszere még ekkor is működik! Hiszen a pénzfeldobás révén a kék szeműek arányában sem lesz szisztematikus különbség a két csoport között. Ugyanúgy, mint ahogy nem lesz szisztematikus különbség a nemi összetételben, az életkori összetételben, és egyáltalán: semmilyen szempontban sem! Úgy is mondhatjuk, hogy a randomizáció kiszűri, ráadásul automatikusan kiszűri mind a végtelen számú potenciális confoundert. Ez a randomizált kutatások hihetetlen nagy előnye.

Ez a kiszűrés természetesen nem azt jelenti, hogy biztosan minden szempont tökéletesen kiegyensúlyozott lesz a csoportok között. A pénzfeldobás szeszélye folytán előfordulhat, hogy puszta véletlenségből több kék szemű lesz az egyik csoportban, de be lehet látni, hogy mivel ez csak a véletlen szeszélye folytán állt elő, így nem befolyásolja a fenti állításokat.

Megfigyelés és kísérlet

Amberson módszerének egy roppant fontos jellemzője van: befolyásolnunk kell hozzá, hogy ki kap gyógyszert (expozíciót). Azokat az orvosi vizsgálatokat, ahol a kutatók aktívan befolyásolják az expozíciót, kísérletes vizsgálatnak, azokat, ahol csak passzívan feljegyzik, hogy mi történt, de nem befolyásolják azt, megfigyeléses vizsgálatnak szokás nevezni.

Mint korábban is láttuk, a kísérletek története messzire nyúlik vissza. Kísérlet volt az is, amit James Lind végrehajtott a skorbut gyógyításának vizsgálatára - csak épp nem randomizált kísérlet. Az ilyenek problémája az, hogy mindig ott van a lehetőség, hogy az orvos, akár teljesen tudattalanul is, de célirányosan befolyásolja, hogy ki melyik csoportba kerül; például erősen hisz abban, hogy a citrusfélék jót tesznek, ezért lehet, hogy egyáltalán nem tudatosan, de a legenyhébb eseteket rakja a citrusfélékkel kezelt csoportba (vagy pont fordítva). Ezt már a 19. század végére felismerték, ezért akkorra divatba jöttek az úgynevezett „váltakozó besorolású" kutatások, ami azt jelentette, hogy minden második beteg kapta meg a vizsgált gyógyszert, minden második nem. Ez már egészen közel van a randomizált vizsgálatokhoz (az csak nem befolyásolja a gyógyulásomat, hogy páratlan sorszámú beteg voltam-e aznap a kórházban), de valójában még itt is jelentkezhet az előbbi probléma: sokszor leírták például, hogy az orvosoknak megesett a szívük egy betegen, ezért igyekeztek úgy rendezni az ellátást, hogy a kezelt csoportba kerülhessen. Ez nyilvánvalóan elrontotta a dolgot, ha mondjuk a legrosszabb állapotú betegeknél került erre a leggyakrabban sor. Éppen ezért a váltakozó besorolás helyét a 20. század közepe felé átvette a randomizált besorolás, különösen, hogy a híres statisztikus Ronald Fisher ennek az elméletét is kidolgozta, egyébként már Amberson orvosi alkalmazása előtt.

Látható tehát, hogy a kísérletes vizsgálatok hihetetlenül nagy és roppant fontos előnye, hogy elvileg mentesek tudnak lenni a confoundingtól. (Gyakorlatilag persze nem feltétlenül: kísérletet is lehet rosszul csinálni - erről később még sok szó lesz.) A megfigyeléses vizsgálatoknál viszont, bármennyire is óvatosan járunk el, mindig a fejünk fölött lebeg Damoklész kardjaként a confounding: biztos, hogy minden tényező, amiben az összehasonlított csoportok eltérnek - az összehasonlítás tárgyán kívül - eszünkbe jutott? Biztos, hogy mindegyiket tudjuk mérni? Biztos, hogy mindegyiket jól ki tudjuk szűrni? Mindezeket látva adja magát a kérdés: akkor miért nem csinálunk mindig kísérletet?

Erre a kérdésre vannak nyilvánvaló és kevésbé nyilvánvaló válaszok. A legnyilvánvalóbb, hogy bizonyos helyzetekben egyszerűen lehetetlen: valószínűleg apróbb nehézségeink támadnának a kutatásetikai bizottság előtt egy olyan kutatási tervvel, amelyben szülő nőket randomizáltan akarunk „császármetszetni" - függetlenül attól, hogy szükségük van-e rá - azért, hogy kiderítsük, hogy a császármetszés okoz-e cukorbetegséget (pedig módszertani szempontból ez lenne a legjobb). Hasonlóan nehéz embereket randomizáltan légszennyezett és kevésbé légszennyezett területre költöztetni, csak hogy visszatérjünk az eredeti példánkra. Ilyen esetekben mindenképp maradnak a megfigyeléses vizsgálatok, azok minden bajával együtt is.

Az érdekes azonban az, hogy néha akkor is csinálunk megfigyeléses vizsgálatot, ha lehetne kísérletet is (vagy akár ténylegesen végeztek is kísérlet). Ez is mutatja, hogy a kísérleteknek más hátrányaik is vannak, túl azon, hogy drágák, idő- és szervezésigényesek.

Az egyik probléma, hogy a kísérletekben, épp az említett szervezésigény miatt, korlátozott a bevonható betegek köre. A néhány ezer fős kísérlet a legtöbb területen már nagynak számít, a tízezer fő pedig már nagyon nagynak, egy ennél is nagyobb kísérletet pedig csak extrém nehezen lehet megszervezni. (Ebből adódóan nagyon kevés ilyenre van példa. Az utóbbi idők legnagyobb orvosi kísérlete, melyben minden egyes alany egyénileg randomizálásra került, a CAPITA-kutatás volt, melyben azt vizsgálták, hogy egy pneumococcus elleni oltás tényleg csökkenti-e a pneumococcus okozta tüdőgyulladások előfordulását 65 év felett. Elképesztő számú alanyt, 85 ezer főt vontak be, ehhez két év és 101 központ kellett, megszámlálhatatlan közreműködővel; sejthetőleg százmillió dolláros nagyságrendbe került ez az egyetlen kísérlet.)

Hogy ez miért fontos? Azért, mert a nem elegendően nagy mintanagyság korlátozza, hogy milyen nagyságú hatást tudunk észrevenni, legyen szó akár kívánt hatásról, akár mellékhatásról, ha például egy gyógyszerről beszélünk. Ha kicsi a mintanagyság, akkor egy kis javulást vagy egy ritkán jelentkező mellékhatást nincs sok esélyünk észrevenni. Pontosan az előbbi a magyarázat a CAPITA esetére is: a pneumococcus okozta tüdőgyulladás nem fordul elő sűrűn, így az oltás, legyen bármilyen hatásos is, „darabra" csak kevéssel tudja csökkenteni a tüdőgyulladások számát. És csakugyan: még a 85 ezer alany is csak arra volt elég, hogy összesen kevesebb mint 200 - a vizsgálat szempontjából fontos típusú - tüdőgyulladás előforduljon. De ugyanez a helyzet a mellékhatások terén is: ha egy mellékhatás csak minden 10 ezredik embert érinti, akkor minden matematikai indoklás nélkül is érezhető, hogy egy 5 ezer fős kutatásban esélyünk sem lesz észrevenni, pedig ez egyáltalán nem kis kísérlet. Megfigyeléses vizsgálatokkal ezzel szemben összehasonlíthatatlanul könnyebben elérhető ilyen vagy akár ennél is nagyobb mintanagyság. Gondoljunk arra, hogy a megfigyeléses vizsgálat sok esetben úgy néz ki, hogy adatbázisokból kérdezünk le alanyainkra vonatkozó információkat - itt a kutatás tehát nem azt jelenti, hogy fizikailag alanyokat kell kezelnünk, hanem azt, hogy a számítógép előtt ücsörögve lekérdezéseket kell írogatnunk. A kettő bonyolultságát egy napon nem lehet említeni! Én magam is - harmincéves adjunktusként, két kutatótársammal - részt vettem olyan vizsgálatban, melyben néhány hónap alatt, és nulla finanszírozással, 400 ezer magyar beteg adatait dolgoztuk fel - a CAPITA esetében kutatók és segéderők ezreire és évekre volt szükség, meg mellesleg annyi pénzre, mint a Semmelweis Egyetem éves költségvetése, hogy 85 ezer alanyt össze tudjanak szedni.

A másik, előbbihez hasonló gyökerű probléma a kísérletekkel, hogy abban is korlátozottak, hogy mennyi ideig lehetséges az alanyok utánkövetése. A gyakorlatban néhány hónap vagy legfeljebb néhány év érhető el, de az alanyok kihullása a vizsgálatból - nem megy el a következő vizitre, mert elfelejti, elköltözik, elveszti az érdeklődését - már ekkor is általában igen nagy probléma. Ennél hosszabb kísérlet lényegében kivitelezhetetlen, vagy csak a legelemibb adatok (például: életben van-e egyáltalán még az alany) gyűjthetőek be. Világos, hogy ez miért gond: amíg a kevés alany azt limitálja, hogy milyen nagyságú hatást tudunk észrevenni, addig a rövid utánkövetés azt korlátozza, hogy mennyi idő alatt kialakuló hatást ­- legyen az akár kívánt hatás, akár mellékhatás - tudunk észrevenni. Szinte esélytelen, példának okáért, kísérlettel eldönteni, hogy egy gyermekkori táplálkozási szokás vagy orvosi beavatkozás okozhat-e tipikusan időskorban, vagy akár felnőttkorban jelentkező betegséget. De itt is elmondható: megfigyeléses vizsgálatokkal nem feltétlenül reménytelen a helyzet, hiszen adatbázisokból sokszor akár több évtizedes átfogású adatok is könnyen kigyűjthetők.

A harmadik lehetséges probléma a kísérletekkel, hogy a kísérletben részt vevő alanyok - még a legjóhiszeműbb tervezés esetén is - szükségképp elég speciális, „steril" populációt jelentenek, már pusztán abból is adódóan, hogy hogyan verbuválják ezeket az alanyokat. Ez mindig felveti azt a kérdést, hogy találjunk bármit is a kísérlet alanyai körében, az vajon mennyire vonatkoztatható az összes alanyra? Megfigyeléses vizsgálatoknál ez a probléma sokkal kevésbé jelentkezik: gyakran akár az összes alany is bevonható a vizsgálatba, így aztán egész biztos nincs probléma az összes alanyra vonatkoztatással. E kérdésre később még visszatérünk.

A jó, a rossz, és a közepesnél némileg gyengébben jó

Összességében véve tehát a legfontosabb megállapítás, hogy nem lehet olyat mondani, hogy a kísérlet és a megfigyelés közül az egyik „jó", a másik meg „rossz". Mindkettőnek jellemző előnyei és hátrányai vannak, így az, hogy melyik a szerencsés választás, mindig a konkrét kérdéstől függ: van, ahol az egyik, van, ahol a másik, a kérdés az, hogy az adott problémának mik a jellemzői. Az előbbi pontban mondottakat szem előtt tartva nagy vonalakban már mi is tudunk választani!

A „nincs jó meg rossz" a fentinél általánosabban is igaz. Minden kutatásnak vannak hibaforrásai. Egy ilyet már láttunk is, a confoundingot, a későbbiekben még többet meg fogunk ismerni. Bizonyos kutatásokban több vagy komolyabb súlyú hibaforrás van, másokban kevesebb. Van egy szó, amit nagyon szeretek erre: a bizonyítóerő. Kifejezi, hogy a tanulmányok ilyen értelemben vett értéke nem bináris, mint azt néhányan hajlamosak gondolni: nagyon ritkán van olyan, hogy egy kutatás „tökéletes" (és így ami abban olvasható, az úgy van és pont), vagy hogy „teljesen hasznavehetetlen" (ezért bármi is olvasható benne, semmit nem jelent). A valóságban ez egy folytonos skála: arról, hogy a szennyezettebb területeken több mentálisan beteg gyermek él, sem mondható, hogy semmit sem jelent (a confounding miatt) - csak épp borzasztóan alacsony a bizonyítóereje arra nézve, hogy a légszennyezettség mentális betegséget okoz.



Jót tesz-e a repülőgépből való kiesésnél, ha van nálunk ejtőernyő?

Valójában tehát nincs éles határvonal kísérletes és megfigyeléses bizonyíték között; minden kutatást a saját erényei és korlátai alapján kell értékelni. Ezt legékesebben az bizonyítja, hogy a különböző bizonyítékok „egy ligában játszanak", már olyan értelemben, hogy lehet, hogy az általánosságban gyengébbnek tekintett bizonyítékok - például megfigyeléses vizsgálatok ­- képesek lehetnek kiváltani a kísérletes bizonyítékokat. Kipróbálta-e bárki, hogy vakbélgyulladásban a vakbélműtét hatásos beavatkozás-e a semmittevéshez képest? Meglepődnék. Pedig borzasztó egyszerű volna! Csak fogni kellene 200 vakbélgyulladásos beteget, véletlenszerűen 100-at megműteni, és megvárni, amíg 99 gyógyultan hazamegy (nem 100-at mondtam, mert legyen a műtétnek is valamicske kockázata), 100-zal nem csinálni semmit, és megvárni, amíg 99 is az intenzív osztályra kerül perforált vakbéllel (nem 100-at mondtam, mert azért spontán is lehessen meggyógyulni), és voilà, meg is van az igen magas bizonyítóerejű bizonyítékunk a vakbélműtét hatásosságára! Egész érthetetlen módon nem tudok róla, hogy ezt bárki megcsinálta volna. Vagy mondjuk kipróbálta-e bárki randomizált kísérletben, hogy ha nagy magasságban kiesünk egy repülőgépből, akkor jót tesz-e, ha van nálunk ejtőernyő?

Bocsánat, ez utóbbi kérdésre lehet pontos választ adni: Smith és szerzőtársa 2003-as cikkükben - a neves orvosi folyóirat, a British Medical Journal karácsonyi különszámában jelent meg - nagyon alapos irodalomkutatást végeztek a témában. Pontosan definiálták az expozíciót (ejtőernyővel rendelkezés szabadesés esetén) és a végpontot (halál vagy komoly trauma - a traumatológiában általánosan használatos ISS sérüléssúlyossági pontszám 15-nél nagyobb - fellépése a földbe csapódáskor), rendkívül átfogó, több adatbázisra kiterjedő, pontosan dokumentált irodalomkeresést végeztek, majd arra a megdöbbentő eredményre jutottak, hogy elképesztő módon egyetlenegy vizsgálat sem volt, melyben embereket repülőgépből dobáltak volna ki, randomizáltan ellátva őket ejtőernyővel, és vizsgálva a végpontot! Azaz, mondják a szerzők - nyilván a kísérletek mindenekfeletti mivoltát hirdetőkön gúnyolódva -, igazából nem tudhatjuk, hogy jót tesz-e, ha van nálunk ejtőernyő, ha kiesünk egy repülőgépből. A másik dolog, amit mindig észben kell tartani: ha el kell döntenünk egy kérdést, akkor - természetesen - az összes rendelkezésre álló bizonyítékot fel kell használnunk. A második kifejezés, amit nagyon szeretek: a „bizonyítékok összessége" szemlélet. Nem lehet kiragadni egy konkrét kutatást, különösen, ha rengeteg készült a számunkra érdekes kérdés vizsgálatára. Márpedig egy sor ilyen témakör van; ezekben az esetekben az, hogy egy konkrét kutatás mit talált, nem sokat jelent. Szoktam mondani, hogy számos kérdés esetében, ha kapok öt percet és egy számítógépet internetkapcsolattal, akkor legalább egy kutatást minden állításra és az ellenkezőjére is találok. El kell tehát felejteni az olyan szalagcímeket, hogy „A legújabb kutatás bizonyította, hogy" - nem az az érdekes, hogy a legújabb mit bizonyított, hanem az, hogy összességében mit bizonyítanak a kutatások. Hasonlóan félrevezetések alapjai lehetnek az olyan mondatok - noha elsőre nagyon tudományosnak látszódnak -, miszerint „ez tehát ilyen hatást okoz (Doe, 2016)" (különösen laikusok megtévesztésére alkalmas ez, akik hajlamosak azt gondolni, hogy mivel ez egy ilyen komolyan kinéző, tudományos hivatkozással ellátott állítás, akkor így kell legyen - ha egyszer itt az alátámasztó kutatás). Valójában azonban ez nem sokat jelent, még ha Doe tényleg ezt is találta, azonban 20 másik kutatás meg az ellenkezőjét.  


Láttuk tehát, hogy ha a kérdésünk vizsgálatára tudunk kísérletet végezni (azaz tudjuk aktívan befolyásolni az expozíciót), akkor jó helyzetben vagyunk, mert tudunk randomizálni, és innentől elég egyenes az út: a csoportok közti különbség ez esetben tényleg biztosan a vizsgált expozíciónak - és ezen felül legfeljebb a véletlen ingadozásnak - tudható be. Néha azonban ez nem célszerű vagy lehetetlen - mint épp a légszennyezéses példánkban is. Erről eddig annyit mondtunk, hogy ez esetben, ha eszünkbe jut, hogy mik a confounderek, és le tudjuk őket mérni, akkor valamilyen módon ki lehet szűrni a hatásukat - hiába megfigyelésesek az adataink.

De mégis hogyan? Mi ez a „valamilyen mód"? Erre a kérdésre a következő részben fogunk válaszolni.


Hozzászólások