Az orvoslás tévedései 8. rész – Hogyan mérjünk hatást?

Legutóbb azzal fejeztük be, hogy az általános bevezetés végére értünk, rátérhetünk az orvosi kutatások menetének konkrét kérdéseire. Az első konkrétum, amellyel meg kell ismerkednünk, a végpont lemérése. Megbeszéltük, hogy a végpont a számunkra érdekes kimenet, például hogy a beteg infarktust kap. De hogyan lehet ennek a kockázatát számszerűsíteni, és hogyan lehet a gyógyszer ezt csökkentő (vagy ártalmas expozíció ezt növelő) hatását egyetlen számban kifejezni?

Az előző rész itt olvasható.

A hatás számszerű „lemérése" azt jelenti: miként tudjuk egy számba sűríteni azt, hogy az adott expozíció hogyan változtatja a kockázatot. Az egyszerűség kedvéért szorítkozzunk most egyetlen esetre, mely a gyakorlatban is az egyik legfontosabb, és egyúttal az általános jelenségek is jól illusztrálhatók rajta: arra, ha a végpont két lehetséges kimenetet vehet fel, úgy is szokták mondani, bináris vagy dichotóm. Ilyen az, hogy az alany meghalt-e adott időn belül, rákos lett-e, mentális beteg lett-e, és így tovább. Hogy egyéb problémákkal ne bonyolítsuk a kérdést, mondjuk, hogy két összehasonlított csoport van (exponált és nem exponált: gyógyszert kapó a gyógyszert nem kapóval szemben, légszennyezett területen élő a nem légszennyezett területen élővel szemben, és így tovább), valamint hogy nincs confounding, például egy tökéletesen kivitelezett kísérletet végeztünk.

Az első megállapítás, hogy ebben az esetben a kockázat egy arány: a csoportból az alanyok mekkora hányada érte el a végpontot, például hány százalék kapott adott időn belül infarktust. A „hatás lemérése" tehát azt jelenti, hogy két arányt kell összevetnünk: ha 100 exponáltból 1 érte el a végpontot, akkor 1% az egyik arány, ha a nem exponált 200 főből 4, akkor 2% a másik. Na de mit értünk összevetés alatt? Ennek megválaszolása mondja meg, hogy hogyan mérjük le a hatást. Az érdekes az, hogy még ebben az elképzelhető legegyszerűbb helyzetben (egyetlen bináris végpont, két csoport) is nagyon nem nyilvánvaló problémákra vezet ez a kérdés.


Mikor adjunk gyógyszert?

Az egyszerűség kedvéért mondjuk, hogy egy koleszterinszintet csökkentő gyógyszert vizsgálunk. A végpont, hogy az alany infarktust kap-e adott időn belül. Azt tapasztaljuk, hogy a gyógyszerrel kezelt csoportban egy év alatt 1% kap infarktust, a gyógyszert nem kapó kontrollcsoportban 2%. Akkor most mit mondunk?

A. A fantasztikus gyógyszerünk 50%-kal csökkenti az infarktusrizikót!
B. A fantasztikus gyógyszerünk nélkül 100%-kal nagyobb az infarktusrizikó!
C. Ezzel a gyógyszerrel 100 embert kezelve 98-at feleslegesen kezelünk (hiszen gyógyszer nélkül sem kapna infarktust), 1-et hiába kezelünk (hiszen a gyógyszerrel együtt is infarktust kap), és csak 1 az, akinél elérünk valamit. Miközben mind a 100-at kitesszük a mellékhatások kockázatának, és mind a 100-zal kifizettetjük a gyógyszert. Ugye mennyire máshogy hangzik? Pedig csak osztani kell tudni, hogy lássuk: ez a három állítás igazából ugyanaz!

A fenti példák rámutatnak a hatás mérésének két alapvető lehetőségére: arra, ha a két arányt elosztjuk egymással (ezt szokás relatív rizikónak nevezni), és arra, ha kivonjuk őket egymásból (abszolút rizikókülönbség). Ha osztunk, akkor kapjuk az első két megfogalmazást (például 1%/2%=0,5, amit úgy is kifejezhetünk, hogy -50%), ha kivonunk, akkor a harmadikat (2%-1%=0,02-0,01=0,01=1 százalékpont, ami épp az 1 a 100-ból).

Az első tanulság a fentiekből, hogy a racionális gyógyszerelés alapját az abszolút mutató jelzi. Szemben azzal, amit esetleg elsőre gondolhatna az ember, hogy tudniillik a gyógyszer adásának mérlegelésekor a gyógyszer mellékhatásait kell a megelőzni kívánt végpont szövődményeivel összevetni, a fenti mutatja, hogy valójában a gyógyszer mellékhatásait be kell szorozni 100-zal, és úgy hasonlítani az infarktushoz! Hiszen 100 embert kell kitenni ezeknek ahhoz, hogy egyetlen infarktust megelőzzünk. Egy következmény azonnal látható: ritka betegségek megelőzésére csak nagyon biztonságos gyógyszerek használhatók. (A nem megelőző, hanem gyógyító jellegű készítmények pedig végképp előnyben vannak ilyen szempontból, hiszen ott nem kell arra tekintettel lenni, hogy kezelés nélkül sem biztos, hogy baja lesz az alanynak.) A klinikai döntéshozatal szempontjából tehát az abszolút hatás a mérvadó. De akkor miért használjuk egyáltalán a relatív mutatókat?


Kísérletek résztvevői

Avagy végre kiedrül, hogy jót tesz-e repülőgépből való kiesésnél, ha van nálunk ernyő. Kezdjük a kérdést egy picit messzebbről! Korábban már volt róla szó, hogy a klinikai kísérleteknek ‒ azon hatalmas előny mellett, hogy teljes mértékben védettek tudnak lenni a confoundinggal szemben ‒ három, helyzettől függően kisebb vagy nagyobb hátrányuk van. Az egyik, hogy korlátozott az elérhető mintanagyság - emiatt kicsi hatásokat (kismértékű vagy keveseket érintő hatásokat), legyen szó akár pozitív hatásról, akár mellékhatásról, nem tudunk észrevenni. A második, az előzőhöz nagyon hasonló limitáció, hogy korlátozott az utánkövetési idő, ezért a lassan fellépő hatásokat nem tudjuk észrevenni.

A harmadikról azonban eddig még nem beszéltünk részletesen: arról, hogy a klinikai kísérletekben részt vevő betegek jellemzői szinte mindig eltérnek - néha nem is kicsit - a betegek összességének jellemzőitől. Nevesítve: a klinikai kísérletekben részt vevő betegek legtöbbször fiatalabbak, mint általában véve a betegek, több köztük a férfi, ritkábbak a társbetegségek. De miért van ez így?

A jelenségnek vannak jóhiszemű és kevésbé jóhiszemű magyarázatai. Az első szűrő kapásból az, hogy bár a történelemben ez sajnos nem volt mindig így, de manapság már a klinikai kísérletekben kizárólag önkéntesek vesznek részt. Ez azt jelenti, hogy még ha a felkért betegek tökéletesen meg is felelnek összetételben az összes betegnek, azok, akik vállalják a részvételt, már rögtön nem fognak, hiszen az önkéntesség önmagában jelent eltérő jellemzőket (például a férfiak inkább hajlandók kipróbálni ilyen kockázatos dolgokat). Ezzel pedig lehetetlen bármit is kezdeni, hiszen az az önkéntesség megsértését jelentené. A valóságban ráadásul a felkért betegek köre már önmagában is eltérő lesz: az ilyen klinikai kísérleteket tipikusan nagy, magas szinten lévő, városi centrumok végzik; az önmagában sokszor szűrés, például szocioökonómiai státusz szerint, hogy egyáltalán ki az, akit ilyen centrum lát el. A végeredmény az, hogy simán előfordulhat, például a kardiológiában ahol erre jó adatok vannak, hogy egy kísérletben a „standard ellátást" kapó kontrollcsoport halálozása fele a - definíció szerint szintén standard ellátásra vonatkozó - országos értéknek! Mindezek tetejébe jönnek a bevonási és kizárási kritériumok, ezek határozzák meg, hogy milyen betegek vehetnek részt a kísérletben, és kik azok - például életkor, társbetegségek, kórelőzményi adatok vagy épp súlyosság szerint -, akik nem. Itt megjelennek a kevésbé jóhiszemű szempontok is: a szponzornak (a szakzsargonban így szokták hívni a kísérlet finanszírozóját) gyakran érdeke, hogy olyan betegek kerüljenek be, akiknek a legjobb a gyógyhajlama, hogy a vizsgált szer a legjobb színben tűnhessen fel. Erre pedig a bevonási és kizárási kritériumok meghatározásán keresztül lehet ráhatásuk.

Csak egyetlen példa mindezek eredőjének illusztrálására: Travers és munkatársai egy emlékezetes, 2007-es cikkükben véletlenszerűen kiválasztott, „való életbeli" asztmás betegeknél nézték meg, hogy milyen gyógyszereket szednek a betegségükre, és hogy azokat a gyógyszereket milyen bevonási és kizárási kritériumú kísérletek alapján törzskönyvezték. Ezután összevetették a betegek adatait e kritériumokkal, és megnézték, hogy mekkora hányaduk vehetett volna részt az egyes kísérletekben; íme a százalékok: 5, 7, 6, 6, 0, 4, 2, 1, 7, 8, 7, 36, 2, 1, 1, 2 és 3. Látható, hogy egyetlen kísérlet volt, ahol legalább a két számjegyű százalékot sikerült elérni, egyébként az 1-3% a tipikus, de a legjobb, hogy olyan kísérlet is volt, aminél konkrétan nem találtak élő beteget, aki jogosult lett volna részt venni benne. Amiben ugye az a vicces, hogy utána a betegeket kezelik azokkal a gyógyszerekkel, amelyeket ilyen kísérletek alapján törzskönyveztek.

Ezek az arányok egyáltalán nem kiugróak, számos területen tapasztalható, hogy éves nagyságrendben kell várni, hogy elég beteg összegyűljön, mivel 80, 90, vagy annál is nagyobb százalékuk nem jogosult a részvételre. Ezt a jelenséget hívják szelekciós torzításnak; szokás beszélni a kísérlet külső validitásáról vagy általánosíthatóságáról is, hiszen a kérdés az, hogy bármit is találunk a kísérletbe bevont alanyok csoportján belül, az vajon mennyire vonatkoztatható az összes betegre általában. Így már talán még jobban érthető, hogy miért mondtuk annak idején, hogy ez a megfigyeléses vizsgálatok egyik előnye: ott sokkal kevésbé kell aggódnunk azon, hogy az eredmények mennyire vonatkoztathatók az összes betegre, hiszen nem ritka, hogy akár az összes beteg is bevonható a vizsgálatba.

Ha már a korábban mondottaknál tartunk: talán emlékszik a nyájas olvasó, hogy a tudomány jelen állása szerint nem tudhatjuk „biztosan", hogy jót tesz-e, ha van nálunk ejtőernyő, amennyiben kiesünk egy repülőgépből, legalábbis, ha a biztosan alatt azt értjük, hogy „kísérlettel megvizsgálva". Hivatkoztam is Smith és szerzőtársa cikkére, mely az igen tekintélyes British Medical Journal 2003-as karácsonyi számában jelent meg, és amelyben rendkívül alapos kutatással feltárták, hogy egyetlenegy ilyen kísérletet sem végeztek. (Nyilván gúnyolódva azokon, akik a kísérleteket mindenhatónak állítják be.) Nos, jelenthetem, hogy az orvostudomány fejlődése megállíthatatlan, ugyanis a helyzet azóta megváltozott! A British Medical Journalben december 13-án, természetesen csak teljes véletlenségből megint a karácsonyi különszámban, megjelent a történelem első kísérletes vizsgálata, amely az ejtőernyő hatásosságát vizsgálta. A kísérlet alanyai tökéletesen randomizáltan kaptak vagy ejtőernyőt, vagy ejtőernyőt nem tartalmazó hátizsákot, ezt követően kiugrottak a repülőgépből, majd a kutatók rögzítették a földbe csapódáskor fellépő halálozások, illetve súlyos sérülések (a traumatológiában általánosan használatos ISS sérüléssúlyossági pontszám 15-nél nagyobb) fellépését. A kísérlet igen gondos tervezésű volt, az előző részben látott módon határozták meg a mintanagyságot, rögzítettek számos fontos betegjellemzőt, még arra is ügyeltek, hogy a felhasznált ejtőernyők, sőt, hátizsákok típusát és gyártóját dokumentálják, beszerezték az etikai engedélyt a kísérletre, stb. Egyszóval egy minden elvárásnak megfelelő kutatásról van szó. Hadd fussak előre: a vizsgálat szerint az ejtőernyő megléte nem csökkentette a földet éréskor bekövetkező halálozások és súlyos sérülések számát!

Hogy ezt miért pont most, a klinikai kísérletek résztvevőinek speciális összetételéről szóló résznél mondom? Ehhez érdemes közelebbről megnézni a kísérlet pontos lefolytatását.

A részvételre felkért alanyok két csoportból kerültek ki: egy részüket sugárhajtású repülőgépen repülés közben interjúvolták meg, hogy vállalják-e a kiugrást randomizáltan ejtőernyővel vagy hátizsákkal, más részüknek repülőgép-múzeumban, egy földön álló kisrepülőben tették fel ugyanezt a kérdést (1. ábra). A fent említett eredményhez talán azt a mellékes információt érdemes hozzátenni, hogy az előbbi csoportból 0% vállalta a részvételt, míg az utóbbiak közül 100% (erre nincs ráhatásunk, önkéntesség, ugyebár!), így apróbb eltérések keletkeztek a klinikai kísérletbe bekerülő és be nem kerülő alanyok között: az utóbbiak esetében a repülőgép átlagos sebessége 800 km/h volt, az előbbieknél 0 km/h, az utóbbiaknál az átlagos ugrási magasság 9146 méter, az előbbieknél 60 centiméter.


1. ábra: Példa a kísérletben részvételt vállaló alanyra (kontroll ­- hátizsák - csoport). Fontos megjegyezni, hogy a képen látható alany nem halt meg, illetve nem szenvedett súlyos traumás sérülést a földbe csapódáskor.

Az említett eredmény úgy jött ki, hogy mind az ejtőernyős csoportban, mind a kontrollcsoportban 0 halálozás, illetve súlyos sérülés fordult elő. Tehát: nincs különbség.

Nagyon fontos újra hangsúlyozni, hogy a kísérlet szervezői mindenféle kockázatnak kitett alanyt igyekeztek verbuválni, arról már nem tehetnek a szerzők, hogy történetesen a részvételt vállalók köre „némileg" speciálisra sikeredett - és pont arra akarják felhívni a figyelmet, hogy ez egy valódi klinikai kísérletben is előfordulhat. Zárásként adjuk vissza a szót a szerzőknek: „a magas kockázatnak kitett alanyok részvételének a hiánya elképzelhető, hogy befolyásolta a vizsgálat végeredményét".


Mutatók stabilitása

Egy dolog azonban még mindig lóg a levegőben: mi köze ennek a relatív és abszolút mutatókhoz? Bármilyen furcsa is lehet elsőre, de nagyon sok: ha relatív mutatót használunk, az az egész fenti problémát sok esetben meg tudja oldani, vagy legalábbis jelentősen enyhíti!

A klinikai kísérletekben fiatalabbak az alanyok, kevésbé súlyos az állapotuk, kevesebb társbetegségük van? Igen. Emiatt jobb a gyógyhajlamuk, mint a betegeknek általában? Igen. Csakhogy mi, ha relatív mutatót használunk, akkor nem is ezt nézzük, hanem azt, hogy egymáshoz képest hogyan viselkednek a kezelt és kontrollcsoportok. Igen, fiatalabbak, de a kezelt és a kontrollcsoport egyaránt fiatalabb, márpedig őket egymáshoz hasonlítjuk. Lehet, hogy a klinikai kísérletben 10% a halálozás a kontrollcsoportban, míg a valóságban 20, de ha ez 8-ra megy le a kezelés hatására, akkor reménykedhetünk benne, hogy a 20 meg 16-ra fog. Igen, a klinikai kísérlet betegeinek összetétele eltérő volt, ezért a halálozási arányok is mások voltak, de a relatív viszonyok állandóak! Ha ez igaz, tehát a relatív mutató stabil, akkor onnantól nem is annyira számít, hogy a klinikai kísérlet betegei tényleg speciális populációt jelentenek-e, hiszen mi úgysem az abszolút számokat fogjuk felhasználni, hanem a relatív viszonyokat - ami viszont a nem speciális populációra is érvényes.

De tényleg stabilak a relatív mutatók? A tapasztalatok szerint igen. Fontos előrebocsátani, hogy ez nem valamiféle matematikai törvényszerűség, és nincs is rá garancia, hogy mindig teljesüljön (épp emiatt még ennek fényében is igen hasznos, ha a klinikai kísérlet alanyai nem nagyon speciálisak), de nagy általánosságban véve a relatív mutatók meglepően stabilak. Erre mutat példát a következő táblázat egy koleszterinszintet csökkentő gyógyszercsalád néhány kísérletén keresztül.

Kísérlet neve Kontrollcsoport rizikója Relatív rizikó Abszolút rizikókülönbség
[százalékpont]
Utánkövetés hossza [év]
JUPITER 0,48%
0,81 (-19%) 0,09 1,9
AFCAPS/TexCAPS 0,76% 0,68 (-32%) 0,24 5,2
ASCOT-LLA 1,60% 0,90 (-10%) 0,16 3,3
WOSCOPS 2,22% 0,68 (-32%) 0,70 4,9
CARE 6,26% 0,86 (-14%) 0,87 5,0
HPS 9,13% 0,83 (-17%) 1,52 5,0
4S 9,31% 0,66 (-34%) 3,19 5,4
LIPID 9,62% 0,76 (-24%) 2,28 6,1
PROSPER 10,06% 0,86 (-14%) 1,38 3,2

1. táblázat: Különböző kísérletek, melyben a sztatinnak nevezett koleszterinszint-csökkentő készítmények hatását vizsgálták. A táblázat a szív- és érrendszeri eredetű halálozások arányát mutatja a kísérlet utánkövetése alatt. Az utolsó oszlop az utánkövetési idő hossza (átlag vagy medián, függően attól, hogy a tanulmány mit közölt).

Gyönyörűen látható, hogy a gyógyszereket nagyon-nagyon különböző populációkban próbálták ki: volt, ahol csak 0,48% halt meg szív- és érrendszeri okból a kontrollcsoportban, de volt, ahol több mint hússzor ennyi. (Ez a kezelés nélküli rizikó, ez jellemzi tehát, hogy milyen alanyok körében végezték a kísérletet.) Az abszolút rizikókülönbség ennek megfelelő drámai eltéréseket mutat, a legkisebb és a legnagyobb között több mint harmincötszörös a különbség. Igen ám, de - és most jön a lényeg - mindeközben a relatív hatás bámulatosan állandó, 10 és 30% közötti kockázatcsökkenés látható függetlenül attól, hogy milyen kockázatú populációban végezték a vizsgálatot. Az elsőként felsorolt kísérletet olyan populációban végezték, hogy kezelés nélkül fél százalék halt meg, az utolsót olyanban, ahol több mint 10, de a gyógyszer relatív hatása alig tér el.

Mindezeket úgy is elmondhatjuk: a jelek szerint a gyógyszerre saját magára jellemző tulajdonság a relatív hatás, az az, ami állandó. Az abszolút hatás egy származtatott mutató, egy eredő: a (gyógyszerre jellemző) relatív hatás, és az (adott populációra jellemző) kockázat szorzata. A relatív hatás állandó, az abszolút hatás attól függ, hogy mennyi a kezelés nélküli kockázat: ahol nagy (például idős, sok társbetegséggel rendelkező beteg), ott az abszolút csökkenés is nagy lesz, ahol kicsi, ott kicsi (2. ábra).

2. ábra:
Ugyanolyan (20%-os) relatív csökkenés abszolút hatása attól függ, hogy honnan indulunk: minél nagyobb a kezelés nélküli kockázat, annál nagyobb abszolút különbség tartozik ugyanakkora relatív csökkenéshez.

Ennek két nagyon fontos következménye van. Az egyik, hogy egy kísérlet eredményének megadásakor igenis jogos a relatív mutató használata, hiszen egy gyógyszerkísérletben értelemszerűen azt kell kimérni, ami magára a gyógyszerre jellemző. A másik, hogy ez persze nem változtat azon, hogy a klinikai döntéshozatal szempontjából az abszolút különbség a mérvadó. Sőt, ez rögtön érthetővé teszi, hogy miért van az, hogy egy fiatal, terhelő kórelőzmény nélküli, egyébként egészséges betegnek lehet, hogy nem ilyen gyógyszert fog felírni az orvos, míg egy idős, korábban szívinfarktuson átesett, cukorbeteg páciensnek igen. Nem azért, mert azt gondolná, hogy az előbbi esetben nem hat a gyógyszer, az utóbbi esetben viszont igen. Könnyen lehet, hogy pontosan ugyanúgy hat a gyógyszer, azaz pontosan ugyan­úgy 20% kockázatot csökkent, csakhogy ez a -20% az előbbi esetben ‒ mivel alacsonyról indulunk ‒ nagyon kis abszolút kockázatcsökkenés (és így a gyógyszer mellékhatásai nagyobb súllyal esnek latba), míg az utóbbi esetben fordított a kockázat/haszon mérleg.

A kettőt összerakva láthatjuk, mi a helyes eljárás: a kísérletben azt kell kimérni, ami stabil és ami a gyógyszerre jellemző, aztán ezt az információt a konkrét klinikai alkalmazásban kontextusba kell helyezni. Azaz a kísérletből ismert, gyógyszerre jellemző relatív mutatót az adott konkrét beteg jellemzői, például társbetegségei vagy életkora alapján át kell számolni abszolút mutatóra ‒ és ez alapján dönteni.

Most, hogy mindent értünk, némileg a legelső példa is újraértékelhető. Abból ugyan nem került ki túl jól a gyógyszer (100 beteget kellett kezelni egy infarktus elkerüléséhez), de nézzük csak meg a számokat: 2% infarktusrizikó még kezelés nélkül is? Miközben Magyarországon 15 ezer ember kap infarktust - minden egyes évben! Ez meg hogyan lehet? Az 1 és 2% persze nyilván kerek szám volt a példa kedvéért, de ha megnézzük a táblázatot, nagyságrendileg nem tévesek, tényleg van számos nemzetközi kutatás ilyen számokkal (pedig máshol sem sokkal kisebb az infarktusrizikó).

A választ akkor kapjuk meg, ha ránézünk a táblázat jobb szélső oszlopára is: e kutatások utánkövetési ideje mindössze néhány év volt. Az infarktusrizikó azonban nemhogy több év, hanem inkább évtizedek alatt épül fel, e gyógyszereket is ilyen távon szedik igazából a betegek. E kutatásokat tehát nem lehet a valós helyzetre közvetlenül rávetíteni. Illetve nem lehetne, ha nem lenne a relatív rizikó! Ugyanis a kis kockázatú populáció nemcsak azt jelentheti, hogy fiatal, meg nem cukorbeteg, hanem azt is, hogy kevés ideig utánkövetett, a nagy kockázatú meg nemcsak az idős és cukorbeteg lehet, hanem a realisztikus ideig utánkövetett. Az előző megállapításunk tehát azt mondja ez esetben, hogy a kísérletből ne az abszolút kockázatot olvassuk ki, hiszen az rövid utánkövetésre vonatkozik, nem a valóságra. Olvassuk ezzel szemben ki a relatív kockázatot, hiszen az stabil (reményeink szerint a különböző utánkövetési időkre nézve is), és azt használjuk: számítsuk át, hogy mi történne hosszabb, azaz a valóságnak megfelelő utánkövetési idő alatt. A példa egyéves utánkövetést írt; kiszámítható, hogy öt év alatt a kontrollcsoport kockázata már 9,6%, nem 2%. Ha a -50% állandó marad, akkor az abszolút különbség máris 4,8 százalékpont, nem 1 százalékpont - 21 embert kell kezelni egy infarktus megelőzéséhez. Tíz év alatt a kockázat 18,3% (látszik, hogy szépen közeledünk a valós kockázatokhoz), a gyógyszer abszolút hatása 9,1 százalékpont csökkenés - 11 embert kell kezelni egy infarktus megelőzéséhez, azaz már csak 11-gyel kell szorozni a gyógyszer mellékhatásait a kockázat/haszon mérlegelésnél. Máris máshogy hangzik!  

Ezzel a hatások lemérésének alapjait tisztáztuk. Az abszolút és relatív mutatóknak lesz azonban még jelentőségük, és a végpontok kapcsán nem a lemérés az egyetlen izgalmas kérdés - de ezekről majd a következő részben olvashatnak!

A sorozat következő része itt olvasható.


Hozzászólások