Andrus Veerpalu mõisteti dopingusaagas õigeks. Miks? Aga sellepärast, et polnud piisavalt alust arvata, et kasvuhormooni testi piirmäärad oleksid õiged. Aga mis asi see piirmäär siis õigupoolest on? Ja mis olid need argumendid, miks Rahvusvaheline Spordiarbitraaž (CAS) testi piirmäärade paikapidavusse ei usu?

Väited kasvuhormooni testi ja kohtuotsuse kohta põhinevad 75-leheküljelisel CASi raportil, kõik joonised on aga illustratiivsed ja põhinevad genereeritud (suvalistel) andmetel. Lisaks küsisin suurepäraselt biostatistikult,  Veerpalu teadlastetiimi liikmelt Krista Fischerilt, kas olen kohtuotsusest õigesti aru saanud.

 

Kuidas koostatakse statistilist testi?

1. Defineerime hüpoteesid

Esimese sammuna statistilise testi koostamisel sõnastatakse hüpoteesid, mille paikapidavuses soovitakse veenduda. Kuna dopingutesti eesmärgiks on kontrollida, kas sportlane on patustanud, on nendeks hüpoteesideks järgmised kaks väidet:

H0: Sportlane on puhas

H1: Sportlane on tarvitanud dopingut.

Nagu süütuse presumptsioonile kohane, eeldame vaikimisi, et sportlane on puhas (seda nimetatakse nullhüpoteesiks ja tähistatakse H0).

 

2. Teststatistik

Nüüd on küsimus selles, kas meil on piisavalt “tõendusmaterjali”, et saaksime väita, et sportlane on tarvitanud dopingut. Selleks mõeldakse välja mingi mõõdik (teststatistik), mille põhjal hakatakse edasisi otsuseid tegema. Kasvuhormooni testi puhul oli selleks kasvuhormooni (hGH) isovormide suhe. Saame väita, et sportlane on dopingut tarvitanud, ainult juhul, kui on äärmiselt ebatõenäoline, et nii kõrge/suure/imeliku testitulemuse (hGH isovormide suhte) saab puhas sportlane. Vastasel juhul pole meil mingit alust teda selles süüdistada.

 

3. Teststatistiku jaotus nullhüpteesi korral

Nüüd olemegi testi koostamisega jõudnud juba sinnamaale, et tuleb määrata piir, millest alates annab test tulemuseks “kasutas dopingut”. Kuidas seda piiri määrata? Selleks on meil vaja teada, millised on nende sportlaste hGH suhted, kes pole dopingut tarvitanud. Paraku ei ole see näitaja konstantne, tulemused võivad erineda indiviiditi ning isegi ühe sportlase erinevatel mõõtmistel. Seega ei ole üldse lihtne ülesanne öelda, milline on piir dopingu tarvitajate ning mittetarvitajate vahel.

Saamaks teada, milline on kasvuhormooni isovormide suhe kõigil neil sportlastel, kes pole dopingut tarvitanud, kogus WADA esmalt (enne testi kasutuselevõttu) 106 näitu, mõned neist pärinevad näiteks 2009. aasta kergejõstiku MM-ilt.

Oletame, et need suhted tulid sellised, nagu joonisel näha (need andmed on illustratiivsed):

plot1

Alternatiivselt võime need andmepunktid esitada histogrammina.

plot2

Praegu teame seda näitu ainult 106 sportlase kohta. Soovime aga, et meie väited kehtiksid kõigi sportlaste kohta, see tähendab, et
soovime teha selle valimi abil üldistusi üldkogumi kohta. Selleks sobitatakse matemaatiline mudel nendele andmetele.

plot3

Kui sportlane on puhas, siis peab test õigesti tagastama, et see tõesti nii ka on. Kahjuks ei ole testid ideaalsed. Üldiselt on võimalik teha kahte erinevat viga:

1. väita puhta sportlase kohta, et ta on tarvitanud dopingut,

2. väita dopingut tarvitanu kohta, et ta on puhas.

On selge, et neist esimene on väga tõsiste tagajärgedega viga (just nagu kohtus süütu inimese süüdi mõistmine) ning sellist viga soovime iga hinna eest vältida. Sellist viga nimetatakse ka valepositiivseks tulemuseks. Antud testi puhul on lubatud sellist viga teha ainult 0,01% juhtudel. See tähendab, et 99,99% puhaste sportlaste korral peab see test näitama negatiivset tulemust.

Teise vea tegemine ei ole nii väga tõsiste tagajärgedega (just nagu kohtus jääb aeg-ajalt inimesi süüdi mõistmata asitõendite vähesuse tõttu). Lihtsalt, kui me testi piirnormi väga kõrgeks seame (näiteks tahame, et puhaste sportlaste korral näitab test 100% juhtudel negatiivset tulemust), võib juhtuda, et teeme väga palju selliseid vigu, kuna me ei suuda kellegi kohta väita, et ta on dopingut tarvitanud. Sellisel juhul on see test lihtsalt mõttetu ning meil tasuks kaaluda, kas selline testimine omab üldse mingit mõtet.

 

4. Piirnormi arvutamine

Seega on piirnormi valikul meie kriteeriumiks: kui sportlane on puhas, siis test peab seda ka 99,99% juhtudel näitama.

Ehk teisisõnu: otsustuspiiri tõmbame sinna, kus keskmiselt tuleb 1 valepositiivne tulemus 10 000-st testist.

Ehk teisisõnu: tahame tõmmata piiri sinna, millest suurem hGH isovormide suhe esineb vaid keskmiselt ühel puhtal sportlasel 10 000st.

Eelnevalt oleme andmetele sobitanud matemaatilise mudeli (statistilise jaotuse). Oleme otsustanud valida sellise piirnormi, et puhta sportlase testitulemus oleks 99,99% juhtudest negatiivne. Nüüd on piirmäära leidmine vaid kerge rehkendus kasutades sobitatud matemaatilise mudeli omadusi (statistikatarkvaras põhimõtteliselt ühe käsu rakendamine).

Mõned tähelepanekud:

1.) Nägime, et kui on määratud, mida me testiga mõõdame (kasvuhormooni isovormide suhet), siis test sõltub suuresti vaid sellest, milliseks hindasime üldkogumi jaotuse, sest piirmäär arvutatakse jaotuse põhjal. Üldkogumi jaotuse hinnang sõltub suuresti aga valimi suurusest ja matemaatilise mudeli valikust. Varsti näeme, et mõlemaga oli selle testi puhul probleeme.

2.) Me ei tea, milline on dopingut tarvitanud sportlaste hGH suhte jaotus. Oleme lihstalt otsustanud, et kui kellegi hGH suhe on ebatavaliselt kõrge puhta sportlase kohta, siis on ta dopingut tarvitanud.

Ideaalis võiks olla dopingut tarvitanud ning puhaste sportlaste hGh suhe väga selgesti eristatav:

plot4

Sel juhul eristaks test patustanu ja puhta sportlase suurema vaevata.

Mõistlikum oleks praeguse testi puhul aga arvata midagi järgmist:

plot5

Ehk puhaste sportlaste ja dopingut tarvitanud sportlaste hGH suhte väärtused kattuvad (tegelikult võib ka dopingutarvitajatel esineda nullilähedasi väärtuseid ning dopingutarvitajate jaotusel võib-olla lihtsalt pikem ja raskem saba, seega jaotused kattuvad ilmselt palju rohkemgi kui joonisel näidatud).

Siit jooniselt näeme ka seda, et kui soovime valepositiivsuse tõenäosuse väga väikeseks viia, siis tuleks valida nii kõrge piirnorm, et test ei võtaks vahele ühtegi dopingutarvitajat.

3.) Kõlama on jäänud väide, et test ise on usaldusväärne, aga piirmäärad on valed. Nagu eelnevalt oleme näinud, siis võib väita, et “piirmäärad, see ongi test”. Ehk piirmäär on üks olulisemaid komponente statistilisest testis. Korrektselt valitud piirnormita ei saa ka test usaldusväärne olla. CASi raportit lugedes selgub, et fraasiga “test on usaldusväärne” on lihtsalt mõeldud, et testiga mõõdetakse tõesti hGH isovormide suhet.

 

CASi argumendid Andruse õigeks mõistmisel

Mis olid need lõplikud argumendid, miks CAS andis Andrus Veerpalule õiguse? Ehk miks olid piirmäärad valesti määratud?

 

1. Andmepunktide eemaldamine andmestikust

Testi piirmäärade verifitseerimisel (kontrollimisel) viskas WADA mõned mõõtmistulemused andmestikust välja. Nende sõnul olid väljavisatud andmepunktid erindid või dopingupatustajad. Mõistagi ei ole teada, kas need kõrged hGH suhted olid valenegatiivsed või tegelikult ka dopingupatustajate näitajad. Üldiselt on andmeanalüüsis osade mõõtmistulemuste kõrvalejätmine väga-väga halb toon. Sedasi toimides saaksime ju alati välja valida endale sobivamad vaatlused ning väita “statistika abil” kõike, mida soovime.

 

2. Väike valimi maht

Testi otsustuspiirid olid määratud vaid 106 sportlase põhjal, kui testiga hakati juba sportlaseid “vahele võtma”. Samas eeldati, et test teeb vaid 1 vea 10 000 testis. Sellise täpsuse saamiseks oli valimimaht ilmselgelt liiga väike.

 

3. Millist matemaatilist mudelit kasutati?

See on vast kõige olulisem punkt. WADA rääkis endale vastu ja vahetas poole pealt oma arvamust seoses sellega, millist matemaatilist mudelit (jaotust) nad piirmäärade seadmisel kasutasid.

Algselt väideti, et kasutati log-normaaljaotust.

Tsiteerime nüüd Eesti teadlaseid:

“Alles siis, kui me näitasime, et log-normaalse jaotuse korral saadud otsusepiir tähendaks Andruse jaoks negatiivset testitulemust, väitis vastaspool, et õige on kasutada hoopis gamma jaotust (mis ei ole selliste andmete korral bioloogiliselt põhjendatud). Tähelepanuväärselt esitati see väide alles pool aastat pärast kohtuistungit.”

Aga mis on vahet log-normaal ja gamma jaotusel? Vaatame genereerituid (suvalisi) andmeid ja neile sobitatud gamma ja log-normaal jaotust.

plot6

Visuaalsel hinnangul nad justkui väga palju ei erinekski. Log-normaaljaotusel on aga raskem saba, mis tähendab, et suuremad väärtused esinevad veidi sagedamini. Mõlema jaotuse jaoks on joonisele kantud ka otsustusmäär, ja nagu näha, siis need erinevad märgatavalt.

 

Kokkuvõte

Dopingusüüdistusel lasub FISil kohustus tõestada, et dopingut on tarvitatud. Seda tuleb teha läbi teaduslikult põhjendatud testi. Kuna kasvuhormooni test seda aga pole, siis polnud alust ka arvata, et Andrus Veerpalu tarvitas dopingut.

 

Aitäh Kaspar Märtensile mustandi lugemise ja paranduste tegemise eest.

 

Ole kursis ka järgmiste postitustega:

 

Loe ka:

  • Riigikogu liikmete sotsiaalvõrgustik – I osaRiigikogu liikmete sotsiaalvõrgustik – I osa (1)
    Sõnaga "sotsiaalvõrgustik" seostatakse esmalt Facebooki, siis Twitterit ja võib-olla lõpuks isegi blogisid ja foorumeid. Parlamendi liikmete hääletustulemuste […]
  • Postiindeksid – kus, miks ja kuidas?Postiindeksid – kus, miks ja kuidas? (8)
    Kirju saates või dokumentidele aadressi märkides tuleb sageli täpsustada postiindeks - 5st numbrist koosnev kood, mis tähistab teatud piirkonda. Aga millist […]
  • Kuidas valikvastustega testides skoorida?Kuidas valikvastustega testides skoorida? (1)
    Mulle meeldivad valikvastustega testid. Need on võrratud, sest õiget vastust teadmatagi on võimalik küsimus maksimumpunktidele vastata. Kuidas aga suurendada […]
Kategooriad: Eesti, Statistika

34 kommentaari

  1. Madis says:

    Tere!
    Mis tarkvara abil te neid ilusaid graafikuid teete?

    • tanel says:

      Tere! Kasutan statistikatarkvara R ja pisimuudatusteks Inkscape/Adobe Illustrator’it.

  2. Tanel says:

    Hea jutt, võtab asja iva lühidalt kokku.

  3. Priit says:

    Juhtusin kuulama Krista Fisherit saates Vahetund Postimehega ning lisaks veel ühe fakti. Esimesena väideti, et tegemist on normaaljaotusega. Eesti team kontrollis valimit ning leidis, et vastavalt algandmetele ei ole selline jaotus lihtsalt võimalik. Sellepeale tuli uus versioon Log-normaalse ja ning hilisemas staadiumis Gamma jaotuse kohta.

    • tanel says:

      Jah, näiteks ka siin on kirjutatud, et algselt väitsid WADA ametnikud, et kasutasid normaaljaotust, mille nad teadlaste tähelepaneku peale log-normaaljaotuseks muutsid. Log-normaaljaotust kinnitasid nad ka kohtuistungil (seega tavalisest normaaljaotusest CASi raportis juttu pole) ja alles väga lõpus väitsid hoopis, et gamma jaotus on siiski see õige.

  4. zark says:

    Täpsustuseks – normaaljaotus ei sobi antud juhul sellepärast, et lubaks ka negatiivseid väärtusi. Isovormide suhtarv ei saa aga mitte kuidagi negatiivne olla, selle väärtus saab minimaalselt olla null, seega ei kõlba normaaljaotust kasutada

  5. Krista Fischer says:

    Tere!
    Ühte asja tahaks ikkagi veel kommenteerida: see, kas tegu on gamma- või lognormaaljaotusega on tegelikult mõnes mõttes pseudoprobleem. Tuleb silmas pidada, et me tahame hinnata väga äärmuslikku, 99,99% kvantiili. Kui me valimi põhjal mingi standardse testiga kontrollime parameetrilise jaotuse kehtivust ja jääme nullhüpoteesi juurde, siis see tähendab seda, et suurem osa andmete jaotusest, nn jaotuse “keha” sobib selle jaotuse mudeliga. See test ei ütle midagi jaotuse “saba” kaugema otsa kohta. Ei ole suurt mõtet valideerimisuuringutes näha vaeva sellega, kas algul eeldatud jaotus paika peab. Pigem tuleks näha vaeva sellega, et uurida otsusepiirist üle minevate tulemuste kohta mingitki tausta – kas on vähimatki lisatõendust dopingutarvitamise kohta? Ega ikka muudmoodi ei saagi seda valepositiivse tulemuse tõenäosust kätte. Ja kui see pole võimalik…siis kas saabki kehaomase aine lisadoseerimist täie kindlusega testida?

  6. Armin Sepp says:

    Tore oli lugeda igati arusaadavat selgitust ning mõneti on vastus ju ülevalpool kõigile arusaadavalt lahti mõtestatud. Paraku oli tegelik pilt veidi ähmasem. Meenutuseks, neljast mõõtmisest kolm ületasid pea kahekordselt WADA piirmäära (ja nende kehtivust vist ei vaidlustatud?) ning neljas oli piirilähedasem (ning selle ümber kogu action käiski, sest WADA enda reeglite kohaselt piisas ka ühestainsast negatiivsest resultaadist, et sportlane puhtaks tunnistada).
    Nüüd kus tolm natuke settima hakkab, võiks ju huvi pärast hetkeks juura kõrvale jätte ning välja rehkenadada ka tõenäosuse millega AV siiski võis dopingut kasutada kõiki nelja tulemust arvesse võttes (oli see 9, 99 või 99.9%?) ning võttes aluseks kas või lognormaalse jaotuse. Mõõtmise metoodika tunnistati ju usaldusväärseks, sest Otepää alpimaja imettegevaid omadusi ei jäänud ju CAS teps mitte uskuma.
    ——————————————-
    Kit 1 and Kit 2 have separate decision limits because they are coated with two
    distinct sets of antibodies: a rec/pit ratio exceeding 1.81 for Kit 1 and 1.68 for Kit
    2 constitutes an AAF.182 The Appellant’s A-sample yielded rec/pit ratios for Kit 1
    and Kit 2 of 2.62 and 3.07, respectively, while the B-sample showed ratios of 2.73
    and 2.00 respectively
    ——————————————-

    • peep talimaa says:

      Suur tänu Tanelile hää selgituse eest, aitäh!

      Ühtlasi tahaksin valdkonnakauge inimesena täpsustada, kas ma saan juuresolevast Armin Sepa kommentaarist õigesti aru, et piltlikult öeldes õnnestus kohtuvaidluse tulemusena testi/jaotuse otsustuspiiri nõndapalju nihutada, et üks AV neljast (ala)proovist andis dopingu tarvitamise mõistes negatiivse tulemuse? Ning kolm ülejäänud proovi jäid (ka n-ö uue otsustuspiiri puhul) igal juhul postitiivseks, mõõda siis log-normaalselt või gammaga?

    • Krista Fischer says:

      Tere Armin!
      Tõenäosus, et positiivse testitulemuse saanu kasutas dopingut, P(D+|T+), sõltub kolmest parameetrist. Esiteks, testi tundlikkus ehk tõenäosus, et dopingutarvitaja saab positiivse tulemuse, st P(T+|D+). Teiseks, valepositiivse tulemuse tõenäosus, ehk tõenäosus, et aus sportlane saab positiivse testitulemuse, P(T+|D-). Kolmandaks, dopingutarvitamise levimus, P(D+). Edasi tuleks kasutada Bayesi valemit. Puust ja punaseks: kui 10000 sportlase hulgas on 200 dopingutarvitajat, kellest omakorda 5% saavad positiivse testitulemuse, saame 10 “õiget positiivset” tulemust. Kui ülejäänud 9800 sportlasest 0.1% saavad valepositiivse (spetsiifilisus 99.9%) tulemuse, saame ka 10 valepositiivset. Seega tõenäosus, et positiivse tulemuse saanu kasutas dopingut, on 10/20 ehk 50%.
      Õigeid parameetreid me ei tea ja seega ei saa me arvutada välja tõenäosust, et AV kasutas dopingut.

      Taustaks vaid niipalju, et WADA on 10000 proovi testimisel üldse saanud kätte 12 positiivset tulemust, millest kahel juhul on hGH tarvitamine reaalselt üles tunnistatud. Nii et isegi kui test valepositiivseid ei annaks, on kas test väga kehv, st kehva tundlikkusega, või siis kasutatakse hGH dopingut nii vähe, et testi peale rahakulutamine tundub mõttetu.

      • tugevkäsivars says:

        Kuulates vanade ratturite viimasel ajal moodi tulnud ülestunnistusi, siis ei või küll väita, et kasvuhormooni dopingut vähe kasutatakse.

        Muidu huvitav, kui võtta näiteks 10 aktiivselt ja dopinguvabalt sportivat sõpra, eeesmärgiga teha omaalgatuslikult omas seltskonnas selgeks see normaalne hgh suhte piir, sisi kui palju raha tuleks välja köhida, kui 1 inimese kohta teha näiteks 5 testi? Lühidalt, kui palju 1 test maksab??

        • Krista Fischer says:

          Häda selles, et WADA ei anna oma teste välja mitte kellelegi, ei raha eest ega ilma. Nagu ma biokeemias kodus olevate kolleegide jutu põhjal tean, ei saa neid antikehi ka ise kuidagi tekitada – nad ei tule samasugused kui WADAl. Ka USA jalgpalliliit NFL soovis enne kasutuselevõttu selle testiga sõltumatud eksperimendid läbi viia. WADA keeldus. Seepärast protsessivad nad siiani.

    • Krista Fischer says:

      Arminile veel. Need 4 numbrit ei ole ju 4 sõltumatut mõõtmist. Need on ühe ja sama vereproovi ühe ja sama näitaja mõõtmised. Selle näitaja tegelik väärtus võiski ju olla seal kusagil 2 ja 3 vahepeal, kui just mõõtmisviga neid 4 tulemust ühes suunas nihkesse ei ajanud. Küsimus on ikkagi selles, et kui see näitaja oli tegelikult näiteks 2.5, kas see siis tähendaks dopingutarvitamist? Ehk: kui kaugele ulatub selle näitaja jaotuse saba neil, kes dopingut ei tarvita ja kui tõenäoline oleks seda arvestades väärtus 2.5?
      Mis puutub jaotustesse, ja isegi kui uskuda et isovormide suhe on parameetrilise jaotuse abil modelleeritav, siis jaotusel peaks lisaks statistilisele kehtivusele olema ka bioloogiline põhjendatus. Normaaljaotus tekib siis, kui näitaja tekib suure arvu komponentide summana. Log-normaaljaotus tekib komponentide korrutisena. Kontsentratsioonide korral on lognormaalne jaotus põhjendatud. Kui lognormaaljaotuse mediaan (geomeetriline keskmine) on 0.6, ja sellest 6 korda väiksemad väärtused (0.1 kandis) on üsna ootuspärased, siis peaks sama ootuspärased olema ka 6 korda suuremad väärtused, ehk siis 3.6.

      Mõõtmise metoodika usaldusväärsuse osas ei muutnud CASi otsus minu, Sulevi ja Antoni seisukohti (millel on teaduslik põhjendatus – see, et 3 juristist koosnev paneel otsustas argumente mitte arvestada, ei ole veel meie argumentide ümberlükkamine. alpimaja asi oli selle kõrval tühine kõrvaldetail), aga räägin ainult statistika poolest. Testi metoodika põhineb eeldusel, et kuigi mõõdetavate isovormide enda kontsentratsioonid võivad samal inimesel sama päeva piires ka praktiliselt 0-st 20-ni kõikuda, jääb see nn “rec” ja “pit” isovormi suhe enam-vähem konstantseks. Veerpalul oli muide “rec” vahemikus 0.36-0.43 ja “pit” 0.13-0.18.
      Kasutades WADA poolt saadetud andmeid ma demonstreerisin, et tegelikult on “rec” ja “pit” mittelineaarses suhtes (väga väikesed p-väärtused tulid), nii et otsusepiir peaks tegelikult sõltuma lisaks ka mõõdetud kontsentratsioonidest endast. Lisaks veel see, et nad pole mingitki analüüsi teinud selle kohta, kas see suhe sõltub mingitest muudest välistest parameetritest (alustades kasvõi sportlase vanusest ja kehakaalust). Ei saa väita, et ei sõltu, kui seda uuritudki pole.
      Probleeme oli tegelikult veel palju rohkem, ei jõua kõike siia üles kirjutada.

    • peep talimaa says:

      Suur tänu selgituste eest, Krista!

      Nimetasite, et WADA on 10000 proovi testimisel üldse saanud kätte 12 positiivset tulemust, millest kahel juhul on hGH tarvitamine reaalselt üles tunnistatud.

      Kas te oskate, palun, öelda, kas nendel kahel ülestunnistatud juhul oli kõnealune näitaja ka märgatavalt “normaalsest” erinev või näiteks võrreldav AV näitajatega? Ehk siis – kas antud dopingu reaalne tarvitamine muudab tõepoolest näitajaid nii palju, et sellest oleks selgelt aru saada? (Vastasel korral – olen Teiega päri – tundub tõesti olevat tegemist mõttetu testiga, aitäh!)

      • Krista Fischer says:

        Ma ei oska väga täpselt öelda nende kahe juhu kohta. Ühel juhul oli tegu meditsiiniliselt põhjendatud hGH tarvitamisega ja selle näidu kohta pole mul aimu. Teine oli see kuulus Terry Newton, kes üles tunnistas ja varsti ennast ära tappis. Tema kohta väitsid WADA omad, et olla olnud AV-le väga sarnased väärtused. Samas mulle endale ikkagi tundub kummaline, et kuidas keskmisest suurem suhe saab dopingutarvitamisele viidata, kui isovormide kontsentratsioonid iseenesest nii madalad on.
        Seda, kuidas dopingutarvitamine näitajaid muudab, on nad uurinud vaid kümnekonnal katseisikul ja artiklis pole nad neidki andmeid korralikult esitanud (on sealt välja valinud 2 isikut, kelle andmete põhjal on graafikuid joonistanud).

        • Armin Sepp says:

          Tere jälle ning tervisi südatalvisest Angliast!
          Meil on siin kohe väike diskussiooniklubi tekkinud, kus ka midagi arutada võib, mujal tundub, et antakse kohe nuiaga, sõltumata sõnumist…

          Mõned kommentaarid:
          1) Julgeks väita, et AV dopinguproovi puhul oli siiski tegemist sõltumatute mõõtmistega. Selles ju asja mõte ongi, et ühte ja sama suurust mõõtes, (näiteks valguse liikumise kiirust vaakumis mis praeguste teadmiste kohaselt on absoluutne konstant) saadakse iga kord natuke isesugune tulemus. Igal mõõtmisel lihtsalt on alati oma viga, kas elektroonilise müra, reaktsiooni temperatuuri või inkubatsiooniaja kerge varieeruvuse või ka operaatori näpuka tagajärjena. Konkreetselt GH testis kasutatakse kahte erinevat monokloonse antikeha paari (kit 1 &2), millest kõik seostuvad ka erinevatele epitoopidele GH pinnal-WADA eeltingimus testi usaldusväuarsuse tagamiseks. GH ELISA %CV oli ca 10-antikehadele tüüpiline ning 14 kahe mõõtmise suhtele-kah mõistlik number.
          2) Asja iva taandus ju lõpuks vist ikkagi isovormide suhte jaotusele dopinguvabas populatsioonis mis tõepoolest ei saa olla normaalne ning järelikult wada deklareeritud usaldusväärsus oli ebakorrektne (liiga kõrge). Kuna meil vist ligipääsu raw datale ei ole, siis mind huvitab, et kas on võmalik selle jaotusfunktsiooni hinnata, konstrueerides lognormaalne jaotuse millele normaaljaotuse funktsiooni rakendamine annaks wada poolt kasutatud keskmise ja SD-viimase saab arvutada nende deklareeritud 95% usaldusväärtuse piirist ning keskmine on ju teada? Kasutades seda funktsiooni saaksime anda konservatiivse hinnangu testi tegelikule usaldusväärsusele ning AV patustamise tõenäosusele, sest lognormaalne jaotus väidetavalt hindas liiga kõrgeks positiivsemate näitude tõenäosuse.
          3) Muidugi kahju, et WADA teile teste näppida ei andnud aga sellest võib mõneti ka aru saada, sest Tartu tiim ei olnud erapooltu. Nagu üks natuke lihtsameelne ajakirjanik mustvalgel kirja pani “Veerpalu toetav sõltumatute Eesti teadlaste grupp….” Samas oli (ja ehk on ka praegu) võimalik AV sinna alpimajakesse luku taha panna mõneks ajaks ratast väntama ning paluda dopingukontrollil ta üle testida. Nad võiks isegi sellega nõus olla. Kui AV tõesti geneetiliselt nii eriline on, siis peab testiga leitud supertulemus ka reprodutseeritav olema-ükskõik mis selle taga on. Võrdluseks, kui Pekingi olümpial 500 maailmatasemel tippsportlast kohe pärast võistlust testit (kui GH tase laes on), ei detekteeritud ühtegi isovormide suhte anomaaliat.

          • Krista Fischer says:

            Väga tore, Armin, et viitsid kaasa mõelda sel teemal. Tegelikult mõtled üsnagi samu asju, mida meiegi oleme selles protsessis mõelnud. Loodan, et Anton või Sulev kommenteerivad sinu juttu ka. Minu kui statistiku jaoks oli ülesanne lihtne. Testi otsusepiirid saadi ühest statistilisest mudelist, mis oli hinnatud ühe valimi pealt. Mina vaatasin, kas mudeli eeldused on täidetud ja hinnangud korrektsed, ja kasutatud valim adekvaatne. Nagu näha, olid kõigi kolme küsimuse vastused eitavad. Kui poleks olnud, siis ma oleks saanud ainult olemasolevate andmete põhjal saanud anda hinnangu tõenäosusele, et AV tulemus oli valepositiivne. Sest isegi kui WADA poolt väidetud spetsiifilisus 99.99% on korrektne, siis on see tõenäosus 10%. Aga rohkemaga poleks mina tiimi aidata suutnud ja kahtlane, kas ma sel juhul ka CASi kohale oleks läinud. Niipalju olen ma sõltumatu küll. Ka selles osas oleme sõltumatud, et meie teadlaste tiimil puudub rahaline huvide konflikt – tasu me selle töö eest ei ole kunagi saanud. Teistpidise otsuse korral oleks meie elu täpselt samamoodi edasi läinud nagu praegugi, ehk veidi väiksema meediatähelepanuga ainult. Mis puutub sellesse, et käisime CASis siiski ühe poole ekspertidena, siis muidugi ei ole sõltumatud, “per definition”. Aga minu jaoks ei olnud CASis käik siiski pelgalt “Veerpalu toetamine”, vaid pigem püüe seista hea selle eest, et nii oluliste otsuste taga olev teadustöö oleks korrektne ja läbipaistev. Vigasele teadustööle toetudes ei saa ega tohi kedagi süüdi mõista.

          • Armin Sepp says:

            Aitäh vastuse eest, Krista,
            Tore on millegi muuga tegeleda kui sellel ka mingi käegakatsutav tähendus on ning selle lognormaalse jaotusega ma veel lähen ja raban siin homsel koolitusel ka meie majasiseseid statistikuid nii et aitab. Ühed ja samad droogid kõik. Muu hulgas panin ka ajaviiteks masinasse ühe suurema lognormaalse valimi ning rehkendasin selle parameetreid normaaljaotuse statistikaga, et näha kui suur on siis erinevus nii kusagil kolmanda SD kaugusel keskmisest. Vahe oli umbes kolmekordne. Ehk kui hüpotees wada andmete lognormaalsest jaotusest on tõene, siis on nende testi ühe mõõtmise valepositiivse tõenäosus oodatud 1% asemel hoopis ca 3.3%. Kahe mõõtmise valepositiivsuse näitaja oleks siis oodatud 0.01% asemel muidugi 0.1, ehk kümme korda suurem. Teisalt, kui isegi seda vigast testi veel kaks korda käiku lasta on valepositiivsuse tõenäosus (et kõik neli mõõtmist olid valepositiivsed) siiski 0.000001 ning see on ikka üsna väike number? Anyway, mis aga puutub sõltumatust, siis ei pea selle taga mitte olema finantsstiimul. Piisab ka emotsionaalsest seotusest ning ei kujuta ette, et keegi meist oleks ükskõikselt vaadanud kuidas AV esimesena finishisse rühib ning ei olnud rabatud kui dopinguproovide tulemused avalikuks said. Umbes samal põhjusel on ju ka kliinilised katsed mitte lihtsalt ‘pimedad’ vaid ‘topeltpimedad’, et isegi ravimi manustaja ei tea millega on tegemist, et alateadlikult mitte tulemust mõjutada. Tervisi, Armin

          • Krista Fischer says:

            Armin, sinu arvutustes on põhimõtteline viga: need 4 mõõtmist on sõltumatud mõõtmised ühe konkreetse “õige” numbri jaoks. Valepositiivne tulemus võib tekkida kahel põhjusel: 1) isovormide normaalne varieeruvus annab ekstreemse tulemuse, 2) mõõtmisviga tekitab ekstreemse tulemuse. Kuigi mõõtmiviga AV 4 mõõtmise puhul oli suht suur, on siiski üsna selge, et see ei põhjustanud suhte suurt väärtust.
            Täpsemalt, kui mõõtmised on x1,x2,x3 ja x4, mis kõik mõõdavad ühte numbrit x, siis võib uskuda, et x1-x,x2-x,x3-x ja x4-x on sõltumatud. AGA – lognormaalne jaotus on ikka x-de jaotus: isovormide suhte jaotus üle kõigi inimeste. Seega ei saa valepositiivse tulemuse tõenäosusi kokku korrutada. Lihtsalt kujuta ette olukorda, kui mõõtmisviga poleks. Siis oleks kõik need 4 mõõtmist, mis siis et sõltumatud, andnud tulemuseks näiteks 2.5 (või 3). Fakt, et mõõtmisi on tehtud 4, ei muudaks ju sel juhul kohe mitte midagi.
            Mis puutub minu isiklikku emotsionaalset sõltumatust: nagu ma eile ühel seminaril ka rääkisin, statistiku jaoks tuleb paika panna nullhüpotees, mida loetakse tõeseks niikaua, kuni pole piisavalt veenvaid andmeid selle kummutamiseks. Kui jutt on inimese süüdimõistmisest, siis on nullhüpoteesiks inimese süütus. Erinevalt neist, kes emotsionaalselt “usuvad” või “ei usu”, vaatan mina reaalseid andmeid ja fakte.

          • Armin Sepp says:

            Tere Krista,
            Ma ei ole kindel, et ma hästi hooman lognormaalse jaotuse tõenäosuste korrutamise ebakorrektsust. Kujuta ette näiteks ebasümmeetrilist täringut milles näiteks number kolm tuleb ette 1/6st erineva tulemusega mille tulemusena muutuvad ka kõikide teiste väärtuste tulemusena (ehk saab isegi lognormaalse täringu disainida?). Sellele vaatamata on erinevate tulemuste jaotus reprodutseeruv ja ma kaldun arvama, et näiteks kahekordse viske puhul oleks sama resultaat ikkagi kahe üksiku viske tõenäosuste korrutis. Samas olen ma nõus, et äärmiselt anomaalne tulemus iseenesest ei ole lõplik tõde konkreetse indiviidi jaoks, sest tegemist võib olla äärmiselt erandliku juhtumiga. Probleem on paraku selles, et anomaaliat on võimalik ka kunstlikult tekitada ning see on väidetavalt väga paha. Aga see on juba teine teema.
            See selleks, igal juhul on väga vahva, et teil nii tragid tudengid, et selle jutu käima lükkasid, pani ka ennast natuke teise poole pealt asju selgemaks mõtlema. Muu hulgas proovisin ka kolleegidele lognormaalsega äiata aga ei läinud korda, sest nad kõik ongi juba seda meelt, v.a. juhtudel kui mõõtmistulemus võib ka negatiivne olla. Ja veel, kui siiakanti juhtute, oleks ju tore näha jälle. Mul on tunne, et on minu kord “Eagle’is” mõned õlled ja fisn’n chips’id välja teha.
            Tervisi
            armin

          • Krista Fischer says:

            Tere Armin!
            Ei, seda ei juhtu et me Cambridge’i tuleks ja teid ära unustaks 🙂 Eagle oleks tore.
            Aga mis puutub sinu täringunäitesse, siis asi on nii, et kui mõõdad midagi, mille õige väärtus on x, siis täring määrab mõõtmisvea, mille väärtus on u. Ja tulemus on x+u. Kui räägime u-d puudutavast tõenäosusest,siis kehtib see korrutamise põhimõte, aga x-i puudutava tõenäosuse korral see ei kehti (sest ükskõik kui palju sa mõõdad, x jääb ju ikka samaks).

  7. Jaak says:

    Suur tänu teema arusaadava seletamise eest. See algne normaaljaotuse väide WADA poolt oli küll paras elementaarne ämber, kuhu ükski statistik kukkuda ei tohiks.

  8. Karin Keerdo-Massa says:

    Väga hea ülevaada ning mitte-statistikule hästi jälgitav.

  9. Karin Keerdo-Massa says:

    Õnneks ei ole ajudopingut veel leiutatud. Ma ei tõestaks ära, et kuuludes (vist?) 1% hulka, kelles on ühendunud suutlikkus ja võimekus sünkroontõlget teha, ei ole ma kasutanud seda tegevust toetavaid aineid. Kohv v.a.

  10. Rainer Kaup says:

    Kohtule esitatud argumendid olid peaaegu kõik seda tüüpi, kus püütakse väiteid ümber lükata, kahtluse alla seada, tuua välja mittepiisavat põhjendatust. Aga kas biokeemikutel on mõni selgitus, kuidas Veerpalul üldse niisugune suur isovormide suhe tekkida sai (kui välja jätta dopingu tarvitamine)? Mis on see mehhanism, mis selleni viis? On küll esitatud teooriaid, kuidas see _võis_ juhtuda (raske treening, alpimaja jm), aga kuidas see _tegelikult_ juhtus?

  11. Urmo says:

    Kui tegemist oleks kehavõõra aine määramisega veres, oleks asjad tunduvalt lihtsamad ja usutavamad. Tänapäevased ainete määramise metoodikad on väga tundlikud ja täpsed. Näiteks kui kromatograafil saadakse ainele iseloomulik piik, siis on väga tõenäoline, et vastavat ainet on tarvitatud.

    Käesoleval juhul on tegemist kehaomase ainega ja WADA teadlased on välja mõtelnud lihtsa mudeli, kuidas see aine peaks nende arvates käituma. Kõik kõrvalekalded mudelist loetakse anomaaliateks ja proovi omanikud dopingutarvitajateks. Samas sellise lihtsustatud mudeli vastavus tegelikkusele on väga vähe tõenäoline, sest hormonaalne regulatsioon on väga keeruline. Seda mudelit pole ka piisavalt uuritud, pole välistatud kõik füsioloogilised erijuhud.

    Kui me eeldame, et 20 kDa ja 22 kDa isovormide suhe on konstantne, siis peavad nii isovormide sekretsioon kui lagunemine toimuma täpselt sama kiirusega. Sekretsioon toimub hüpofüüsis impulssidena ja ma olen valmis uskuma, et sekretsioonil võib isovormide suhe olla konstantne. Olen näinud mitmeid teadusartikleid, mis kirjeldavad isovormide erinevat sidumist retseptoriga ja erinevat mõju. Võib arvata, et nende kahe erineva pikkusega valgu lagunemine on erineva kiirusega. Kui pit vorm laguneb rec vormist kiiremini, siis saadakse madalate kontsentratsioonide juures kõrge isovormide suhe. Lagunemise kiirus võib olla individuaalne — me teame, et Veerpalul on hGH geenis 5 harvaesinevat SNPd, mis võib põhjustada tavalisest erinevat sidumist retseptorile ja lagundavale ensüümile. Olen teinud simulatsioone ja nende põhjal näinud, et väga väike erinevus lagunemise kiiruses annab väga olulise suhte muutuse.

    Minu jutt on hüpotees, sest ma ise pole uurinud kasvuhormooni ja ei tunne põhjalikult hGH ainevahetust. Samas on ka WADA konstantse isovormide suhte mudel hüpotees, millel pole teaduslikku tõestust. Minu ja WADA hüpoteesi vahe on selles, et nende hüpoteesi põhjal mõistetakse inimesi süüdi ja rikutakse nende elu ja karjäär. See on WADA ülesanne tõestada oma meetodi töötamist ja seda nad kohtuprotsessil teinud pole.

  12. Anton Terasmaa says:

    Krista palus siin natukene testi keemiast lahti seletada.
    Kui uskuda testi autoreid on ju testipõhimõte lihtne. Kehas on kasvuhormooni (GH) isovormide segu, kehaväline GH koosneb aga ühesugustest molekulidest. GH sekretsioon on reguleeritud GH endaga läbi negatiivse tagasiside- siit tuleneb, et kehavälise GH manustamise tagajärjeks on kehaomase GH sekretsiooni pidurdamine. Ja nii asendub GH isovormide segu ühetaoliste GH molekulidega.

    Nende kahe variandi eristamiseks on tehtud kokku viis antikeha, neli sadestavat (capture) ja üks ühine värviga märgistatud detekteeriv antikeha (detection AB).
    Wada reklaami testile ja tööpõhimõttele on ehk igaüks lugenud ja aru saanud.
    Mida test mõõdab?

    Vastupidi Urmo näitele, test EI mõõda 20kDa GH isovormi. Sadestavad antikehad küll tunnevad 20kDa molekuli ära, kuid värvitud detekteeriv antikeha ei tunne. Seega 20kDa GH molekul võib küll segada mõõtmistulemusi (kuna tegemist on suhtega, siis ka mõlemas suunas) kuid ei ole selle testiga mõõdetav.

    Test ei mõõda ka GH fragmente- kes on lugenud ülevaateartikleid selle testi kohta, see võib rahumeeli seal toodust pildist poole maha tõmmata. PIT signaal ei koosne GH fragmentidest, 20kDa GH, modifitseeritud GH ega muust sellisest. PIT signaal väidetavasti koosneb eelistatult 22kDa GH molekuli dimeerist. REC signaal seevastu eelistatult 22kDa GH molekuli monomeerist. Miks ei võiks siis testi ka nii nimetada- monomeeri/dimeeri suhtel baseeruv test?

    Kas test mõõdab ainult GH? Selles ma endiselt kahtlen, ka pärast kohtuotsust. Testi autorid on näinud vaeva tõestamisega, et test oskab vahet teha laibast ja bakterist PUHASTATUD GH preparaatide vahel, seda ka mitte inimese veres. Kusjuures tõestuseksperiment näitas ainult sadestavate ja dedekteeriva antikehade GH määramise ühist osa. mida iga antikeha eraldi detekteerib ei ole teada. Ilma sellise teadmiseta mina seda testi ei usalda.

    Kordan veelkord- selleks et näidata mida antikehad mõõdavad, võeti PUHASTATUD GH preparaat, sadestati see ühe antikehaga välja, sedasi kahekordselt puhastatud GH asetati geelile (Western blot), ja geelil detekteeriti GH teise GH antikehaga. Ehk sisuliselt näidati, et viimane, detekteeriv antikeha suudab leida kolmeastmelise puhastamise läbinud GH molekuli. Küsimusele kas need antikehad tunnevad ka teisi veres leiduvaid valke ei saa minu teada niimodi vastata. Selleks on palju lihtsam viis, kõige tavalisem western vereseerumiga.

    Bidlingmaieri artiklis on antikehade spetsiifilisuse kohta terve tabel- jällegi, selle asemel, et teha lihtne katse mindi hoopis keerulist teed. GH valgu järjestuse järgi (primaarstruktuuri) järgi leiti valgud, milles justkui on mingi sarnasus GH-ga. Kusjuures ei ole teada kuidas sellist otsingut tehti. Nendest valkudest võeti kuni mõnikümmend valku ja mõõdeti nende sidumisvõimet antikehadega. Kuna nad enamasti ei seostunud, siis järeldati, et antikehad ongi spetsiifilised.
    Kes oskab lugeda, vaadake ka täpsemalt bidlingmaieri artikli tabeli 100% definitsiooni- see on erinev tabeli tulpade vahel. Ometi tulpasi ju võrreldagsegi.

    Kui saaks seda testi millegagi võrrelda, siis ma võrdleksin areomeetriga. On teada, et tiheduse järgi saab mõõta viina kangust. Mida kangem seda väiksem tihedus. Väga tore, puskari kanguse mõõtmisega ei teki probleemi. Aga kuidas on lugu likööri või veini puhul? Suhkur mõjutab ju samuti tihedust ja mitte vähe. Minu arvates on sellel WADA testil täpselt samasugune probleem, puudub spetsiifilisus.

    Kuna pole teada mis on peidus REC ja PIT sõnade taga, ei ole ka suurt mõtet arutada kuidas ja millest REC ja PIT signaalid sõltuda võivad.
    Teame, et hiline rasedus põhjustab rec/pit suhte tõusu, kusjuures ema GH sekretsioon on sellises olukorras pärsitud. Akromegaalia omab samasugust mõju, ehk siis kui keha toodab liiga palju GH annab test ka kõrgema näidu.

    On alust arvata, et erinevate GH isovormide sekretsioon ei ole ajas konstantne. On näidatud, et inimestel kes sekreteerivad korduva stimulatsiooni tingimustes rohkem GH tõuseb ka 22kDa GH molekuli osakaal võrreldes 20 kDa molekuliga. on selge, et isovormide segu koostis muutub. Ikkagi me ei tea ega saagi teada kuidas mõjutab see rec või pit signaale. Kuna pole teada mis täpselt see rec ja pit on.

    GH on hästi palju uuritud, kuid huvitaval kombel ei ole meditsiin eriti uurinud GH isovorme. Meditsiinis on isovormidega seotu jäänud tagaplaanile ja nii polegi selle kohta eriti palju midagi lugeda.

    Ega ma ei välista, et see test võib olla ka töötab. Siiski arvan, et kui testiga oleksid kõik asjad korras, oleksin ma ka antikehade spetsiifilisuse kohta ilusa pildi näinud. Testi autorid oskavad selliseid pilte teha, järeldades nende teiste artiklite järgi.

    Kuna tegemist statistika kodulehega- küsimus. Kas saab iseloomustada “GH isoformide spektri” ühe arvuga? Kuidas?

    • Armin Sepp says:

      Vastus on lihtne-eksperimentaalselt. On hüpotees, et olemasolevad antikehapaarid tunnevad ära epitoobid vastavlt rec ja pit GHl-toetudes ELISA, Biacore jne andmetele. Seejärel tehakse populatsiooniuuring, pannakse paika rec/pit suhte empiiriline jaotus ning selle põhjal usaldväärsuse piirid ning selle kõige jaoks ei ole vaja GH bioloogiat viimase pulgani lahti harutada. Ja kõige lõpuks antakse paarile vabatahtlikule doos recGHd ning mõõdetakse numbrid uuesti üle, et test valideerida. Viimati võtsid selle asja jaapanlased umbes viiesajal sportlasel ette
      Okano M, Nishitani Y, Sato M, Kageyama S. Drug Test Anal. 2012 Sep;4(9):692-700.
      Tulemuseks oli, et WADA piirid olid liiga lõdvad-ka valimi suurus võib siin oma rolli mängida. Huvitav on märkida, et samas kui rec ja pit eraldi annavad väga ebasümmeetrilise jaotuse, käitub nende suhte jaotus hoopis teistmoodi- keskmised ja mediaanid kattuvad, 25 ja 75% kvartiilid on sümmeetriliselt mõlemal pool keskmist. Millest omakorda järeldub, et mõlema isovormi PK on väga lähedane vaatamata müstiliele arvule interaktstioonidele ja retseptoritele. Ja sellest omakorda, et piisava usaldusväärsusega on detekteeritav on ka dopinguna panustatud Gh.,

      • Krista Fischer says:

        Kahjuks ei saa jaapanlaste artiklit täiskujul kätte. Oleks huvitav lugeda. Abstrakti põhjal näen, et nende valimi suurused on 250 kandis (255 meest, 256 naist). Mulle aga saadeti WADA originaalandmed, 3465 meesatleedi mõõtmised. WADA reeglite järgi on automaatselt negatiivsed need, kellel on rec<0.1 või pit<0.05. See jätab järele 1973 mõõtmistulemust. Suhte jaotus on selgelt ebasümmeetriline: 5%,25%,50%,75% ja 95% kvantiilid on 0.26,0.37,0.48,0.64,0.88. Keskmine on 0.52. Mis puutub ülemisse ja alumisse 5% vaatlustest, siis need mõlemad varieeruvad väga suurtes piirides – üksikuid äärmuslikke erindeid leidub mõlemas suunas (min 0.04, max 2.2. Kui kõrged väärtused olid dopingukasutajate omad, kas ülimadalad kasutasid antidopingut?) Ja lisaks: ikkagi on väga veenev statistiline tõestus ka sellele, et rec ja pit suhe ei ole lineaarne (p-value <10^(-20)). Mida ma siis rohkem uskuma pean – jaapanlaste artiklit või mulle ametlikult saadetud reaalseid andmeid?

        Aga mis puudutab sinu esimest väidet, et see asi tuleb eksperimentaalselt selgeks teha – siis seda oleme me ju kogu aeg rääkinud. Ka CAS nõudis kohtuotsuses WADAlt, et nad seda teeks.

      • Anton Terasmaa says:

        Aga kas me ikka oleme kindlad, et mõdame GH?

        Empiirika on hea asi kontrollitud tingimustes interpoleerimiseks. Olen seles mõttes nõus, et paljud laboris kasutatavad meetodid on empiirilised. Selle pärast meil ongi platseebo rühmad, standard kõveraid teeme samades lahustes mis analüüsitavad proovid, kasutame täpselt samu aegu jne. Empiiriliselt lähenedes me peaksime hoiduma igasugu ekstrapolatsioonist. Me ei tea kas st.kõvera osa läheb exponendiks, hüperbooliks või hoopis sinusoidiks. Seda saame teada alles pärast üksipulgi harutamist ja mehhanismi teadasaamist.

        Empiiriliselt lähenedes ei saa ju kõiki võimalike olukordi läbi mängida. Teadlastena kasutame empiirilist lähenemist võimalike seoste otsinguks (-oomika), et hiljem oleks mida uurida. Varieerime tingimusi ja vaatame tulemusi, kusjuures üritame varieerida võimalikult vähe tingimusi korraga. Antidoping teeb vastupidi- igale kõrvalekaldele on ainult üks põhjus- dopingu tarvitamine.

        Antikehade spetsiifilisuse demonstreerimine ei ole ju teab mis üksipulki harutamine.
        Spektri iseloomustamine ühe arvuga on huvitav lähenemine. Me oleme näinud rec ja pit signaali sõltuvust molekulmassist, ehk siis mõõdeti mitte verd otse vaid selle erinevaid fraktsioone pärast geel-filtratsiooni. Kuju (spekter) tõepoolest muutus, kuid terve proovi mõõtmisel mõõdetakse ju kõike korraga, ehk sellise spektri integraali. See integraal aga ei ütle ju mitte kui midagi spektri kuju kohta. Huvitaval kombel, sedasi kromatograafiliselt mõõdetud rec/pit suhe ei sõltunud GH manustamisest.

        Oleksid nad kasvõi kui “proof of concept” raames neid GH spektreid avaldanud.

  13. Tambet says:

    Lõpetasin just CAS-i 75-leheküljelise raporti läbilugemise ja mul on selle kohta eraldi arvamus.

    Eesti statistikud väidavad, et Andrus Veerpalu ei ole dopingut tarvitanud. Teiste sõnadega – kui hüpotees H1 pole tõestatud, siis rakendub automaatselt nullhüpotees H0. Tegelikkuses aga me lihtsalt ei ole suutnud piisava tõnäosusega (99,99%) tõestada hüpoteesi H1. Vale oleks automaatselt järeldada, et Andrus Veerpalu kindlalt ei ole dopingut tarvitanud. OK, antud piirväärtused ei tõestanud Andruse dopingutarvitamist 99,99% tõenäosusega. Aga 99%? Või 90%? Või 80%? Jah, me ei tea, sest WADA pole avalikustanud andmeid, mille pealt seda arvutada.

    Mis puudutab CASi argumente Andruse õigeks mõistmisel, siis minu meelest tõi vastaspool kõigile neist asjalikud vastuargumendid:

    1. Andmepunktide eemaldamine andmestikust – „The Respondent explains that WADA excluded from this dataset seven samples which were either “suspicious” or confirmed being affected by the application of recGH, or arrived at the laboratory in a critical condition.“. Minu meelest on põhjendatud proovide riknemise vm tehnilistel põhjustel väljajätmine, samuti teadaolevalt positiivsed proovid ei kuulu definitsiooni järgi uuringu sisse (õigemini ei mõjuta valepositiivsete arvu). Tõsi, WADA ei ole avaldanud andmeid iga üksiku proovi kohta, mille nad välja jätsid. Aga kas on põhjust eeldada, et nad tegid seda valedel alustel?

    2. Väike valimi maht – 106 ei ole päris täpne väide, selgelt on ju öeldud, et esialgseid piirväärtusi kontrolliti kahe järgmise uuringuga. Lõpptulemuses võeti arvesse 1297 proovi Kit 1 ja 352 proovi Kit 2 jaoks. Kohtunik väidab eelkõige, et 352 proovi Kit 2 puhul on 99,99% tõenäosuse saavutamiseks liiga vähe. Samas aktsepteerib ka Krista Fischer dünaamilist meetodit valimi mahu suurendamiseks ja piirväärtuste kontrollimiseks:

    „Respondent argues that a dynamic approach – that is, one in which a small initial sample is verified by further tests – is acceptable for establishing anti-doping tests. The Respondent submits that the fight against doping requires expeditious proceedings to detect new substances to ensure a level playing field, and that new detection methods must necessarily be introduced on the basis of a relatively small number of data and further refined based on the results of actual doping tests. The Respondent points to the testimony of Dr. Fischer, the Appellant’s expert, to support the acceptability of a dynamic approach.“

    Järgnevad kontrolluuringud on andnud tulemuseks madalamad piirväärtused kui esialgne uuring. Algse uuringu alusel püstitatud kõrgem piirväärtus peaks pigem valepositiivseid vähendama.

    3. Millist matemaatilist mudelit kasutati – kuigi hämamine jaotuste ümber WADA poolt on kahtlane, siis mõnes mõttes on see ebaoluline – sisuliselt rakendasid nad samale andmestikule mõlemat mudelit ja võtsid arvutatud piirväärtustest maksimumi. Ka see peaks valepositiivseid vähendama, mitte suurendama. NB! Kohus leidis, et test ise, st isovormide suhte kasutamine sünteetilise kasvuhormooni tuvastamiseks, on korrektne ja stabiilne erinevate kontsentratsioonide juures.

    Lõpuks on meil kaks proovi: A proov ja B proov. Mõlemat testiti kahe testiga: Kit 1 ja Kit 2. Tulemused vastavalt: proov A kit 1 – 2.62, proov A kit 2 – 3.07, proov B kit 1 – 2.73, proov B kit 2 – 2.00. Piirväärtused hetkel on 1.81 Kit 1 jaoks ja 1.68 Kit 2 jaoks. Selleks, et dopinguproov positiivne oleks, peavad kõik 4 proovi andma positiivse tulemuse. Log-normaaljaotuse kasutamisel nihkuks Kit 2 piirväärtus niipalju, et proov B Kit 2 tulemus oleks negatiivne. Ehk siis 4-st proovist 3 on ikka positiivsed.

    Samas on WADA teadlased öelnud, et aja jooksul kasvuhormooni üks isovorm „lahustub“, mistõttu nende suhe väheneb, mis peaks omakorda valepositiivsete hulka vähendama:

    „Further, the Respondent relies on the testimonies of Prof. Strasburger, Prof. Ho, and Dr. Barroso at the Hearing, who explained that any delays in the pre-analytical handling would, if at all, lead to dimerization or oligomerization of monomeric 22-kDa isoforms, but not to a “decomposition” of the pituary isoforms. On this basis, the Respondent submits that the rec/pit ratio would only decrease from longer transportation times and could only result in a false negative rather than in a false positive test.“

    Kuna proov B avati 57 päeva pärast proovi A, siis seletab see väiksemat suhtarvu B proovi Kit 2 testis. Väidetavalt mõjutab see ainult testi Kit 2.

    Kokkuvõttes ma oleksin rahul, kui keegi väidab, et Andrus Veerpalu on 80% tõenäosusega süüdi, ja jääksin salamisi lootma, et Andrus oma füsiloogiliste omapärade tõttu kuulub selle 20% sisse. Väide, et Andrus Veerpalu ei ole dopingut kasutanud, ei järeldu aga minu arust kuidagi CAS otsusest.

    Tambet

    PS. Ma tõeliselt imetlen seda advokaati Aivar Pilve. Ta on tõesti kõikidest regulatsioonidest iga üksiku numbri üles kaevanud ja selle vaidlustanud. Tõelise pasarahega WADA üle valanud. Umbes 30-st argumendist võib-olla 5 väärisid tõsisemat kaalumist. Aga ega muudmoodi ei saagi – ega siis tema ei tea, et viga oli testi statistilistes piirväärtustes? Ikka kõik kohad tuleb läbi katsuda, äkki miski logiseb…

    „The Panel also notes that the Appellant’s counsel’s written submissions, as well as his explanations given during the Oral Hearing, largely lacked clarity and specificity and required this Panel and presumably the Respondent to spend significant, additional time on this case, which warrants being taken into account in the allocation of the costs.“

    • Krista Fischer says:

      Tambetile. CASis kohal käinud statistikud (1 Eestist, 1 vägagi nimekas professor USAst) tegid selgeks, et kui test on positiivne, siis dopingutarvitamise tõenäosus jääb vahemikku 10-90%. 90% on õige siis, kui WADA poolt väidetav spetsiifilisus 99,99% (ehk siis valepositiivse tõenäosus 0,01%) kehtib. 10% on õige siis, kui see on tegelikult 99,9%. WADA andmed ei võimalda kindlaks teha, kas ta tegelikult on 99,99% või 99,9%. Sellega oli nõus ka CAS.
      Kuidas need arvutused tehti: vt näiteks http://arvamus.postimees.ee/1193104/mootmise-dilemmad-et-suutut-ei-kuulutataks-kurjategijaks-et-haigused-ei-jaaks-avastamata – puust ja punaseks on see tehtud Tabelis 4.

      Kas süüdiolemise tõenäosuse vahemik 10-90% on piisav, et inimesele karistus määrata? (muide, need tõenäosused juba arvestavad sellega, et otsus on tehtud 4 mõõtmise põhjal). Midagi rohkemat või täpsemat me küll öelda ei saa. CASi 75lk kirjutis on aga piisavalt segaselt kirjutatud, et igaüks sealt oma tõe välja loeks – selle, millesse ta uskus juba enne protsessi.

    • Tambet says:

      Tänud Krista! Olin seda artiklit lugenud, aga esimese hooga arvasin, et tabelid on ainult paberlehes. Tegelikult olid veebis ka, paremal üleval tuli klõpsata teine pilt ja siis veel pildi peal.

      Tegelikult on mul ainult üks probleem – minu meelest ei ole võimalik hetkel küsimusele “Kas Andrus Veerpalu kasutas dopingut?” anda ühest jah/ei vastust. Küll aga peaks saama sellele anda vastuse stiilis “Andrus Veerpalu kasutas dopingut tõenäosusega x%, kasutades meile kättesaadavaid andmeid ja eeldades, et need andmed kogunud teadlased on ausad ja head, kuigi mõnikord ekslikud.”

      Krista vastuses on see tõenäosus olemas, aga vahemik 10-90% on küllaltki mittemidagiütlev. Eks tuleb mõista, kui andmeid on vähe, ega siis polegi võimalik midagi muud väita. Aga tegin ikkagi katse Tabel 4 näitel ise sama numbrit välja arvutada.

      Põhimõtteliselt on valem ju lihtne: tõenäosus, et dopinguproovis vahele jäänud sportlane tegelikult ka dopingut kasutas, on:
      (levimus * tundlikkus) / (levimus * tundlikkus + (1-levimus) * (1-spetsiifilisus))

      Küsimus on eelkõige selles, et kuskohast saada need kolm väärtust – levimus, tundlikkus ja spetsiifilisus? Ainuke võimalus vettpidavaid andmeid saada on korraldada uuring, kus tippsportlastele süstitakse kasvuhormooni ja testitakse neid seejärel. WADA on öelnud, et see oleks ühest küljest ebaeetiline – anname tippsportlastele ise dopingut? Kui pika aja pärast pärast seda nad võistelda saaksid? Teisest küljest oleks ka väljakutse saavutada sellist valimi suurust, mis saavutaks ettenähtud 99,99% spetsiifilisuse. Seega ainus võimalus on hinnata neid väärtusi juba kasutuselevõetud testide põhjal.

      CAS otsusest:
      “… out of more than 10,000 Tests there have been 12 AAFs, of which, the Respondent submits, at least eight are likely to be true positive findings. The
      Respondent bases this submission on the argument that: (i) Four of these athletes admitted to hGH usage; (ii) one athlete was in possession of a therapeutic use exemption for hGH; (iii) further three athletes accepted the positive finding
      without any protest or appeal; and (iv) four of the remaining AAFs are currently still going through the results management process.”

      Teiste sõnadega WADA kasutuses on 10000 proovi, millest 12 on dopingujuhtumid, millest 8 puhul on WADA hinnangul sportlane ühel või teisel kujul aktsepteerinud oma kasvuhormooni, ülejäänute puhul protsess veel käib. Eeldame konservatiivselt, et need 4 on valepositiivsed.

      Kõige raskem on hinnata sportlaste tegelikku dopingutarvitamist. Eeldusel, et piirväärtused on konservatiivsed, pakun tegelikeks dopingutarvitajateks 20 sportlast 10000-st, mis teeb levimuseks 0.2%, tundlikkuseks 40% ja spetsiifilisuseks 99.96%. Minu mitteprofessionaalsele silmale tundub üsna realistlik – ei täida WADA-le seatud 99.99% spetsiifilisuse nõuet, aga samas kõrgem ka kui Eesti teadlaste pakutud miinimum 99.9%; madal tundlikkus vastab WADA teadlaste väitel konservatiivselt valitud priiväärtustele.

      Asendades nimetatud väärtused eelmisse valemisse saan tulemuseks 66.67%. Ehk siis 2/3 tõenäosusega on Andrus Veerpalu dopingut tarvitanud. Kahtlemata on see number täiesti spekulatiivne, aga ma rahuldan lihtsalt oma uudishimu :).

      Juhin veel tähelepanu, et muutes minu poolt hinnatud dopingutarvitajate arvu 20 asemel 200 või 5000 muudab küll levimust ja tundlikkust, aga spetsiifilisus muutub väga vähe ja lõplik tõenäosus üldse mitte. Ilmselt taandub see kuskil välja, aga praegu ei vaevunud täpsemalt uurima.

      Tambet

      PS. Kas panite tähele, et siin polnud sõnagi piirväärtustest ega jaotustest?

      • Tambet says:

        Mnjah, tegelikult annab sama tulemuse 8 jagatud 12-ga. Neid kahte numbrit ainult ongi aruandest vaja, et minu küsimusele vastata. Mingit levimust, tundlikkust ega spetsiifilisust poleks vaja olnud sisse tuua. Pole ime siis, et nad maha taandusid…

        See vist pole ka päris õige, et ma püüan arvutada testi tundlikkust ja spetsiifilisust tagantjärele testitulemuste pealt, kuigi need peaksid olema juba statistilise mudeliga ette kindlaks määratud. Samas ei ütle ju miski, et neid eeldusi ei võiks realsete testide tulemustega kontrollida?

        Mind häirib veel see, et 8 on hinnanguline. Väike erinevus selles numbris mõjutab lõpptulemust märgatavalt. Tekib küsimus, et kuidas üldse kontrollida testi, kui see mõõdab suurust, mida on võimalik usaldusväärselt kontrollida ainult väga väikese valimi korral?

        Tambet, devil’s advocate ja amatöörstatistik

Avalda arvamust