Tilastotiede, SPSS

26.12.2019

Tilastotiede, SPSS

Otoksessa havaitun ilmiön on oltava tilastollisesti merkitsevä, jotta havainto voidaan yleistää luotettavasti koko perusjoukkoon. 

Muistiinpanoja tilastotieteen kursseilta....

1. Luokitelluasteikolliset muuttujat (Kategorinen)

  • Kuvaavat laadullisia ominaisuuksia, jotka ovat toisensa poissulkevia esim. tamma/ori/ruuna, sh/lv/poni. Laskutoimitukset eivät ole mielekkäitä.
  • Suositeltavia kuvailu ja testausmenetelmiä:
  • Eäparametriset (nonparametric) menetelmät
  • Frekvenssiesitykset esim histogrammi, ristiintaulukointi, moodi
  • Khiin neliötesti
  • Loglineaariset menetelmät

2. Järjestysasteikolliset muuttujat (ordinaaliasteikko)

  • Onko jotain ominaisuutta enemmän tai vähemmän kuin muissa tapauksissa. Laskutoimitukset eivät ole mielekkäitä. esim. sotilasarvo, korkeakoulututkinto
  • Ei -parametriset menetelmät
  • Mediaani, järjestyskorrelaatio

3. Välimatka-asteikolliset muuttujat (Intervalli asteikko)

  • Voimme määritellä muuttujien a ja b etäisyyden tai suuruuden esim. lämpötila Celcius, Fahrenheit, todistuksen numerot, ajanlasku, vauriopiste.
  • Puuttuu absoluuttinen nollapiste
  • Useimmat laskutoimitukset ovat sallittuja
  • Parametriset ja ei-parametriset testit
  • Regressioanalyysit
  • Keskiarvotestit (t-testit, varianssianalyysit)
  • Faktorianalyysi sekä muut monimuuttujamenetelmät

4. Suhdeasteikolliset muuttujat

  • Mitattavalla arvolla on absoluuttinen nollapiste eli kun mitattavan arvo tulee nollaksi, niin esim mitattavaa ominaisutta ei esiinny esim. paino, pituus, tilavuus, tulot, pitoisuus, Kelvin, kuolaimen paksuus.
  • Lukuarvoja voidaan laskea yhteen ja kertoa. 
  • Samat testit kuin välimatka-asteikollisilla muuttujilla. 

5. Absoluuttinen asteikko

  • Lukumäärä esim. omenoiden lukumäärä

Epäparametriset testit

  • Ristiintaulukointi. Data-aineisto esitetään frekvensseinä ja prosenttiosuuksina. Yhdessä khiin-neliötestiin sopii monen tutkimusongelman käsittelyyn. Muuttujat toisistaan riippumattomia ja toisensa poissulkevia. Syysuhdepäätelmiä tulee varoa. 
  • Khiin-neliö testi
  • Mann-Whitney U-testi  Kahden ryhmän välisten erojen vertailuun, vähintään järjestysasteikollinen muuttuja, vertaa ryhmien keskiarvoja (mediaaneja). Testi perustuu sijalukuihin. Tarkasteltavien muuttujein arvot laitetaan suuruusjärjestykseen ja niille annetaan suuruusjärjestykseen perustuvat sijaluvut. 
  • Kruskall-Wallisin testi. Soveltuu kolmen tai useamman rhmän vertailuun. Vähntään järjestysasteikollinen muuttuja. Perustuu järjestyslykujen käyttöön.
  • Wilcoxonin testi

Heikompi selitysvoima parametrisiin menetelmiin verrattuna

Hypoteesi

Havitulle ilmiölle pyritään löytämään selitys

H0: nollahypoteesti, mitään ei tapahdu, havinnot johtuvat sattumasta. Väite jota vastaan tarvitaan vahvoja todisteita, että siitä luovuttaisiin. Jos nollahypoteestista luovutaan, astuu voimaan tutkimushypoteesi H1. 

H1: tutkimushypoteesti, vaihtoehtoineninen hypoteesi. Havainnot johtuvat taustalla olevasta tekijästä eivätkä sattumasta. Otoksessa saadut tulokset poikkeavat niin paljon H0:sta ettei se voi enää olla satumaa. 

Hypoteesien testaamiseen tarvitaan tilastollisia testejä. 

Hypoteesi on se mitä halutaan testata. Kerro miten se testataan. Eli objectives on sama kuin tavoite. 

p-arvo, merkitsevyystaso

p < 0.05  tilastollisesti melkein merkitsevä

p < 0.01  tilastollisesti merkitsevä

p < 0.001 tilastollisesti erittäin merkitsevä

Ilmoittaa sen kuinka todennäköisesti otoksessa havaittu piirre on voimassa myös tutkimuksen perusjoukossa eli populaatiossa

Jos p < 0.05     nollahypoteesti hylätään

Jos p > 0.05     nollahypoteesiä ei hylätä.

  • p-arvo on todennäköisyys sille, että havaittu poikkeama nollahypoteestista voidaan selittää pelkästään otantavirheellä. 
  • Jos nollahypoteesi päätetään hylätä, niin p-arvo ilmoittaa päätökseen liittyvän erehtymisriskin. 
  • H0: Eri kuolaimilla ei ole vaikutusta hevosen vaurioluokitukseen
  • H1: Eri kuolaimilla on vaikutusta hevosen vaurioluokitukseen
  • Jos nollahypoteesti H0 hylätään ja vaihtoehtoinen hypoteesti H1 tulee voimaan p = 0.012. Silloin on 1.2 % riski sille, että H1 tulos johtuisi pelkästään otantavirheestä. 
  • Yleensä hyväksymme 5 % virhemahdollisuuden (p < 0.05).

Päättelyvirheet


Tyypin I virhe: Jos todellisuudessa nollahypoteesti on totta (eroa ei ole), mutta nollahypoteesti kumotaan. Hylkäysvirhe. Väärä positiivinen, alfa virhe. 

Tyypin II virhe: Jos todellisuudessa nollahypoteesti ei ole totta (eroa on), mutta nollahypoteesti jää voimaan.  Hyväksymisvirhe.Väärä negatiivinen, beeta virhe. 

Tilastollinen merkitsevyys ei kerro kliinisestä merkitsevyydestä. 

Kausaliteetti

  • Kausaliteetti eli syy ja seuraussuhde
  • Korrelaatio ei kerro kausaliteetista
  • Vaikka kaksi asiaa ovat yhteydessä toisiinsa, se ei silti tarkoita että toinen johtuisi toisesta, vaan taustalla voi olla jokin muu sekoittava tekijä (confounder), joka vaikuttaa molempiin muuttujiin. 


OR odds ratio, vedonlyöntisuhde, ristitulosuhde 

  • Huom! ei vedonlyöntikerroin
  • Todennäköisyys sille, että jokin asia tapahtuu versus sille että ei tapahdu
  • OR = 1 selittävällä muuttujalla ei ole vaikutusta selitettävään muuttujaan
  • OR > 1 selittävä muuttuja suurentaa selitettävän muutujan riskiä
  • OR < 1 selittävä muuttuja suojaa selitettävältä muuttujalta
  • Todennäköisyys sille, että nopasta tulee 4, on 1/5 (huom ei 1/6). 
  • Voidaan raportoida:
  • higher risk/more likely tai 5 times higher odds, mutta ei saa raportoida 5 times higher risk.
  • Kun prevalenssi on korkea OR näyttää isompaa kuin RR


Luottamusväli, Confidence Interval

  • Olemme 95%:sti varmoja siitä, että oikea tulos on näiden rajojen välissä tai toisin sanottuna:
  • Luottamusväli määrittelee ne rajat, joiden väliin 95% keskiarvoista tai luvuista asettuu, mikäli tutkimusta toistettaisiin loputtomasti.
  • 95% todennäköisyydellä tulos olisi sillä välillä koko populaatiossa. 
  • Kuvaa OR:n ympärillä olevaa epävarmuutta
  • Todellinen arvo on luottamusvälillä
  • Jos luottamusväli ylittää 1:n esim 0.9-1.1 - tämä viittaa siihen, että tutkimuksen ryhmien välillä ei ole eroa eli tulos ei ole tilastollisesti merkitsevä. 
  • Kertoo tulosten yleistettävyydestä.
  • Luottamusväli ilmoitetaan mm. keskiarvolle ja OR-arvolle 

Oikea cutoff

Oikea cutoff kohta on silloin kun tulee vähiten vääriä diagnooseja (vääriä positiivisia ja vääriä negatiivisia). 

Tilastollisia tunnuslukuja

Sijaintiluvut

  • Keskiarvo
  • Mediaani
  • Moodi

Kertovat aineiston jakauman sijainnista

Hajontaluvut

  • Keskiharjonta  SD
  • Varianssi
  • Vaihteluväli [pienin luku, suurin luku]
  • Fraktiilivälit
  • Kurtoosi

Kertovat aineiston jakauman levinneisyydestä

Moodi

  • Se arvo, jonka frekvenssi on suurin
  • Yleisin luku
  • Lasketaan luokitelluista muuttujista, jatkuvista muuttujista moodia ei lasketa

Mediaani

  • Toteutuneista arvoista se luku, joyta pienempiä ja suurempia arvoja on yhtä paljon.
  • Jakaa aineiston kahtia
  • Jos arvoja on parillinen määrä, mediaani on kahden keskimmäisen keskiarvo. 
  • Vinoille jakaumille mieluummin mediaani kuin keskiarvo

Keskiarvo

  • Aritmeettinen keskiarvo


Kvartiili

  • Mediaani on 50% kvartiili, jakaa aineiston kahteen osaan. Mediaani on siis yhtäkuin Q2
  • Kvartiilit jakavat aineiston neljään osaan.
  • Ensimmäinen kvartiili Q1 : 25% toteutuneista arvoista on pienempiä kuin Q1 ja 75% on suurempia kuin Q1.  
  • Kvartiili voidaan laksea yhdeksälläeri tavalla. 
  • Graafisesti viiden luvun yhteenveto kuvataan Box-plotin eli laatikkojana kuvion avulla. 
  • Min   Q1   Md  Q3  Max

Keskihajonta SD, standard deviation

  • Satunnaismuuttujan standardipoikkeama eli keskihajonta kuvaa keskimääräistä poikkeamaa odotusarvosta 
  • Kertoo miten kaukana arvot keskimäärin ovat keskiarvosta
  • Varianssin neliöjuuri

Normaalijakauma

  • Monien tilastollisten testien oletus.
  • Normaalijakauman vinous = kurtoosi = 0. 
  • Tieteellisissä artikkeleissa ei yleensä lue miten normaalisuus on testattu, yleensä olisi hyvä lukea. esim tarkastelemalla histogrammia, sapphiro-wilkins testillä tai katsomalla skewness lukua. (Explore valikko).

Vinous, skewness

Aineistoa verrataan normaalijakaumaan

< 0 :vasen häntä korostunut (negative skew)

> 0: oikea häntä korostunut (positive skew)

Huipukkuus, kurtosis

Aineistoa verrataan normaalijaumaan. 

< 0 normaalia ohuemmat hännät, tylppä huippu

> 0 normaalia paksummat hännät, terävä huippu


Khiin neliötesti

  • Tarkastellaan kahden luokittelevan muuttujan yhteyttä ristiintaulukoinnilla
  • Khii neliötestejä on usieta mutta yleensä käytetään Pearson Chi-squarea
  • Testissä korkeintaan 20% odotetuista frevensseisä saa olla alle 5
  • 2 x 2 taulukossa yksikään odotetuista frevensseistä ei saa olla alle 5
  • Testissä yksikään odotetuista frekvensseistä ei saa olla alle 1
  • Jos nämä ei toteudu, voidaan käyttää Fisherin tarkkaa testiä
  • Df = degrees of freedom, vapausaste. Sarakkeiden määrä-1 x Rivien määrä x 1
  • Esim. 2 x2 taulukossa vapausaste on 1. 

Lineaarinen regressioanalyysi

  • Mallintaa selittävän muuttujan X yhteyttä selitettävään (vaste) muuttujaan Y. 
  • Selittävän muuttujan tulee olla normaalisti jakautunut
  • Ennustaa Y:n arvoja eli X:n arvoila.
  • Kertoo paljonko Y:n havaitusta vaihteusta X:n vaihtelu selittää (ns. selitysaste). 

Logistinen regressioanalyysi

Soveltuu tilanteisiin, jossa selitettävä muuttuja on kategorinen

  • Binäärinen- kaksiluokkainen selitettävä muuttuja tai
  • Selitettävän muuttujan luokkia voi olla myös monta, jolloin puhutaan multinominaalisesta regressioanalyysistä. 
  • Selittävät muuttujat eivät saa korreloida voimakkaasti keskenään.
  • Tavallisessa regressioanalyysissä selittävät muuttujat otetaan mukaan yhdellä kertaa eikä niitä lisätä tai tiputeta pois. 
  • Stepwise selection Askeltava regressioanalyysi. Ensimmäisessä askeleessa mukaan malliin otetaan se selittäjä, jonka korrelaatio selitettävän muuttujan kanssa on korkein (pienein p-arvo). Seuraavassa askeleessa mukaan tulee se selittäjä, jonka tuoma selityslisä jäljellä olevista selittäjistä on korkein jne. 
  • Backward elimination menetelmässä ensin kaikki on mukana ja sitten poistetaan p-arvojen mukaan huonommat. 
  • Manuaalinen mallinrakennus, jota ohjaa kausaalidiagrammi (suositeltava menetelmä), joka selittää sekoittavien tekijöiden (confounder) ja interkatioiden arvioinnin. 
  • Minimissään 10 ja mieluiten 20 havaintoa per selittävä muuttuja
  • Selitettävän muuttujan luokat mieluiten aika saman kokoisia tai ainakin enemmän kuin selittäviä muuttujia. 

Sekoittava tekijä, confounder

  • Muuttuja joka vaikuttaa sekä vastemuuttujaan (dependent variable, explanatory variable), että selittävään (exposure variable, risk factor, independent variable) muuttujaan. 
  • Esimerkiksi tutkittaessa vaikuttaako lääke paranemiseen. Sukupuoli vaikutti siihen minkä lääkkeen potilas valitsee. Sukupuoli on tutkimuksessa sekoittava tekijä. 
  • Confounderit ovat usein tuntemattomia