@@ -159,12 +163,11 @@ Tämän tutkielman tavoitteena on luoda kausaalipäättelyn avulla algoritmi, jo
% miksi halutaan siirtyä (frekventistisen / bayes-päättelyn ongelmat), edut, esiintyminen, erot, käyttö
Kuten Pearl ja Mackenzie esittävät kirjassaan Miksi, ihmisillä on luontainen kausaalisen päättelyn taito \cite{miksi}. Tavalliset tilastollisen päättelyn menetelmät eivät tarjoa tapaa määritellä kausaalista yhteyttä: aineistosta voidaan päätellä erilaisia \emph{korrelaatioita}, mutta kausaalinen päättely \emph{A johtuu B:stä} vaatii uudenlaista lähestymistapaa. Käytännön tutkimuksessa kausaaliset yhteydet kiinnostavat erityisesti lääketieteen alalla \cite{pearl10}. Kuten Kalisch toteaa, aiemmin kausaalisuuden päättely on perustunut korrelaatioiden havaitsemiseen. On hypotetisoitu, että biomarkkerin ja taudin samanaikainen ilmaantuminen viittaisi siihen, että markkeri aiheuttaa taudin. Voimmeko siis markkeria käsittelemällä vaikuttaa tautiin tai jopa parantaa se? \cite{kalisch14}
Syy-seuraussuhteen matemaattinen määrittely vaatii uutta lähestymistä myös todennäköisyyslaskennan merkintöihin. Pearl käyttää alkuperäisessä, englanninkielisessä kirjallisuudessa merkintää 'do' ilmaisemaan interventiota. Merkinnällä halutaan erottaa tavanomainen ehdollinen todennäköisyys $\pr(Y|X=x)$ interventiosta, jossa asetamme muuttujan $X$ arvoon $x$: $\pr(Y|\text{do}(X=x))$. Kimmo Pietiläinen käyttää kirjan suomennoksessa do-operaattorista käännöstä \emph{tee}, mutta seuraan tässä tutkielmassa Pearlin merkintöjä, ellen erikseen muuta mainitse \cite{miksi}. Alalla käytetään myös muita, alaindekseillä rikastettuja merkintätapoja \cite{pearl10}. Esittelen käyttämäni merkinnät tarkemmin kappaleessa \ref{kausaalimerk_laus}.
Judea Pearl ja Mackenzie esittävät kirjassaan Miksi, että ihmisillä on luontainen kausaalisen päättelyn taito \cite{miksi}. Tavalliset tilastollisen päättelyn menetelmät eivät tarjoa tapaa määritellä kausaalista yhteyttä: aineistosta voidaan päätellä erilaisia \emph{korrelaatioita}, mutta kausaalista päättelyä \emph{A johtuu B:stä} ei voida tehdä perinteisen tilastotieteen keinoin. Käytännön tutkimuksessa kausaaliset yhteydet kiinnostavat erityisesti lääketieteen alalla \cite{pearl10}. Kuten Kalisch toteaa, aiemmin kausaalisuuden päättely on perustunut korrelaatioiden havaitsemiseen. On hypotetisoitu, että jonkinlaisen biomarkkerin ja taudin samanaikainen havaitseminen viittaisi siihen, että markkeri aiheuttaa taudin. Voimmeko siis markkeria käsittelemällä vaikuttaa tautiin tai jopa parantaa sen? \cite{kalisch14}
Kausaalipäättelyssä mallit voidaan esittää graafeina, eli verkkoina. Verkoista voidaan suoraan lukea eri muuttujien relaatiot kausaalisuuden suuntien ja riippuvuuksien suhteen.
Syy-seuraussuhteen matemaattinen määrittely vaatii uutta lähestymistä myös todennäköisyyslaskennan merkintöihin. Pearl käyttää alkuperäisessä, englanninkielisessä kirjallisuudessa merkintää 'do' ilmaisemaan interventiota. Merkinnällä halutaan erottaa tavanomainen ehdollinen todennäköisyys $\pr(Y|X=x)$ interventiosta, jossa asetamme muuttujan $X$ arvoon $x$: $\pr(Y|\text{do}(X=x))$. Kausaalipäättelyyn liittyvät myös oleellisesti kontrafaktuaalit, jotka kuvaavat muuttujien mahdollisia arvoja, jos jokin toinen muuttuja olisi ollut erilainen -- "sateen todennäköisyys, jos taivaalla olisi ollut pilviä". Esimerkiksi muuttujan $Y$ arvoa, jos $X$ olisi ollut $x$ asteikolla $u$ merkittäisiin $Y_x(u)$. Tässä tutkielmassa käsittelen kuitenkin vain Pearlin kausaalimallia. Esittelen käyttämäni merkinnät tarkemmin kappaleessa \ref{kausaalimerk_laus}.
Kausaalipäättelyssä mallit voidaan esittää graafeina, eli verkkoina. Verkoista voidaan suoraan lukea eri muuttujien syy-seuraussuhteet ja riippuvuudet tai riippumattomuudet.
Aineiston luova mekanismi on esitetty kuvassa \ref{valikoitumisharha} ja toimii siten, että aluksi jokin henkilö tai muu entiteetti saapuu päätöksentekijän eteen seulottavaksi. Päätöksentekijän tavoitteena on estää haitallinen tulos ($y=0$) pitäen samalla myönteisten päätösten ($t=1$) määrä mahdollisimman pienenä. Seuloja pyrkii siis antamaan kielteisen päätöksen kaikille niille, joilla epäonnistuminen on todennäköisin. Päätöksen jälkeen Kohtalo määrittää havainnolle tuloksen $y\in\{0, 1\}$. Kielteisen päätöksen saaneille tulos voidaan merkitä puuttuvaksi tai onnistuneeksi, koska haitallista tapahtumaa ei havaita.
Aineiston generoivaa mekanismia voidaan havainnollistaa lääke- ja oikeustieteen alan esimerkeillä. Henkilö on ensin mainitussa potilas ja jälkimmäisessä epäilty. Seuloja voi olla esimerkiksi lääkäri, joka päättää annetaanko potilaalle vahvempaa ja samalla kalliimpaa lääkettä, jolloin relapsia ei havaita. Oikeudellisessa asetelmassa seulojalla voidaan tarkoittaa tuomaria, joka päättää epäillyn vapauttamisesta takuita vastaan ilman pelkoa rikoksen uusimisesta. Molemmilla päättäjillä on selkeä kannustin estää haitalliset tulokset -- sairauskohtaukset tai rikokset -- pitäen samalla päätöksistä aiheutuvat rasitteet yhteiskunnalle ja yksilöiden elämille mahdollisimman pienenä. Lisäksi erityisesti oikeudellisessa asetelmassa on selvää, kuinka takuukäsittelystä kielteisen tuloksen saaneet eivät voi syyllistyä uuteen rikokseen, joten heidän tulosmuuttujan arvo voidaan koodata joko onnistumiseksi tai havaitsemattomaksi.
Aineiston generoivaa mekanismia voidaan havainnollistaa lääke- ja oikeustieteen alan esimerkeillä. Henkilö on ensin mainitussa potilas ja jälkimmäisessä epäilty. Seuloja voi olla esimerkiksi lääkäri, joka päättää annetaanko potilaalle vahvempaa ja samalla kalliimpaa lääkettä, jolloin relapsia ei havaita. Oikeudellisessa asetelmassa seulojalla voidaan tarkoittaa tuomaria, joka päättää epäillyn vapauttamisesta takuita vastaan ilman pelkoa rikoksen uusimisesta. Molemmilla päättäjillä on selkeä kannustin estää haitalliset tulokset -- sairauskohtaukset tai rikokset -- pitäen samalla päätöksistä aiheutuvat rasitteet yhteiskunnalle ja yksilöiden elämille mahdollisimman pienenä. Lisäksi erityisesti oikeudellisessa asetelmassa on selvää, kuinka takuukäsittelystä kielteisen tuloksen saaneet eivät voi syyllistyä uuteen rikokseen, joten heidän tulosmuuttujan arvo voidaan merkitä joko onnistumiseksi tai havaitsemattomaksi.
mukaisesti. Jos $\pr(Y=0|X, Z, W)\geq0,5$, tulosmuuttujan arvoksi asetetaan 0 ja vastaavasti jos $\pr(Y=0|X, Z, W) < 0,5$ muuttujan arvoksi asetetaan 1. Lausekkeissa \ref{y_ehd} ja \ref{t_ehd} olevat kertoimet $\beta_X$, $\beta_Z$ ja $\beta_W$ ovat 1, 1 ja 0,2 vastaavassa järjestyksessä. \cite{lakkaraju17}
Päätösmuuttuja $T$ määritetään kaksivaiheisesti: ensin määritetään todennäköisyys kielteiselle päätökselle ja sitten muuttujan arvo asetetaan näiden todennäköisyyksien keskinäisen suuruuden mukaisesti. Muuttujan $T$ ehdollinen todennäköisyys
Päätösmuuttuja $T$ määritetään kaksivaiheisesti: ensin määritetään todennäköisyys kielteiselle päätökselle ja sitten muuttujan arvo asetetaan näiden todennäköisyyksien keskinäisen suuruuden ja hyväksymisasteen $r$mukaisesti. Muuttujan $T$ ehdollinen todennäköisyys
Tässä kappaleessa esitän tutkielmassani käyttämät metodit. Selostan supistusalgoritmin toiminnan kappaleessa \ref{contraction} sekä kausaalisen mallin laatimisessa ja arvioinnissa käyttämäni teoreettisen taustan kappaleissa \ref{verkot}. Koska kausaalinen malli esitetään verkkona, käyn aluksi läpi vaadittavat verkkoteoreettiset määritelmät. Esitän sen jälkeen mallini graafina ja osoitan kausaalisen vaikutuksen olevan identifioituva.
\section{Metriikat}
Algoritmien suorituskyvyn arviointiin liittyy kolme keskeistä metriikkaa: hyväksymisaste (engl. \emph{acceptance rate}, (AR)), epäonnistumisprosentti (\emph{failure rate} (FR)) ja keskimääräinen virhe(\emph{mean absolute error} (MAE)).
Päättäjän hyväksymisaste määritetään myönteisten päätösten määrän suhteena annettujen päätösten kokonaismäärään. Eli jos päätöksentekijä antaa 100 päätöstä, joista 40 on myönteisiä, niin hänen hyväksymisasteensa on $0,4$.
Päätöksentekijän epäonnistumisprosentti määritetään epäonnistuneiden tulosten määrän suhteena annettujen päätösten kokonaismäärään. Eli jos päätöksentekijä antaa 100 päätöstä, joista 60 on myönteistä ja näistä 60 päätöksestä 30 johtaa epäonnistumiseen (esimerkiksi rikoksen uusintaan), niin tuomarin epäonnistumisprosentti on $0,3$.
Supistusalgoritmi on 2017 esitetty algoritmi \cite{lakkaraju17}, jonka avulla voidaan arvioida ennustavien mallien todellista suorituskykyä, kun vain tietylle osalle aineistosta on luokka (label) saatavissa. Algoritmin toimintaperiaatteena on arvioida mallin $\B$ ennusteita löyhimmän päätöksentekijän tekemien päätösten joukossa. Algoritmin pseudokoodi on esitetty Algoritmissa \ref{contraction_alg}.
\begin{algorithm}[H] % enter the algorithm environment
\caption{Supistusalgoritmi}% give the algorithm a caption
\label{contraction_alg}% and a label for \ref{} commands later in the document
\begin{algorithmic}[1] % enter the algorithmic environment
\REQUIRE Aineisto $\D$, todennäköisyydet $\s$ ja hyväksymisaste $r$
\emph{Suunnattu verkko G} on pari $(V, E)$, missä $V \neq\emptyset$ on \emph{solmujen} joukko ja $$E =\{(a, b)\in V \times V | \text{ solmusta } a \text{ on nuoli solmuun } b \}$$ on \emph{kaarien} joukko.