Newer
Older
\documentclass[12pt,a4paper,leqno]{report}
%\usepackage[ansinew]{inputenc} Vaihdettu paketti alla olevaan, jotta ääkköset toimii
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[finnish]{babel}
\usepackage{amsthm}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage[toc]{appendix}
\renewcommand{\appendixtocname}{Liitteet}
\usepackage{graphicx} % kuvat
\graphicspath{ {./figures/} }
\newcommand\independent{\protect\mathpalette{\protect\independenT}{\perp}} %riippumattomuus
\def\independenT#1#2{\mathrel{\rlap{$#1#2$}\mkern2mu{#1#2}}}
\usepackage[nottoc]{tocbibind} % Lähteet sisällykseen
%\usepackage[round,sort,comma]{natbib} % Natbib että harvard, ei toimi babelbibin kanssa
\usepackage[fixlanguage]{babelbib}
\selectbiblanguage{finnish}
\usepackage{algorithm}% http://ctan.org/pkg/algorithms
\usepackage{algorithmic}% http://ctan.org/pkg/algorithms
\floatname{algorithm}{Algoritmi}
\renewcommand{\algorithmicrequire}{\textbf{Syöte:}}
\renewcommand{\algorithmicensure}{\textbf{Tuloste:}}
%\makeatletter
%\renewcommand{\listalgorithmname}{List of \ALG@name s}
%\makeatother
\newcommand{\pr}{\mathbb{P}} % tn merkki
\newcommand{\s}{\mathcal{S}} % tn merkki
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\No}{\mathbb{N}_0}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\diam}{\operatorname{diam}}
\theoremstyle{plain}
\newtheorem{lause}[equation]{Lause}
\newtheorem{lem}[equation]{Lemma}
\newtheorem{prop}[equation]{Propositio}
\newtheorem{kor}[equation]{Korollaari}
\theoremstyle{definition}
\newtheorem{konj}[equation]{Konjektuuri}
\newtheorem{esim}[equation]{Esimerkki}
\theoremstyle{remark}
\newtheorem{huom}[equation]{Huomautus}
\pagestyle{plain}
\setcounter{page}{1}
\addtolength{\hoffset}{-1.15cm}
\addtolength{\textwidth}{2.3cm}
\addtolength{\voffset}{0.45cm}
\addtolength{\textheight}{-0.9cm}
\title{Kandidaatin tutkielma\\ {\Large Kausaalipäättely ja valikoitumisharha}} % Parempi otsikko
\author{Riku Laine\\ Valtiotieteellinen tiedekunta \\ Helsingin yliopisto}
%%%%%%%%%%%%%%
%
% Tärkeitä termejä
%
% DEFENDANT = VASTAAJA
% bail = takuu(järjestelmä)
%
%%%%%%%%%%%%%%
\begin{document}
\maketitle
\tableofcontents
\chapter{Kiitokset -- Acknowledgements}\label{epkiit}
Tämän tutkielman aikana on tullut esiin takuujärjestelmään liittyvät ongelmat ja sovellusalueen yhteiskunnallinen merkitys. Tutkielman teko on ollut minulle erityisen mielekässtä antoisan aiheen ja mieleisten yhteistyökumppanien vuoksi. Olen kirjoittanut tämän kandidaatintutkielman yhteistyössä Helsingin yliopiston tietojenkäsittelytieteen osaston apulaisprofessorin Michael Mathioudakiksen ja tohtoritutkijan Antti Hyttisen kanssa. He tarjosivat minulle aiheen ja merkittävää tukea sekä tärkeitä kommentteja tämän tutkielman kirjoittamisen aikana.
Tämän tutkielman on tarkastanut XYZ. Haluan kiittää kaikkia edellä mainittuja henkilöitä sekä ystäviäni ja perhettäni, jotka tukivat minua tämän tutkielman tekemisessä.
\rightline{Helsingissä \today,}
\bigskip
\noindent I would like to wholeheartedly thank assistant professor Michael Mathioudakis from University of Helsinki's Department of Computer Science for numerous things. He provided me this extremely interesting thesis topic and provided insightful and encouraging comments throughout the process. Antti Hyttinen from the same department also gave important insight in the causal modelling and commented on the content.
Tämän tutkielman tavoitteena on luoda kausaalipäättelyn avulla algoritmi, jolla voimme arvioida ennustavien mallien tarkkuutta, kun käytettävissä on ainoastaan valikoitumisharhasta kärsivää aineistoa. Samankaltaista asetelmaa ovat julkaisuissaan käsitelleet muun muassa Lakkaraju ja Madras \cite{lakkaraju17, madras18}. Pyrin tutkielmassani luomaan joustavamman ja tarkemman vaihtoehdon Lakkarajun luomalle supistusalgoritmille, mutta esitän ensin yleistä taustaa kausaalipäättelystä ja valikoitumisharhasta.
%Tässä kappaleessa esittelen tutkielman taustaa ja yhdysvaltalaisen oikeuslaitoksen takuukäsittelyprosessin yleisellä tasolla. Sen jälkeen paneudun hieman vangitsemispäätöksen yhteiskunnalliseen merkitykseen: minkä takia ihmisiä vangitaan ja mitä perusteita on vangitsemattajättämispäätökselle. Pyrin luvun aikana myös hieman selvittämään takuujärjestelmän käyttöä Suomessa ja kappaleen lopussa pohdin hieman kausaalipäättelyä paradigman muutoksena tilastotieteen kentällä. Jätän kuitenkin tarvittavien merkintöjen esittämisen kappaleeseen \emph{\nameref{kausaalimerk}} ja mallin esittelyn \emph{\nameref{kausaalimalli}}-lukuun.
% https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/76171/omkm_2009_2.pdf
%\section{Takuukäsittely prosessina}\label{pros}
%
%% Johdanto, yhdysvallat, Suomi, kritiikki
%
%Yhdysvalloissa, kuten monissa muissa anglosaksisissa maissa, on käytössä järjestelmä, jota nimitetään takuu- tai vakuusjärjestelmäksi. Takuujärjestelmä on epäillyn vaihtoehto tutkintavankeudelle hänen odottaessaan oikeudenkäyntiä ja Yhdysvalloissa oikeus takuuseen periytyy maan perustamisen ajalta \cite{okm, zaniewski14}. Suomen oikeus- ja sisäasiainministeriön alaisen esitutkinta- ja pakkokeinotoimikunnan mukaan takuujärjestelmiä on kolmenlaisia: kahdessa niistä epäilty maksaa itse käteisellä vakuuden tai asettaa omaisuuttaan vakuudeksi ja kolmannessa jokin ulkopuolinen taho ''menee takuuseen epäillyn velvollisuuksien täyttämisestä'' \cite{okm}.
%
%Yhdysvalloissa epäillyn pidätyksen jälkeen hänet viedään paikallisen oikeusviranomaisen järjestämään takuukuulemiseen (bail hearing) \cite{zaniewski14}. Kuulemisessa päätetään takuun myöntämisestä, eli voidaanko epäilty vapauttaa, vai halutaanko hänet asettaa vankeuteen ennen oikeudenkäyntiä. Kuulemisessa päätetään myös mahdollisen takuun määrästä sekä vapauttamisen ehdoista \cite{zaniewski14}. Takuu voidaan suorittaa taattuna tai takaamattomana maksusitoumuksena tai maksaa suoraan -- erityistapauksissa epäilty voidaan vapauttaa myös pelkällä kirjallisella sitoumuksella (release on personal recognizance (ROR)) \cite{zaniewski14}.
%
%% Tilastoja?
%
%%%%%%%%%%
%
%\section{Yhteiskunnallinen merkitys ja kritiikki}\label{ykmerk}
%
%Zaniewski toteaa lyhyessä kirjallisuuskatsauksessaan, että takuujärjestelmän vuoden 1982 uudistus ei onnistunut laskemaan tarpeettomia vangitsemisia -- päinvastoin niiden suhteellinen määrä kaksinkertaistui 22\%:sta 49\%:iin vuodesta 1984 vuoteen 2007. Nykyisellään sikäläinen oikeusjärjestelmä suosii suoraan rahalla maksettavia tai taatuilla maksusitoumuksilla hoidettuja takuita, mikä asettaa huonossa taloustilanteessa olevat epäillyt eri tilanteeseen. \cite{zaniewski14}
%
%Suomessa vakuusjärjestelmää ei ole käytetty, vaikka aiemmin mainittu toimikunta toteaakin sen sisältyvän tullilain 44 §:ään. Kyseisessä pykälässä ''- - säädetään mahdollisuudesta asettaa pidätetyn tai vangitun vapaaksi päästämi[s]en ehdoksi, että hän asettaa vakuuden, jonka harkitaan takaavan hänen saapumisensa oikeudenkäyntiin ja ehkä tuomittavien seuraamusten suorittamisen''. Kuten he tarkentavat, lisäksi usein edellytetään, että epäilty ei asu Suomessa, ja epäillään hänen pakenevan maasta ennen oikeudenkäyntiä tai rangaistusta \cite{okm}. Sekä yhdysvaltalaiselle että suomalaiselle järjestelmälle on yhteistä, että takuu tuomitaan menetettäväksi valtiolle, jos vapauden ehtoja rikotaan.
%
%Kritiikkiä on esitetty molemmissa maissa osaltaan samoihin asioihin. Suomessa pykälää ei ole sovellettu, koska luultavasti sen tulkintaohjeet ovat niin niukat, kuten myös sääntely \cite{okm}. Yhdistävänä kritiikkinä sekä Zaniewski että esitutkinta- ja pakkokeinotoimikunta mainitsevat muun muassa sen, kuinka takuumaksujen toimeenpano vaikuttaa tai Suomen tapauksessa vaikuttaisi pienituloisten taloustilanteeseen \cite{zaniewski14, okm}. Suomalainen toimikunta esittää lisäksi monia muitakin ongelmakohtia, sikäli takuujärjestelmä haluttaisiin ottaa Suomessa käyttöön, esimerkkinä he toteavat, että vakuusmaksujen maksamiseen tulisi todennäköisesti liittymään ''epätoivottavia lieveilmiöitä'' \cite{okm}. Tähän ongelmaan on Yhdysvalloissa jo osittain reagoitukin, sillä esimerkiksi Californian osavaltio päätti viime vuonna poistaa takuumaksut käytöstä \cite{cnn}.
%Kritiikkiä on esitetty niin itse takuun rahallisesta määrästä (lähde?) kuin perusteista (propublica).
%Ongelmana tässä on se, millä perustein tuomarit tekevät päätöksen bailille pääsemisestä on käynyt ilmi (linkkaa propublica), että vaikka he käyttävät yhdysvaltalaisen yhtiön North
\section{''Kausaalipäättely uutena paradigmana''}\label{para}
% miksi halutaan siirtyä (frekventistisen/bayes-ppäättelyn ongelmat), edut, esiintyminen, erot, käyttö
Kuten Pearl ja Mackenzie esittävät kirjassaan Miksi, ihmisillä on luontainen kausaalisen päättelyn taito \cite{miksi}. Tavalliset tilastollisen päättelyn menetelmät eivät tarjoa tapaa määritellä kausaalista yhteyttä: aineistosta voidaan päätellä erilaisia \emph{korrelaatioita}, mutta päättely \emph{A johtuu B:stä} vaatii uudenlaista lähestymistapaa. Käytännön tutkimuksessa kausaaliset yhteydet kiinnostavat erityisesti lääketieteen alalla. Kuten Kalisch toteaa, aiemmin kausaalisuuden päättely on perustunut korrelaatioiden havaitsemiseen. On hypotetisoitu, että biomarkkerin ja taudin samanaikainen ilmaantuminen viittaisi siihen, että markkeri aiheuttaa taudin. Voimmeko siis markkeria käsittelemällä vaikuttaa tautiin tai jopa parantaa se? \cite{kalisch14}
Syy-seuraussuhteen matemaattinen määrittely vaatii uutta lähestymistä myös todennäköisyyslaskennan merkintöihin. Pearl käyttää alkuperäisessä, englanninkielisessä kirjallisuudessa merkintää 'do' ilmaisemaan interventiota. Merkinnällä halutaan erottaa tavanomainen ehdollinen todennäköisyys $\pr(Y|X=x)$ interventiosta, jossa asetamme muuttujan $X$ arvoon $x$: $\pr(Y|\text{do}(X=x))$. Kimmo Pietiläinen käyttää kirjan suomennoksessa do-operaattorista käännöstä \emph{tee}, mutta seuraan tässä tutkielmassa Pearlin merkintöjä, ellen erikseen muuta mainitse \cite{miksi}. Alalla käytetään myös muita, alaindekseillä rikastettuja merkintätapoja \cite{pearl10}. Esittelen käyttämäni merkinnät tarkemmin kappaleessa \ref{kausaalimerk}.
Kausaalipäättelyssä mallit voidaan esittää graafeina, eli verkkoina. Verkoista voidaan suoraan lukea eri muuttujien relaatiot kausaalisuuden suuntien ja riippuvuuksien suhteen.
\section{Valikoitumisharha -- seulotun aineiston ongelma}\label{sl}
Aineiston luova mekanismi on esitetty kuvassa \ref{valikoitumisharha} ja toimii siten, että aluksi jokin henkilö tai muu entiteetti saapuu päätöksentekijän eteen seulottavaksi. Päätöksentekijän tavoitteena on estää haitallinen tulos ($y=0$) pitäen samalla myönteisten päätösten ($t=1$) määrä mahdollisimman pienenä. Seuloja pyrkii siis antamaan kielteisen päätöksen kaikille niille, joilla epätoivottava tulos on todennäköisin. Päätöksen jälkeen henkilö siirtyy vaiheeseen, jossa Kohtalo määrittää hänelle tuloksen $y\in\{0,1\}$. Kielteisen päätöksen saaneille tulos voidaan merkitä puuttuvaksi tai onnistuneeksi, koska haitallista tapahtumaa ei havaita.
Aineiston generoivaa mekanismia voidaan havainnollistaa lääke- ja oikeustieteen alan esimerkillä. Henkilöllä viitataan ensin mainitussa potilaaseen ja jälkimmäisessä epäiltyyn. Seuloja voi olla esimerkiksi lääkäri, joka päättää annetaanko potilaalle vahvempaa ja samalla kalliimpaa lääkettä, jolloin relapsia ei havaita. Oikeudellisessa asetelmassa seulojalla voidaan tarkoittaa tuomaria, joka päättää epäillyn vapauttamisesta takuita vastaan ilman pelkoa rikoksen uusimisesta. Molemmilla päättäjillä on selkeä kannustin estää haitalliset tulokset -- sairauskohtaukset tai rikokset -- pitäen samalla päätöksistä aiheutuvat rasitteet yhteiskunnalle ja yksilöiden elämille mahdollisimman pienenä.
Havaintoja voi puuttua erilaisissa tutkimuksissa useista eri syistä. Kyselytutkimuksissa vastauskatoa voi syntyä esimerkiksi vastaajan haluttomuudesta vastata kysymykseen tai yksinkertaisesti siitä syystä, että vastaajaa ei tavoiteta. Jos aineiston puuttuneisuusmekanismi on luonteeltaan täysin satunnainen, eli vastauksen puuttuneisuus ei liity millään tavalla mitattuihin muuttujiin, voidaan sanoa aineistoa puuttuvan \emph{täysin satunnaisesti}. Käänteisessä tapauksessa voidaan puhua \emph{ei-satunnaisesta puuttuvuuudesta}. \cite{laaksonen13}
Tässä tutkielmassa tarkasteltavasssa asetelmassa havaintojen puuttuminen liittyy sekä havaittuihin että havaitsemattomiin muuttujiin. Puuttuneisuuden voidaan sanoa olevan \emph{satunnaista ehdollisesti}, koska aineistoa puuttuu vain yksilöiltä, joilla on korkea todennäköisyys haitalliseen tulokseen. (Erilaisia aineiston puuttuneisuusmekanismeja esitelllään laajemmin esimerkiksi Laaksosen kirjassa \emph{Surveymetodiikka}.) Puuttuneisuutta voidaan korvata imputoinnilla, jolla yritetään tehdä mahdollisimman hyvä arvaus puuttuvasta arvosta. Todistan tutkielmassani myöhemmin, että kausaalipäättelyä hyödyntämällä voimme estimoida havaitusta, valikoimusharhaisesta aineistosta haluttuja tunnusukuja ilman imputointia harhattomasti. \cite{laaksonen13} Englanninkielisessä kirjallisuudessa seulotun aineiston ongelmasta on alettu käyttää Lakkarajun esittämää termiä \emph{selective labels} \cite{lakkaraju17}. % se lähde, missä näin väitettiin
\begin{figure}[H]
\centering
\includegraphics[scale = 0.4]{valikoitumis_iso}
\caption{Valikoitumisharha}
\label{valikoitumisharha}
\end{figure}
%%%%%%%%%
%%%%%%%%%
\chapter{Aineiston generointi}\label{aineisto}
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
%%%%%%%%%%
%
%\section{COMPAS}\label{compas}
%
%COMPAS-aineisto (Correctional Offender Management Profiling for Alternative Sanctions) on alun perin ProPublica-julkaisun koostama aineisto yhteensä 18 610 amerikkalaisesta. Aineistossa on muun muassa heidän demografiset tiedot, kuten ikä, sukupuoli ja rotu, ja rikoshistoriaan liittyvät tiedot. Oikeammin COMPAS viittaa Northpointe-yhtiön työkaluun, joka antaa arvion epäillyn rikoksenuusintariskistä. Arvio perustuu epäillyn vastauksiin kyselyyn, jossa tiedustellaan hänen taustoistaan, kuten lähipiirin huumeidenkäytöstä ja epäillyn taipumuksesta väkivaltaisuuteen. ProPublica kokosi aineiston alun perin paljastaakseen arvion tuottavan algoritmin mustia syrjivän luonteen. ProPublican analyysi osoitti, että mustat saivat järjestelmällisesti korkeamman riskiarvion kuin valkoihoiset. \cite{propublica16}
%
%ProPublica esittää artikkelinsa metodologiaosiossa, kuinka he ovat päätyneet lopulliseen aineistoon, joka käsittää tiedot 6172 henkilöstä. Pääpiirteissään he ovat siistineet aineistoa siten, että se yhdistää oikeat henkilöt oikeisiin pisteytyksiin ja oikeisiin uusintatuomioihin. Joitakin johdettuja mutujia luotiin, kuten tekstuaalinen kuvaus desiilipisteytyksestä scoretext joka ryhmittää etc etc.
%
%\begin{table}[H]
%\centering
%\begin{tabular}{lrrrrrrrrrr}
%\hline \hline
% Muuttujan nimi & $\bar{x}$ & Keskihajonta & Min & 25\% & 50\% & 75\% & Max \\
%\hline \hline
% age & 34,5 & 11,7 & 18 & 25 & 31 & 42 & 96 \\
% priors\_count & 3,25 & 4,74 & 0 & 0 & 1 & 4 & 38 \\ \hline
% days\_b\_screening\_arrest & -1,74 & 5,08 & -30 & -1 & -1 & -1 & 30 \\
% decile\_score & 4,42 & 2,84 & 1 & 2 & 4 & 7 & 10 \\
% is\_recid & 0,484 & 0,500 & 0 & 0 & 0 & 1 & 1 \\ \hline
% two\_year\_recid & 0,455 & 0,498 & 0 & 0 & 0 & 1 & 1 \\
% length\_of\_stay & 14,6 & 46,7 & -1 & 0 & 1 & 5 & 799 \\
%\hline \hline
%\end{tabular}
%\caption{COMPAS-aineiston numeeristen muuttujien hajontalukuja}
%\label{table:1}
%\end{table}
%\section{Synteettinen}\label{synteettinen}
Synteettinen aineisto luotiin Lakkarajun artikkelissaan selostamalla tavalla \cite{lakkaraju17}. Aineistoon simuloitiin kolme muuttujaa $X$, $Z$, ja $W$. Näistä muuttujista $X$ vastaa informaatiota, joka on sekä mallin että tuomarin havaittavissa, eli informaatiota, joka on kirjattu oikeuden pöytäkirjoihin tai on kerättävissä muista rekistereistä, kuten vastaajan sukupuoli. Muuttujalla $Z$ kuvataan tietoa, jonka vain tuomari voi havaita: kuten Lakkaraju havainnollistaa, tällaista voi olla esimerkiksi tieto siitä, onko vastaajalla perhettä mukana oikeussalissa \cite{lakkaraju17}. $W$ on mallissa havainnollistamassa reaalimaailmaa. Muuttujalla esitämme aineistossa informaatiota, joka ei ole saatavilla päätöksentekijöille eikä mallille mutta vaikuttaa silti rikoksenuusimisriskiin. aineistossa nämä ovat kaikki riippumattomia standardinormaalijakautuneita satunnaismuuttujia, eli $X, W, Z \sim N(0, 1) \independent$.
Yhdistämme henkilöt satunnaisesti kuhunkin $M = 500$ tuomariin, joista jokaiselle määritellään hyväksymisprosentti $r \in [0,1]$. Tuomarin hyväksymisprosentti määritetään ottamalla arvoja tasajakaumasta suljetulta väliltä [0,1; 0,9] ja sitten pyöristämällä ne 10 desimaalin tarkkuuteen. Tulosmuuttuja Y simuloidaan määrittämällä sen ehdollinen todennäköisyys seuraavasti: $\pr(Y=0|X, Z, W)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ+\beta_WW)\}}$, missä kertoimet $\beta_X$, $\beta_Z$ ja $\beta_W$ on asetettu arvoihin 1, 1 ja 0,2 vastaavassa järjestyksessä. \cite{lakkaraju17}
Päätösmuuttujan $T$ ehdolinen todennäköisyys $\pr(T=0|X, Z)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ)\}} + \epsilon$ missä $\epsilon \sim N(0, 0,1)$ vastaa pientä määrää kohinaa. Henkilöltä $i$ kielletään takuut, eli $T_i=0$ jos muuttujan $T$ ehdollinen todennäköisyys on tuomarin $j$ suurimman $(1-r)\cdot 100\%$ joukossa. Lopuksi koulutusaineisto suodatettiin siten, että saatavissa oli vain yksilöt, jotka päästettiin vapaaksi $(T=1)$. \cite{lakkaraju17}
\begin{table}[H]
\centering
\begin{tabular}{lrrrrrrrrrr}
\hline \hline
Muuttuja & Keskiarvo & Keskihajonta & Minimi & 25\% & 50\% & 75\% & Maksimi \\
\hline
acceptanceRate\_R & 0.48 & 0.23 & 0.10 & 0.26 & 0.47 & 0.65 & 0.89 \\
X & -0.00 & 1.00 & -4.66 & -0.67 & -0.00 & 0.67 & 3.83 \\
Z & 0.01 & 1.00 & -4.85 & -0.67 & 0.00 & 0.68 & 4.24 \\
W & 0.01 & 1.00 & -4.03 & -0.67 & 0.01 & 0.68 & 4.29 \\
result\_Y & 0.50 & 0.50 & 0.00 & 0.00 & 0.00 & 1.00 & 1.00 \\
probabilities\_T & 0.50 & 0.28 & -0.34 & 0.28 & 0.50 & 0.72 & 1.30 \\
decision\_T & 0.48 & 0.50 & 0.00 & 0.00 & 0.00 & 1.00 & 1.00 \\
\hline
\end{tabular}
\caption{Synteettisen aineiston muuttujien hajontalukuja}
\label{table:2}
\end{table}
Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni menetelmät.
\section{Aiemmat tutkimukset?}\label{aiemmat}
Aiemmat tutkimukset ovat lähestyneet monesta näkökulmasta, mutta ilman kausaatiota.
\section{Validointimetodit}\label{validointi}
Tulosten arvioinnissa käytetään visuaalista tarkastelua ja XZY. Laskemme arvioista vapaaksi päässeiden uusijoiden suhteen kaikkiin tuomittuihin, eli niin sanotun virhesuhteen (failure rate).
Kausaalipäättelyn mallit määritellään verkkoina. Esitän tässä kappaleessa lyhyesti kaikki tarvittavat verkkoteoreettiset määritelmät, joita tulen hyödyntämään. Noudatan määritelmissä Oinosta \cite{oinonen16}.
% Ota esimerkki verkko ja kirjoita siitä lyhyet havainnollistavat kommentit
\begin{figure}[H]
\centering
\includegraphics[scale = 0.5]{full_model}
\caption{Esimerkkiverkko $H = (V, E)$, missä $V = \{R, X, Z, T, Y\}$.}
\label{esverkko}
\begin{maar}[Suunnattu verkko] \label{suun_verkko}
\emph{Suunnattu verkko G} on pari $(V, E)$, missä $V \neq \emptyset$ on solmujen joukko ja $$E = \{(a, b) \in V \times V | \text{ solmusta } a \text{ on nuoli solmuun } b \} $$ on \emph{kaarien} joukko.
\end{maar}
\noindent Kuvassa \ref{esverkko} näkyvässä verkossa esimerkiksi $(X, R) \in E$, mutta $(T, Z) \notin E$, koska solmusta $T$ ei ole nuolta solmuun $Z$. Lisäksi voidaan todeta, että kaarien joukkoon kuuluu yhdeksän järjestettyä paria ja solmujen joukko $V$ käsittää viisi alkiota, jotka on lueteltu kuvatekstissä.
\begin{maar} % Lähtösolmu, maalisolmu, vierussolmu
Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
\noindent Merkintä $a \rightarrow b$ tarkoittaa, että $(a, b) \in E$. Tällöin sanotaan, että $a$ on kaaren $(a, b)$ \emph{lähtösolmu} ja $b$ on kaaren $(a, b)$ \emph{maalisolmu}. Sanotaan myös, että solmu $b$ on solmun $a$ \emph{vierussolmu}. \\
\noindent Jos $(a, a) \in E$, sanotaan suunnatussa verkossa olevan \emph{silmukka} solmussa $a$.
\end{maar}
\noindent Esimerkkiverkossa $H$ kaaren $(Z, T)$ lähtösolmu on solmu $Z$ ja maalisolmu solmu $T$. Lisäksi huomataan, että verkossa $H$ ei ole yhtään silmukkaa.
\begin{maar}[Vierekkäisyys] \label{vierekkaisyys}
Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
\noindent Jos solmujen $a$ ja $b$ välillä on nuoli, niin solmujen $a$ ja $b$ sanotaan olevan \emph{vierekkäisiä}.
\noindent Kuvan \ref{esverkko} verkosta havaitaan, että melkein kaikki solmut ovat toistensa vierussolmuja. Ainoa poikkeus on solmut $R$ ja $Y$, joiden välillä ei ole nuolta ja jotka eivät siten ole vierekkäisiä.
\begin{maar}[Yksinkertainen suunnattu verkko] \label{yk_suun_verkko}
Oletetaan, että $G = (V,E)$ on suunnattu verkko, jossa ei ole yhtään silmukkaa eli $(v, v) \notin E$ kaikilla $v \in V$. \\
\noindent Tällöin sanotaan, että $G$ on yksinkertainen suunnattu verkko.
\noindent Esimerkkinä käytetystä verkosta $H$ nähdään heti, että se on yksinkertainen suunnattu verkko, koska siinä ei ole yhtään silmukkaa. Yksinkertaisesta suunnatusta verkosta käytetään englanniksi nimitystä \emph{directed acyclic graph} ja se saatetaan lyhentää DAG.
\begin{maar}[Polku ja suunnattu polku] \label{polku}
Oletetaan, että $G$ on yksinkertainen verkko ja $n \in \N, n \geq 1$. \\
\noindent Verkon $G$ solmujen jono $v_1, \ldots, v_n$ on \emph{polku} solmusta $v_1$ solmuun $v_n$, jos jonon jokaisesta solmusta on kaari jonon seuraavaan solmuun. Polkua voidaan merkitä $v_1 \leadsto v_n$. \\
\noindent Jos verkko $G$ on suunnattu verkko, $a, b \in V$ ja kaikki polun $a \leadsto b$ kaaret kulkevat kaarien suuntien mukaisesti, voidaan täsmentää, että polku $a \leadsto b$ on \emph{suunnattu polku}.
\noindent Huomataan, että esimerkkinä käytetyssä verkossa $H$ on useita polkuja solmusta $R$ solmuun $Y$. Polku $R \rightarrow T \rightarrow Y$ on suunnattu polku ja $R \leftarrow X \rightarrow Y$ on tavallinen polku, sillä solmujen $R$ ja $X$ välillä kuljetaan nuolen suunnan vastaisesti.
\begin{maar} \label{sukulaisuus}
Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
\noindent Jos on olemassa suunnattu polku $a \leadsto b$, niin solmun $b$ sanotaan olevan solmun $a$ \emph{jälkeläinen}. Vastaavasti tällöin sanotaan solmun $a$ olevan solmun $b$ \emph{vanhempi}.
\end{maar}
\noindent Esimerkiksi kuvan \ref{esverkko} verkossa solmulla $Y$ ei ole jälkeläisiä ja solmun $Z$ jälkeläiset ovat kaikki muut verkon solmut poislukien se itse, eli solmun $Z$ jälkeläiset on joukko $V \setminus \{Z\}$.
%%%%%%%%%
\section{Kausaalipäättely}\label{kausaali}
Erityisesti \cite{pearl10}. Esittele merkunnät, määritelmät ja mallli. Käännökset Miksi-kirjaa mukaillen?
\subsection{Johdanto?}\label{kausaalijohd}
Kausaalipäättelyssä mallit määritellään usein yksinkertaisina suunnattuina verkkoina. Mallin määrittämästä verkosta voidaan suoraan lukea kausaaliset riippuvuussuhteet ja malliin kuuluvat muuttujat. Jos mallissa on solmut $A$ ja $B$ ja jos solmu $B$ on solmun $A$ jälkeläinen, niin muuttujalla $A$ on mallin mukaan jonkinlainen kausaalinen vaikutus muuttujaan $B$. Jos verkossa muuttujien välillä ei ole jälkeläisyyssuhdetta, niin ne ovat toisistaan riipumattomat. Kausalisen vaikutuksen funktionaalista muotoa ei usein määritellä.
* Usein funktionaalista muotoa ei määritellä,, lisää tähän ne nuoliversiot yhtälöistä havainnollistamaan, että siirrytään yhtäsuuruudesta määräytymiseen \cite{kalisch14}
\subsection{Merkinnät}\label{kausaalimerk}
Kausaalipäättelyssä käytettävät merkinnät noudattelevat pitkälle tavallisia todennäköisyyslaskennan merkintöjä. Kun selvitetään muuttujan $X$ vaikutusta muuttujaan $Y$ ja tehdään interventio asettamalla muuttuja $X$ arvoon $x_0$, sitä merkitään $\pr(Y| \text{do} (X=x_0))$.
\subsection{Määritelmät}\label{kausaalimäär}
\begin{maar}[Takaovikriteeri, \emph{back-door criterion}]\label{d_sep}
Joukko $\s$ sulkee / katkaisee (blocks) polun $p$, jos vähintään toinen seuraavista ehdoista on voimassa:
\item Polku $p$ sisältää vähintään yhden solmun, joka on jonkin polun kulkusuuntaisen kaaren lähtösolmu ja kuuluu joukkoon $\s$. (arrow-emitting)
\item Polku $p$ sisältää vähintään yhden käänteisen haarukkasolmun (collision node), joka ei kuulu joukkoon $\s$ ja jolla ei ole jälkeläisiä joukossa $\s$.
\end{maar}
\begin{maar}\label{adjustment}
Oletetaan, että halutaan selvittää (satunnais)muuttujan X kausaalista vaikutusta muuttujaan Y. Joukko $\s$ on \emph{riittävä} tasoitukseen (adjustment), kun seuraavat ehdot ovat voimassa: \textbf{sufficifient to adjusment = identifioituva?}
\item Yksikään joukon $\s$ alkioista ei ole solmun X jälkeläinen.
\item Joukon $\s$ alkiot katkaisevat kaikki märitelmän \ref{d_sep} mukaiset polut / ''takaovireitit'' solmusta X solmuun Y.
\subsection{Malli}\label{kausaalimalli}
Mallimme määrittelevä graafi on kuvattuna alla kuvassa \ref{final_model}. Mallissamme on viisi muuttujaa, jotka on esitelty taulukossa \ref{syntmjat}. Muuttujalla $R$ kuvataan vapautusprosenttia, eli sitä prosentuaalista osuutta henkilöistä, joilla on suurin vaara ja joilla silti annetaan positiivinen päätös. $X$ ilmentää henkilön henkilökohtaisia ominaisuuksi, COMPAS-aineiston tapauksessa esimerkiksi henkilön ikää ja sukupuolta. Lisäksi muuttujan $X$ tiedot on sekä tuomarin että ennustavan mallin havaittavissa. Muuttuja $Z$ on muuttuja, jonka tuomari tai muu asiantuntija voi havaita, mutta joka on mallin ulottumattomissa. Muuttujan $Z$ voidaan ajatella esimerkiksi oikeuskäsittelyjen tapauksessa kuvaavan onko henkilöllä perhe mukana oikeussalissa.
\begin{table}[h!]
\centering
\begin{tabular}{rl}
\hline \hline
Muuttuja & Kuvaus \\
\hline
R & Vapautusprosentti, vapautumiskynnys \\
X & Henkilökohtaiset muuttujat, kirjalliset \\
Z & Henkilökohtaiset muuttujat, päättäjän havaitsemat\\
Y & Uusinta, $Y=0$ uusi, 1 niin ei uusinut\\
T & 0 on jail, 1 on bail\\
\hline \hline
\end{tabular}
\caption{Mallin muuttujien selitteet}
\label{syntmjat}
\end{table}
\begin{figure}[H]
\centering
\begin{subfigure}[b]{0.4\textwidth}
\includegraphics[width=\textwidth]{final_model}
\caption{lopullinen malli}
\label{final_model}
\end{subfigure}
~ %add desired spacing between images, e. g. ~, \quad, \qquad, \hfill etc.
%(or a blank line to force the subfigure onto a new line)
\begin{subfigure}[b]{0.5\textwidth}
\includegraphics[width=\textwidth]{intervention_model}
\caption{interventio}
\label{intervention_model}
\end{subfigure}
~ %add desired spacing between images, e. g. ~, \quad, \qquad, \hfill etc.
%(or a blank line to force the subfigure onto a new line)
\caption{Kausaalimallit graafina}\label{mallikuvat}
\begin{algorithm} % enter the algorithm environment
\caption{Kausaalialgoritmi} % give the algorithm a caption
\label{causal_alg} % and a label for \ref{} commands later in the document
\begin{algorithmic}[1] % enter the algorithmic environment
\REQUIRE aineisto $(\mathbf{x}, t, y) \in \D_t, \D_v$ ja hyväksymisaste $r \in [0, 1]$, missä $\D_t$ on testiaineisto ja $\D_v$ validointiaineisto.
\ENSURE $\pr(Y=0|\text{do}(R=r))$
\STATE Määritä $f(x) = \pr(X=x)$ testiaineistosta.
\STATE Ennusta vastetta $Y$ selittävillä muuttujilla $X$ käyttäen harjoitusaineiston havaintoja, joilla $T=1$.
\STATE Määritä harjoitusaineiston jokaiselle havainnolle $P(Y=0|X=x)$ käyttäen yllä olevaa mallia.
\STATE Järjestä havainnot nousevaan järjestykeen edellisen kohdan todennäköisyyksien mukaan.
\STATE Alusta muuttuja \texttt{summa} = 0.
\FORALL{Jokaiselle parametriavaruuden pisteelle}
\STATE $p_x \leftarrow P(X=x)$
\STATE $\mathcal{D_x} \leftarrow \{\mathcal{D} | X = x\}$
\STATE Assign first $r\cdot 100\%$ observations from $\mathcal{D_x}$ to $\mathcal{D}_{rx}$
\STATE $p_t \leftarrow \dfrac{|\{\mathcal{D}_{rx}|T=1\}|}{|\mathcal{D}_{rx}|}$
\STATE $\mathcal{D}_{tx} \leftarrow \{\mathcal{D}_x | T = 1\}$
\STATE $p_y \leftarrow \dfrac{|\{\mathcal{D}_{tx}|Y=0\}|}{|\mathcal{D}_{tx}|}$
\STATE Lisää muuttujaan \texttt{summa} tulo $p_y \cdot p_t \cdot p_x$
\ENDFOR
\RETURN \texttt{summa}
\chapter{Tulokset}\label{tulokset}
\section{Synteettinen}\label{synttulokset}
\section{Compas}\label{compastulokset}
\chapter{Diskussio}\label{diskussio}
\begin{verbatim}
# R-koodi, tulos sama
library(igraph)
library(causaleffect)
# simplify = FALSE to allow multiple edges
g <- graph.formula(X -+ R, X -+ D, X -+ Y, R -+ D , D -+ Y, D -+ Y, Y -+ D, simplify = FALSE)
# Here the bidirected edge between X and Z is set to be unobserved in graph g
# This is denoted by giving them a description attribute with the value "U"# The edges in question are the fourth and the fifth edge
g <- set.edge.attribute(graph = g, name = "description", index = c(6,7), value = "U")
res <- causal.effect("Y", "R", G = g)
\end{verbatim}
%\begin{appendices}
%\chapter{Abstract in English?}
%The contents...
%\end{appendices}