Skip to content
Snippets Groups Projects
Kandi.tex 24.3 KiB
Newer Older
  • Learn to ignore specific revisions
  • \documentclass[12pt,a4paper,leqno]{report}
    
    %\usepackage[ansinew]{inputenc} Vaihdettu paketti alla olevaan, jotta ääkköset toimii
    \usepackage[utf8]{inputenc}
    \usepackage[T1]{fontenc}
    \usepackage[finnish]{babel}
    \usepackage{amsthm}
    
    \usepackage{amsfonts} 
    
    \usepackage{amsmath}
    \usepackage{amssymb}
    
    
    \usepackage{hyperref} 
    
    Riku-Laine's avatar
    Riku-Laine committed
    \usepackage{icomma}
    \usepackage{enumerate}
    
    \usepackage[toc]{appendix}
    \renewcommand{\appendixtocname}{Liitteet}
    
    \usepackage{graphicx} % kuvat
    \graphicspath{ {./figures/} }
    
    
    Riku-Laine's avatar
    Riku-Laine committed
    \newcommand\independent{\protect\mathpalette{\protect\independenT}{\perp}} %riippumattomuus
    
    \def\independenT#1#2{\mathrel{\rlap{$#1#2$}\mkern2mu{#1#2}}}
    
    
    Riku-Laine's avatar
    Riku-Laine committed
    \usepackage[nottoc]{tocbibind} % Lähteet sisällykseen
    
    %\usepackage[round,sort,comma]{natbib} % Natbib että harvard, ei toimi babelbibin kanssa
    
    \usepackage[fixlanguage]{babelbib}
    \selectbiblanguage{finnish}
    
    
    Riku-Laine's avatar
    Riku-Laine committed
    \usepackage{algorithm}% http://ctan.org/pkg/algorithms
    \usepackage{algorithmic}% http://ctan.org/pkg/algorithms
    \floatname{algorithm}{Algoritmi}
    \renewcommand{\algorithmicrequire}{\textbf{Syöte:}}
    
    \renewcommand{\algorithmicensure}{\textbf{Tuloste:}}
    
    Riku-Laine's avatar
    Riku-Laine committed
    
    %\makeatletter
    %\renewcommand{\listalgorithmname}{List of \ALG@name s}
    %\makeatother
    
    
    \newcommand{\pr}{\mathbb{P}} % tn merkki
    
    \newcommand{\D}{\mathcal{D}} % aineisto
    
    \newcommand{\s}{\mathcal{S}} % tn merkki
    
    
    \newcommand{\R}{\mathbb{R}}
    \newcommand{\C}{\mathbb{C}}
    \newcommand{\Q}{\mathbb{Q}}
    \newcommand{\N}{\mathbb{N}}
    \newcommand{\No}{\mathbb{N}_0}
    \newcommand{\Z}{\mathbb{Z}}
    \newcommand{\diam}{\operatorname{diam}}
    
    \theoremstyle{plain}
    \newtheorem{lause}[equation]{Lause}
    \newtheorem{lem}[equation]{Lemma}
    \newtheorem{prop}[equation]{Propositio}
    \newtheorem{kor}[equation]{Korollaari}
    
    \theoremstyle{definition}
    \newtheorem{maar}[equation]{Määritelmä}
    \newtheorem{konj}[equation]{Konjektuuri}
    \newtheorem{esim}[equation]{Esimerkki}
    
    \theoremstyle{remark}
    \newtheorem{huom}[equation]{Huomautus}
    
    \pagestyle{plain}
    \setcounter{page}{1}
    \addtolength{\hoffset}{-1.15cm}
    \addtolength{\textwidth}{2.3cm}
    \addtolength{\voffset}{0.45cm}
    \addtolength{\textheight}{-0.9cm}
    
    
    \title{Kandidaatin tutkielma\\ {\Large Rikoksenuusinnan ennustaminen kausaalipäättelyllä}} % Parempi otsikko
    
    Riku-Laine's avatar
    Riku-Laine committed
    \author{Riku Laine\\ Valtiotieteellinen tiedekunta, Helsingin yliopisto}
    
    \date{\today}
    
    
    %%%%%%%%%%%%%%
    %
    % Tärkeitä termejä
    %
    % DEFENDANT = VASTAAJA
    % bail = takuu(järjestelmä)
    %
    %%%%%%%%%%%%%%
    
    
    \begin{document}
    
    \maketitle
    
    \tableofcontents
    
    
    \chapter{Kiitokset -- Acknowledgements}\label{epkiit}
    
    Tämän tutkielman aikana on tullut esiin takuujärjestelmään liittyvät ongelmat ja sovellusalueen yhteiskunnallinen merkitys. Tutkielman teko on ollut minulle erityisen mielekässtä antoisan aiheen ja mieleisten yhteistyökumppanien vuoksi. Olen kirjoittanut tämän kandidaatintutkielman yhteistyössä Helsingin yliopiston tietojenkäsittelytieteen osaston apulaisprofessorin Michael Mathioudakiksen ja tohtoritutkijan Antti Hyttisen kanssa. He tarjosivat minulle aiheen ja merkittävää tukea sekä tärkeitä kommentteja tämän tutkielman kirjoittamisen aikana.
    
    Tämän tutkielman on tarkastanut XYZ. Haluan kiittää kaikkia edellä mainittuja henkilöitä sekä ystäviäni ja perhettäni, jotka tukivat minua tämän tutkielman tekemisessä. 
    
    \rightline{Helsingissä \today}
    
    \rightline{Riku Laine}
    
    
    \bigskip
    
    \noindent I would like to wholeheartedly thank assistant professor Michael Mathioudakis from University of Helsinki's Department of Computer Science for numerous things. He provided me this extremely interesting thesis topic and provided insightful and encouraging comments throughout the process. Antti Hyttinen from the same department also gave important insight in the causal modelling and commented on the content.
    
    %%%%%%%%%
    %%%%%%%%%
    
    \chapter{Tiivistelmä -- Kypsyysnäyte?}\label{tiiv}
    
    % refillä pelkät numerot
    
    \emph{\nameref{johd}}-luvussa esittelen ongelman asettelun ja tilanteen yleisen viitekehyksen. Keskustelemme rikoksenuusinnan ennustamisesta yhdysvaltalaisessa oikeusjärjestelmässä. Esitän kappaleessa yleisen kuvauksen takuukäsittelyn etenemisestä oikeusprosessina, jonka jälkeen pohdin hieman takuukäsittelyn yhteiskunnallista merkitystä ja motivaatiota hyvään ennusteeseen. Kappaleen lopussa kirjoitan hieman kausaalipäättelystä uutena tilastotieteellisenä paradigmana \cite{pearl10}.
    
    Kappaleessa \emph{\ref{aineisto}} esittelen käyttämäni aineistolähteet ja niiden ominaispiirteet. Esitän COMPAS-tietojen ominaispiirteet ja \emph{jotain muuta}. Esitän myös kuinka olen luonut analyyseissä myöhemmin käytettävän aineistosetin mukaillen Lakkarajun vuoden 2017 konferenssijulkaisua \cite{lakkaraju17}. 
    
    \emph{\nameref{metodit}}-kappaleessa esitän käyttämäni mallit ja menetelmät. Teen lyhyen katsauksen aikaisempaan kirjallisuuteen ja tutkimuksiin tällä sovellusalalla. Käyn lisäksi läpi tässä tutkielmassa myöhemmin käytettäviä matemaattisia  sekä verkkoteoreettisia merkintöjä ja määritelmiä. Teen joitakin osoituksia ja osoitan kuinka mallimme ei riipu havaitsemattomista (unobservables) muuttujista. % Mallin robustius?
    
    Luvussa \emph{\ref{tulokset}} esitän algoritmillani saavuttamani tulokset ja vertailen niitä Lakkarajun \cite{lakkaraju17} saavuttamiin. Olen eritellyt erillisiin alalukuihin synteettisellä ja COMPAS-aineistoseteillä saavutetut tulokset.
    
    Viimeisessä kappaleessa \emph{\nameref{diskussio}} esitän mallien ja tutkielmani virhelähteet ja muut ongelmat sekä keskustelen tulosten mahdollisesta vaikutuksesta, sikäli niitä sovellettaisiin sikäläisen oikeuslaitoksen toimintaan.
    
    %%%%%%%%%
    %%%%%%%%%
    
    %%%%%%%%%
    
    
    \chapter{Johdanto}\label{johd}
    
    
    Tässä kappaleessa esittelen tutkielman taustaa ja yleisellä tasolla yhdysvaltalaisen oikeuslaitoksen takuukäsittelyprosessin. Sen jälkeen paneudun hieman vangitsemispäätöksen yhteiskunnalliseen merkitykseen: minkä takia ihmisiä vangitaan ja mitä perusteita on vangitsemattajättämispäätökselle. Pyrin luvun aikana myös hieman selvittämään takuujärjestelmän käyttöä Suomessa ja kappaleen lopussa pohdin hieman kausaalipäättelyä paradigman muutoksena tilastotieteen kentällä. Jätän kuitenkin tarvittavien merkintöjen esittämisen kappaleeseen \emph{\nameref{kausaalimerk}} ja mallin esittelyn \emph{\nameref{kausaalimalli}}-lukuun. 
    
    
    % https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/76171/omkm_2009_2.pdf
    
    \section{Takuukäsittely prosessina}\label{pros}
    
    
    % Johdanto, yhdysvallat, Suomi, kritiikki
    
    Yhdysvalloissa, kuten monissa muissa anglosaksisissa maissa, on käytössä järjestelmä, jota nimitetään takuu- tai vakuusjärjestelmäksi. Takuujärjestelmä on epäillyn vaihtoehto tutkintavankeudelle hänen odottaessaan oikeudenkäyntiä ja Yhdysvalloissa oikeus takuuseen periytyy maan perustamisen ajalta \cite{okm, zaniewski14}. Suomen oikeus- ja sisäasiainministeriön alaisen esitutkinta- ja pakkokeinotoimikunnan mukaan takuujärjestelmiä on kolmenlaisia: kahdessa niistä epäilty maksaa itse käteisellä vakuuden tai asettaa omaisuuttaan vakuudeksi ja kolmannessa jokin ulkopuolinen taho ''menee takuuseen epäillyn velvollisuuksien täyttämisestä'' \cite{okm}.
    
    
    Yhdysvalloissa epäillyn pidätyksen jälkeen hänet viedään paikallisen oikeusviranomaisen järjestämään takuukuulemiseen (bail hearing) \cite{zaniewski14}. Kuulemisessa päätetään takuun myöntämisestä, eli voidaanko epäilty vapauttaa, vai halutaanko hänet asettaa vankeuteen ennen oikeudenkäyntiä. Kuulemisessa päätetään myös mahdollisen takuun määrästä sekä vapauttamisen ehdoista \cite{zaniewski14}. Takuu voidaan suorittaa taattuna tai takaamattomana maksusitoumuksena tai maksaa suoraan (cash) -- erityistapauksissa epäilty voidaan vapauttaa myös pelkällä kirjallisella sitoumuksella (release on personal recognizance (ROR)) \cite{zaniewski14}.
    
    Riku-Laine's avatar
    Riku-Laine committed
    % Tilastoja?
    
    \section{Yhteiskunnallinen merkitys ja kritiikki}\label{ykmerk}
    
    
    Zaniewski toteaa lyhyessä kirjallisuuskatsauksessaan, että takuujärjestelmän vuoden 1982 uusitus ei onnistunut laskemaan tarpeettomia vangitsemisia -- päinvastoin niiden suhteellinen määrä kaksinkertaistui 22\%:sta 49\%:iin vuodesta 1984 vuoteen 2007. Nykyisellään sikäläinen oikeusjärjestelmä suosii suoraan rahalla maksettavia tai taatuilla maksusitoumuksilla hoidettuja takuita, mikä asettaa huonossa taloustilanteessa olevat epäillyt eri tilanteeseen. \cite{zaniewski14}
    
    Suomessa vakuusjärjestelmää ei ole käytetty, vaikka yllä mainittu toimikunta toteaakin sen sisältyvän tullilain 44 §:ään. Kyseisessä pykälässä ''- - säädetään mahdollisuudesta asettaa pidätetyn tai vangitun vapaaksi päästämi[s]en ehdoksi, että hän asettaa vakuuden, jonka harkitaan takaavan hänen saapumisensa oikeudenkäyntiin ja ehkä tuomittavien seuraamusten suorittamisen''. Kuten he tarkentavat, lisäksi usein edellytetään, että epäilty ei asu Suomessa, ja epäillään hänen pakenevan maasta ennen oikeudenkäyntiä tai rangaistusta \cite{okm}. Sekä yhdysvaltalaiselle että suomalaiselle järjestelmälle on yhteistä, että takuu tuomitaan menetettäväksi valtiolle, jos vapauden ehtoja rikotaan.
    
    Kritiikkiä on esitetty molemmissa maissa osaltaan samoihin asioihin. Suomessa pykälää ei ole sovellettu, koska luultavasti sen tulkintaohjeet ovat niin niukat, kuten myös sääntely \cite{okm}. Yhdistävänä kritiikkinä sekä Zaniewski että esitutkinta- ja pakkokeinotoimikunta mainitsevat muun muassa sen, kuinka takuumaksujen toimeenpano vaikuttaa tai Suomen tapauksessa vaikuttaisi pienituloisten taloustilanteeseen \cite{zaniewski14, okm}. Suomalainen toimikunta esittää lisäksi monia muitakin ongelmakohtia, sikäli takuujärjestelmä haluttaisiin ottaa Suomessa käyttöön, esimerkiksi he toteavat, että vakuusmaksujen maksamiseen tulisi todennäköisesti liittymään ''epätoivottavia lieveilmiöitä'' \cite{okm}. Tähän ongelmaan on Yhdysvalloissa jo osittain reagoitukin, sillä esimerkiksi Californian osavaltio päätti viime vuonna poistaa takuumaksut käytöstä \cite{cnn}.
    
    %Kritiikkiä on esitetty niin itse takuun rahallisesta määrästä (lähde?) kuin perusteista (propublica). 
    
    %Ongelmana tässä on se, millä perustein tuomarit tekevät päätöksen bailille pääsemisestä on käynyt ilmi (linkkaa propublica), että vaikka he käyttävät yhdysvaltalaisen yhtiön North
    
    \section{''Kausaalipäättely uutena paradigmana''}\label{para}
    
    
    Riku-Laine's avatar
    Riku-Laine committed
    % miksi halutaan siirtyä (frekventistisen/bayes-ppäättelyn ongelmat), edut, esiintyminen, erot, käyttö
    
    Kuten Pearl ja Mackenzie esittävät kirjassaan Miksi, ihmisillä on luontainen kausaalisen päättelyn taito \cite{miksi}. Tavalliset tilastollisen päättelyn menetelmät eivät tarjoa tapaa määritellä kausaalista yhteyttä: aineistosta voidaan päätellä erilaisia \emph{korrelaatioita}, mutta päättely B \emph{johtuu} A:sta vaatii uudenlaista näkökulmaa. Käytännön tutimuksessa tarve on olemassa erityisesti lääketieteen alalla, jossa halutaan tietää \emph{johtuuko} paraneminen annetusta suoraan annetusta hoidosta vai vaikuttaako läääke johonkin mittaamattomaan muutujaan, joka on suorassa kausaalisessa yhteydessä paranemisen kanssa. \textbf{Lisää lähteet ja tarkista!}
    
    Syy-seuraussuhteen vahvuuden matemaattinen määrittely vaatii siis uutta lähestymistä todennäköisyyslaskennan merkintöihin. Pearl käyttää alkuperäisessä, englanninkielisessä kirjallisuudessa merkintää do ilmaisemaan interventiota. Merkinnällä halutaan erottaa tavanomainen ehdollinen todennäköisyys $\pr(Y|X=x)$ interventiosta, jossa asetamme muuttujan $X$ arvoon $x$: $\pr(Y|\text{do}(X=x)$. Kimmo Pietiläinen käyttää kirjan suomennoksessa käännöstä \emph{tee}, mutta seuraan tässä tutkielmassa Pearlin merkintöjä, ellen erikseen muuta mainitse \cite{miksi}. Esittelen käyttämäni merkinnät tarkemmin kappaleessa  \ref{kausaalimerk}.
    
    
    * Kausaalipäättely vaatii uutta laskentoa, \emph{do}-laskento (calculus), myös Miksi-kirjan käännöksen tee-laskento.
    * Päättely nojaa vahvasti / tarvitsee mallin, joka ilmaistaan (usein/aina) verkkona, josta voidaan suoraan lukea muuuttujien väliset riippuvuussuhteet.
    * Usein funktionaalista muotoa  ei määritellä,, lisää tähän ne nuoliversiot yhtälöistä havainnollistamaan, että siirrytään yhtäsuuruudesta määräytymiseen \cite{kalisch14}
    * Esimerkkejä Miksi-kirjasta väärin määritellyistä malleista? Esimerkkejä aloista, joila jo käytetty, oleellisimmat pointit historiasta
    
    Riku-Laine's avatar
    Riku-Laine committed
    \section{Valikoitumisharha}\label{sl}
    % aiempaa tutkimusta, miten voidaan muissa tutkimuksissa tassoittaa -> Tässä tutkimkssa 
    
    aineistossa on valikoitumisharha, mistä Lakkaraju käyttää termiä\emph{''selective labels''} \cite{lakkaraju17}. aineiston harha johtuu luonnollisesti siitä, että rikoksen voi uusia vain, jos tuomari päättää vapauttaa takuita vastaan. Suorat päättelytavat -- \emph{counterfactual inference} -- ovat ongelmallisia siinä mielessä, että jne jne.
    
    
    %%%%%%%%%
    %%%%%%%%%
    
    %%%%%%%%%
    
    \chapter{Aineistot}\label{aineisto}
    
    Tässä luvussa kuvaillaan käytetyt aineistot ja niiden ominaispiirteet.
    
    \section{COMPAS}\label{compas}
    
    
    aineistoa broward Countysta
    \begin{table}[h!]
    \centering
    \begin{tabular}{lrrrrrrrrrr}
    \hline \hline 
     Muuttujan nimi    & $\bar{x}$ &  Keskihajonta &   Min &   25\% &   50\% &   75\% &   Max \\
    \hline \hline
     age                  		&  34,5   &  11,7   &  18 &  25 &  31 &  42 &  96 \\
     priors\_count            	&    3,25  &   4,74  &   0 &   0 &   1 &   4 &  38 \\ \hline
     days\_b\_screening\_arrest &   -1,74  &   5,08  & -30 &  -1 &  -1 &  -1 &  30 \\
     decile\_score            	&    4,42   &   2,84  &   1 &   2 &   4 &   7 &  10 \\
     is\_recid                		&   0,484 &   0,500 &   0 &   0 &   0 &   1 &   1 \\ \hline
     two\_year\_recid      		&    0,455  &   0,498 &   0 &   0 &   0 &   1 &   1 \\
     length\_of\_stay        	&  14,6   &  46,7   &  -1 &   0 &   1 &   5 & 799 \\
    \hline \hline
    \end{tabular}
    \caption{COMPAS-aineiston muuttujien hajontalukuja}
    \label{table:1}
    \end{table}
    
    \section{Synteettinen}\label{synteettinen}
    
    
    Synteettinen aineisto luotiin Lakkarajun artikkelissaan selostamalla tavalla \cite{lakkaraju17}. aineistoan simuloitiin kolme muuttujaa $X$, $Z$, ja $W$. Näistä muuttujista $X$ vastaa informaatiota, joka on sekä mallin että tuomarin havaittavissa, eli informaatiota, joka on kirjattu oikeuden pöytäkirjoihin tai on kerättävissä muista rekistereistä, kuten vastaajan sukupuoli. Muuttujalla $Z$ kuvataan tietoa, jonka vain tuomari voi havaita: kuten Lakkaraju havainnollistaa, tällaista voi olla esimerkiksi tieto siitä, onko vastaajalla perhettä mukana oikeussalissa \cite{lakkaraju17}. $W$ on mallissa havainnollistamassa reaalimaailmaa. Muuttujalla esitämme aineistossa informaatiota, joka ei ole saatavilla päätöksentekijöille eikä mallille mutta vaikuttaa silti rikoksenuusimisriskiin. aineistossa nämä ovat kaikki riippumattomia standardinormaalijakautuneita satunnaismuuttujia, eli $X, W, Z \sim N(0, 1) \independent$.
    
    Yhdistämme henkilöt satunnaisesti kuhunkin $M = 500$ tuomariin, joista jokaiselle määritellään hyväksymisprosentti $r \in [0,1]$. Tuomarin hyväksymisprosentti määritetään ottamalla arvoja tasajakaumasta suljetulta väliltä [0,1; 0,9] ja sitten pyöristämällä ne 10 desimaalin tarkkuuteen. Tulosmuuttuja Y simuloidaan määrittämällä sen ehdollinen todennäköisyys seuraavasti: $\pr(Y=0|X, Z, W)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ+\beta_WW)\}}$, missä kertoimet $\beta_X$, $\beta_Z$ ja $\beta_W$ on asetettu arvoihin 1, 1 ja 0,2 vastaavassa järjestyksessä. \cite{lakkaraju17}
    
    Päätösmuuttujan $T$ ehdolinen todennäköisyys $\pr(T=0|X, Z)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ)\}} + \epsilon$ missä $\epsilon \sim N(0, 0,1)$ vastaa pientä määrää kohinaa. Henkilöltä $i$ kielletään takuut, eli $T_i=0$ jos muuttujan $T$ ehdollinen todennäköisyys on tuomarin $j$ suurimman $(1-r)\cdot 100\%$ joukossa. Lopuksi koulutusaineisto suodatettiin siten, että saatavissa oli vain yksilöt, jotka päästettiin vapaaksi $(T=1)$. \cite{lakkaraju17}
    
    \begin{table}[h!]
    \centering
    \begin{tabular}{lrrrrrrrrrr}
    \hline \hline 
    Muuttuja           &  Keskiarvo &   Keskihajonta &   Minimi &   25\% &   50\% &   75\% &   Maksimi \\
    \hline
     acceptanceRate\_R &         0.48 &           0.23 &     0.10 &  0.26 &  0.47 &  0.65 &      0.89 \\
     X                &        -0.00 &           1.00 &    -4.66 & -0.67 & -0.00 &  0.67 &      3.83 \\
     Z                &         0.01 &           1.00 &    -4.85 & -0.67 &  0.00 &  0.68 &      4.24 \\
     W                &         0.01 &           1.00 &    -4.03 & -0.67 &  0.01 &  0.68 &      4.29 \\
     result\_Y         &         0.50 &           0.50 &     0.00 &  0.00 &  0.00 &  1.00 &      1.00 \\
     probabilities\_T  &         0.50 &           0.28 &    -0.34 &  0.28 &  0.50 &  0.72 &      1.30 \\
     decision\_T       &         0.48 &           0.50 &     0.00 &  0.00 &  0.00 &  1.00 &      1.00 \\
    \hline
    \end{tabular}
    \caption{Synteettisen aineiston muuttujien hajontalukuja}
    \label{table:2}
    \end{table}
    
    %%%%%%%%%
    %%%%%%%%%
    
    \chapter{Menetelmät}\label{metodit}
    
    Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni menetelmät.
    
    \section{Aiemmat tutkimukset?}\label{aiemmat}
    
    Aiemmat tutkimukset ovat lähestyneet monesta näkökulmasta, mutta ilman kausaatiota. 
    
    
    \section{Validointimetodit}\label{validointi}
    
    
    Tulosten arvioinnissa käytetään visuaalista tarkastelua ja XZY. Laskemme arvioista vapaaksi päässeiden uusijoiden suhteen kaikkiin tuomittuihin, eli niin sanotun virhesuhteen (failure rate).
    
    Riku-Laine's avatar
    Riku-Laine committed
    \section{Verkkoteoria}\label{verkot}
    
    
    Esitän tässä kappaleessa lyhyesti kaikki tarvittavat verkkoteoreettiset määritelmät, joita tulen hyödyntämään. Nouaineiston määritelmissä Oinosta \cite{oinonen16}.
    
    % Ota esimerkki verkko ja kirjoita siitä lyhyet havainnollistavat kommentit
     
    \begin{figure}[H]\label{full_model}
    \centering
    \includegraphics[scale = 0.5]{full_model}
    \caption{Esimerkkiverkko $G = (V, E)$, missä $V =  \{R, X, Z, T, Y\}$}
    \end{figure}
    
    
    \begin{maar}[Suunnattu verkko] \label{suun_verkko}
    
    Riku-Laine's avatar
    Riku-Laine committed
    
    \emph{Suunnattu verkko G} on pari $(V, E)$, missä $V \neq \emptyset$ on solmujen joukko ja $$E = \{(a, b) \in V \times V | \text{ solmusta } a \text{ on nuoli solmuun } b \} $$ on \emph{kaarien} joukko.
    
    \end{maar}
    
    
    \noindent Kuvassa \ref{full_model} näkyvässä verkossa esimerkiksi $(X, R) \in E$, mutta $(T, Z) \notin E$, koska solmusta $T$ ei ole nuolta solmuun $Z$. Lisäksi voidaan todeta, että kaarien joukkoon kuuluu yhdeksän järjestettyä paria ja solmujen joukko $V$ käsittää viisi alkiota, jotka on lueteltu kuvatekstissä.
    
    
    \begin{maar} % Lähtösolmu, maalisolmu, vierussolmu
    
    Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
    
    \noindent Merkintä $a \rightarrow b$ tarkoittaa, että $(a, b) \in E$. Tällöin sanotaan, että $a$ on kaaren $(a, b)$ \emph{lähtösolmu} ja $b$ on kaaren $(a, b)$ \emph{maalisolmu}. Sanotaan myös, että solmu $b$ on solmun $a$ \emph{vierussolmu}. \\
    
    \noindent Jos $(a, a) \in E$, sanotaan suunnatussa verkossa olevan \emph{silmukka} solmussa $a$.
    \end{maar}
    
    \begin{maar}[Vierekkäisyys] \label{vierekkaisyys}
    
    Riku-Laine's avatar
    Riku-Laine committed
    
    Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
    
    
    \noindent Jos solmujen $a$ ja $b$ välillä on nuoli, niin solmujen $a$ ja $b$ sanotaan olevan \emph{vierekkäisiä}.
    
    Riku-Laine's avatar
    Riku-Laine committed
    \end{maar}
    
    
    \begin{maar}[Yksinkertainen suunnattu verkko] \label{yk_suun_verkko}
    
    Oletetaan, että $G = (V,E)$ on suunnattu verkko, jossa ei ole yhtään silmukkaa eli $(v, v) \notin E$ kaikilla $v \in V$. \\
    
    \noindent Tällöin sanotaan, että $G$ on yksinkertainen suunnattu verkko.
    
    Riku-Laine's avatar
    Riku-Laine committed
    \end{maar}
    
    
    
    \begin{maar}[Polku ja suunnattu polku] \label{polku}
    
    Oletetaan, että $G$ on yksinkertainen verkko ja $n \in \N, n \geq 1$. \\
    
    
    \noindent Verkon $G$ solmujen jono $v_1, \ldots, v_n$ on \emph{polku} solmusta $v_1$ solmuun $v_n$, jos jonon jokaisesta solmusta on kaari jonon seuraavaan solmuun. Polkua voidaan merkitä $v_1 \leadsto v_n$. \\
    
    \noindent Jos verkko $G$ on suunnattu verkko, $a, b \in V$ ja kaikki polun $a \leadsto b$ kaaret kulkevat kaarien suuntien mukaisesti, voidaan täsmentää, että polku $a \leadsto b$ on \emph{suunnattu polku}.
    
    \begin{maar} \label{sukulaisuus}
    
    Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
    
    \noindent Jos on olemassa suunnattu polku $a \leadsto b$, niin solmun $b$ sanotaan olevan solmun $a$ \emph{jälkeläinen}. Vastaavasti tällöin sanotaan solmun $a$ olevan solmun $b$ \emph{vanhempi}. 
    \end{maar}
    
    \section{Kausaalipäättely}\label{kausaali}
    
    
    Erityisesti \cite{pearl10}. Esittele merkunnät, määritelmät ja mallli. Käännökset Miksi-kirjaa mukaillen?
    
    \subsection{Johdanto?}\label{kausaalijohd}
    
    
    
    \subsection{Merkinnät}\label{kausaalimerk}
    
    
    Kausaalipäättelyssä käytttävät merkinnät noudattelevat pitkälle tavallista todennäköisyyslaskennan merkintöjä. Kun yritetään selvittää muuttujan $X$ vaikutusta muuttujaan $Y$ ja tehtään interventio, siten että muuttuja $X$ asetetaan arvoon $x_0$, merkitsen sitä $\pr(Y| \text{do} (X=x_0))$. 
    
    \subsection{Määritelmät}\label{kausaalimäär}
    
    
    Riku-Laine's avatar
    Riku-Laine committed
    \begin{maar}\label{d_sep}
    
    
    Joukko $\s$ sulkee / katkaisee (blocks) polun $p$, jos vähintään toinen seuraavista ehdoista on voimassa:
    
    Riku-Laine's avatar
    Riku-Laine committed
    \begin{enumerate}[(a)]
    
    \item Polku $p$ sisältää vähintään yhden solmun, joka on jonkin kaaren lähtösolmu ja kuuluu joukkoon $\s$. (arrow-emitting)
    \item Polku $p$ sisältää vähintään yhden käänteisen haarukkasolmun (collision node), joka ei kuulu joukkoon $\s$ ja jolla ei ole jälkeläisiä joukossa $\s$.
    
    Riku-Laine's avatar
    Riku-Laine committed
    \end{enumerate}
    
    Riku-Laine's avatar
    Riku-Laine committed
    \end{maar}
    
    \begin{maar}\label{adjustment}
    
    
    Oletetaan, että halutaan selvittää (satunnais)muuttujan X kausaalista vaikutusta muuttujaan Y. Joukko  $\s$ on riittävä adjustmenttiin, kun seuraavat ehdot ovat voimassa:
    
    Riku-Laine's avatar
    Riku-Laine committed
    
    \begin{enumerate}[(1)]
    
    \item Yksikään joukon  $\s$ alkioista ei ole solmun X jälkeläinen.
    \item Joukon $\s$ alkiot ''blokkaavat'' kaikki märitelmän \ref{d_sep} mukaiset ''takaovireitit'' solmusta X solmuun Y.
    
    Riku-Laine's avatar
    Riku-Laine committed
    \end{enumerate}
    
    \end{maar}
    
    \subsection{Malli}\label{kausaalimalli}
    
    
    \begin{algorithm} 			% enter the algorithm environment
    \caption{Kausaalialgoritmi} 		% give the algorithm a caption
    \label{causal_alg} 			% and a label for \ref{} commands later in the document
    \begin{algorithmic}[1] 		% enter the algorithmic environment
    
    \REQUIRE aineisto $(\mathbf{x}, t, y) \in \D_t, \D_v$ ja hyväksymisaste $r \in [0, 1]$, missä $\D_t$ on testiaineisto ja $\D_v$ validointiaineisto.
    
    \ENSURE $\pr(Y=0|\text{do}(R=r))$
    
    
    \STATE Määritä $f(x) = \pr(X=x)$ testiaineistosta.
    \STATE Ennusta vastetta $Y$ selittävillä muuttujilla $X$ käyttäen harjoitusaineiston havaintoja, joilla $T=1$.
    \STATE  Määritä harjoitusaineiston jokaiselle havainnolle $P(Y=0|X=x)$ käyttäen yllä olevaa mallia.
    
    \STATE Järjestä havainnot nousevaan järjestykeen edellisen kohdan todennäköisyyksien mukaan.
    \STATE Alusta muuttuja \texttt{summa} = 0.
    \FORALL{Jokaiselle parametriavaruuden pisteelle}
    	\STATE $p_x \leftarrow P(X=x)$
    	\STATE  $\mathcal{D_x} \leftarrow \{\mathcal{D} | X = x\}$
    	\STATE  Assign first $r\cdot 100\%$ observations from $\mathcal{D_x}$ to $\mathcal{D}_{rx}$
    	\STATE  $p_t \leftarrow \dfrac{|\{\mathcal{D}_{rx}|T=1\}|}{|\mathcal{D}_{rx}|}$
    	\STATE  $\mathcal{D}_{tx} \leftarrow \{\mathcal{D}_x | T = 1\}$
    	\STATE  $p_y \leftarrow \dfrac{|\{\mathcal{D}_{tx}|Y=0\}|}{|\mathcal{D}_{tx}|}$
    	\STATE  Lisää muuttujaan \texttt{summa} tulo $p_y \cdot p_t \cdot p_x$
    \ENDFOR
    \RETURN \texttt{summa}
    
    Riku-Laine's avatar
    Riku-Laine committed
    \end{algorithmic}
    \end{algorithm}
    
    %%%%%%%%%
    %%%%%%%%%
    
    %%%%%%%%%
    
    
    \chapter{Tulokset}\label{tulokset}
    
    
    \section{Synteettinen}\label{synttulokset}
    
    
    \section{Compas}\label{compastulokset}
    
    
    
    
    %%%%%%%%%
    %%%%%%%%%
    
    \chapter{Diskussio}\label{diskussio}
    
    
    
    
    \begin{verbatim} 
    # R-koodi, tulos sama
    library(igraph)
    library(causaleffect)
    # simplify = FALSE to allow multiple edges
    g <- graph.formula(X -+ R, X -+ D, X -+ Y, R -+ D , D -+ Y, D -+ Y, Y -+ D, simplify = FALSE)
    # Here the bidirected edge between X and Z is set to be unobserved in graph g
    # This is denoted by giving them a description attribute with the value "U"# The edges in question are the fourth and the fifth edge
    g <- set.edge.attribute(graph = g, name = "description", index = c(6,7), value = "U")
    
    res <- causal.effect("Y", "R", G = g)
    \end{verbatim}
    
    
    
    \bibliographystyle{babplain}
    \bibliography{viitteet} 
    
    
    \begin{appendices}
    
    The contents...
    \end{appendices}
    
    
    \end{document}