Newer
Older
\documentclass[12pt,a4paper,leqno]{report}
%\usepackage[ansinew]{inputenc} Vaihdettu paketti alla olevaan, jotta ääkköset toimii
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[finnish]{babel}
\usepackage{amsthm}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage{pgf}
\usepackage{tikz}
\usetikzlibrary{arrows,automata}
\usepackage[toc]{appendix}
\renewcommand{\appendixtocname}{Liitteet}
\usepackage{graphicx} % kuvat
\graphicspath{ {./figures/} }
\newcommand\independent{\protect\mathpalette{\protect\independenT}{\perp}} %riippumattomuus
\def\independenT#1#2{\mathrel{\rlap{$#1#2$}\mkern2mu{#1#2}}}
\usepackage[nottoc]{tocbibind} % Lähteet sisällykseen
%\usepackage[round,sort,comma]{natbib} % Natbib että harvard, ei toimi babelbibin kanssa
\usepackage[fixlanguage]{babelbib}
\selectbiblanguage{finnish}
\usepackage{algorithm}% http://ctan.org/pkg/algorithms
\usepackage{algorithmic}% http://ctan.org/pkg/algorithms
\floatname{algorithm}{Algoritmi}
\renewcommand{\algorithmicrequire}{\textbf{Syöte:}}
\renewcommand{\algorithmicensure}{\textbf{Tuloste:}}
\renewcommand{\algorithmicreturn}{\textbf{Palauta}}
%\makeatletter
%\renewcommand{\listalgorithmname}{List of \ALG@name s}
%\makeatother
\newcommand{\pr}{\mathbb{P}} % tn merkki
\newcommand{\s}{\mathcal{S}} % "fancy S"
\newcommand{\M}{\mathcal{M}} % "fancy M"
\newcommand{\B}{\mathcal{B}} % "fancy B"
\newcommand{\RR}{\mathcal{R}} % supistusalgon R
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\No}{\mathbb{N}_0}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\diam}{\operatorname{diam}}
\theoremstyle{plain}
\newtheorem{lause}[equation]{Lause}
\newtheorem{lem}[equation]{Lemma}
\newtheorem{prop}[equation]{Propositio}
\newtheorem{kor}[equation]{Korollaari}
\theoremstyle{definition}
\newmdtheoremenv[linewidth=0pt]{maar}[equation]{Määritelmä}
\newtheorem{konj}[equation]{Konjektuuri}
\newtheorem{esim}[equation]{Esimerkki}
\theoremstyle{remark}
\newtheorem{huom}[equation]{Huomautus}
\pagestyle{plain}
\setcounter{page}{1}
\addtolength{\hoffset}{-1.15cm}
\addtolength{\textwidth}{2.3cm}
\addtolength{\voffset}{0.45cm}
\addtolength{\textheight}{-0.9cm}
\title{Kandidaatintutkielma\\ {\Large Kausaalipäättely valikoitumisharhan korjaamisessa}} % Parempi otsikko
\author{Riku Laine\\ Valtiotieteellinen tiedekunta \\ Helsingin yliopisto}
%%%%%%%%%%%%%%
%
% Tärkeitä termejä
%
% DEFENDANT = VASTAAJA
% bail = takuu(järjestelmä)
%
%%%%%%%%%%%%%%
\begin{document}
\maketitle
\tableofcontents
\chapter*{Kiitokset -- Acknowledgements}\label{epkiit}
%Tämän tutkielman aikana on tullut esiin takuujärjestelmään liittyvät ongelmat ja sovellusalueen yhteiskunnallinen merkitys.
%Tutkielman teko on ollut minulle erityisen mielekästä antoisan aiheen ja mieleisten yhteistyökumppanien vuoksi. Olen kirjoittanut tämän kandidaatintutkielman yhteistyössä Helsingin yliopiston tietojenkäsittelytieteen osaston apulaisprofessorin Michael Mathioudakiksen ja tohtoritutkijan Antti Hyttisen kanssa. He tarjosivat minulle aiheen ja merkittävää tukea sekä tärkeitä kommentteja tämän tutkielman kirjoittamisen aikana.
Tämän tutkielman on tarkastanut XYZ. %Haluan kiittää kaikkia edellä mainittuja henkilöitä sekä ystäviäni ja perhettäni, jotka tukivat minua tämän tutkielman tekemisessä.
\rightline{Helsingissä \today,}
\noindent I would like to wholeheartedly thank assistant professor Michael Mathioudakis from University of Helsinki's Department of Computer Science for mentoring my thesis. He provided me this extremely interesting thesis topic and provided insightful and encouraging comments throughout the process.
Antti Hyttinen from the same department also gave important insight in the causal modelling and commented on the content.
Tämän tutkielman tavoitteena on luoda kausaalipäättelyn avulla algoritmi, jolla voimme arvioida ennustavien mallien todellista ennustuskykyä, kun käytettävissä on ainoastaan valikoitumisharhasta kärsivää aineistoa. Samankaltaista asetelmaa ovat julkaisuissaan käsitelleet muun muassa Lakkaraju ja Madras \cite{lakkaraju17, madras18}. Pyrin tutkielmassani luomaan joustavamman ja tarkemman vaihtoehdon Lakkarajun luomalle supistusalgoritmille, mutta esitän ensin yleistä taustaa kausaalipäättelystä ja valikoitumisharhasta.
%Tässä kappaleessa esittelen tutkielman taustaa ja yhdysvaltalaisen oikeuslaitoksen takuukäsittelyprosessin yleisellä tasolla. Sen jälkeen paneudun hieman vangitsemispäätöksen yhteiskunnalliseen merkitykseen: minkä takia ihmisiä vangitaan ja mitä perusteita on vangitsemattajättämispäätökselle. Pyrin luvun aikana myös hieman selvittämään takuujärjestelmän käyttöä Suomessa ja kappaleen lopussa pohdin hieman kausaalipäättelyä paradigman muutoksena tilastotieteen kentällä. Jätän kuitenkin tarvittavien merkintöjen esittämisen kappaleeseen \emph{\nameref{kausaalimerk}} ja mallin esittelyn \emph{\nameref{kausaalimalli}}-lukuun.
% https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/76171/omkm_2009_2.pdf
%\section{Takuukäsittely prosessina}\label{pros}
%
%% Johdanto, yhdysvallat, Suomi, kritiikki
%
%Yhdysvalloissa, kuten monissa muissa anglosaksisissa maissa, on käytössä järjestelmä, jota nimitetään takuu- tai vakuusjärjestelmäksi. Takuujärjestelmä on epäillyn vaihtoehto tutkintavankeudelle hänen odottaessaan oikeudenkäyntiä ja Yhdysvalloissa oikeus takuuseen periytyy maan perustamisen ajalta \cite{okm, zaniewski14}. Suomen oikeus- ja sisäasiainministeriön alaisen esitutkinta- ja pakkokeinotoimikunnan mukaan takuujärjestelmiä on kolmenlaisia: kahdessa niistä epäilty maksaa itse käteisellä vakuuden tai asettaa omaisuuttaan vakuudeksi ja kolmannessa jokin ulkopuolinen taho ''menee takuuseen epäillyn velvollisuuksien täyttämisestä'' \cite{okm}.
%
%Yhdysvalloissa epäillyn pidätyksen jälkeen hänet viedään paikallisen oikeusviranomaisen järjestämään takuukuulemiseen (bail hearing) \cite{zaniewski14}. Kuulemisessa päätetään takuun myöntämisestä, eli voidaanko epäilty vapauttaa, vai halutaanko hänet asettaa vankeuteen ennen oikeudenkäyntiä. Kuulemisessa päätetään myös mahdollisen takuun määrästä sekä vapauttamisen ehdoista \cite{zaniewski14}. Takuu voidaan suorittaa taattuna tai takaamattomana maksusitoumuksena tai maksaa suoraan -- erityistapauksissa epäilty voidaan vapauttaa myös pelkällä kirjallisella sitoumuksella (release on personal recognizance (ROR)) \cite{zaniewski14}.
%
%% Tilastoja?
%
%%%%%%%%%%
%
%\section{Yhteiskunnallinen merkitys ja kritiikki}\label{ykmerk}
%
%Zaniewski toteaa lyhyessä kirjallisuuskatsauksessaan, että takuujärjestelmän vuoden 1982 uudistus ei onnistunut laskemaan tarpeettomia vangitsemisia -- päinvastoin niiden suhteellinen määrä kaksinkertaistui 22\%:sta 49\%:iin vuodesta 1984 vuoteen 2007. Nykyisellään sikäläinen oikeusjärjestelmä suosii suoraan rahalla maksettavia tai taatuilla maksusitoumuksilla hoidettuja takuita, mikä asettaa huonossa taloustilanteessa olevat epäillyt eri tilanteeseen. \cite{zaniewski14}
%
%Suomessa vakuusjärjestelmää ei ole käytetty, vaikka aiemmin mainittu toimikunta toteaakin sen sisältyvän tullilain 44 §:ään. Kyseisessä pykälässä ''- - säädetään mahdollisuudesta asettaa pidätetyn tai vangitun vapaaksi päästämi[s]en ehdoksi, että hän asettaa vakuuden, jonka harkitaan takaavan hänen saapumisensa oikeudenkäyntiin ja ehkä tuomittavien seuraamusten suorittamisen''. Kuten he tarkentavat, lisäksi usein edellytetään, että epäilty ei asu Suomessa, ja epäillään hänen pakenevan maasta ennen oikeudenkäyntiä tai rangaistusta \cite{okm}. Sekä yhdysvaltalaiselle että suomalaiselle järjestelmälle on yhteistä, että takuu tuomitaan menetettäväksi valtiolle, jos vapauden ehtoja rikotaan.
%
%Kritiikkiä on esitetty molemmissa maissa osaltaan samoihin asioihin. Suomessa pykälää ei ole sovellettu, koska luultavasti sen tulkintaohjeet ovat niin niukat, kuten myös sääntely \cite{okm}. Yhdistävänä kritiikkinä sekä Zaniewski että esitutkinta- ja pakkokeinotoimikunta mainitsevat muun muassa sen, kuinka takuumaksujen toimeenpano vaikuttaa tai Suomen tapauksessa vaikuttaisi pienituloisten taloustilanteeseen \cite{zaniewski14, okm}. Suomalainen toimikunta esittää lisäksi monia muitakin ongelmakohtia, sikäli takuujärjestelmä haluttaisiin ottaa Suomessa käyttöön, esimerkkinä he toteavat, että vakuusmaksujen maksamiseen tulisi todennäköisesti liittymään ''epätoivottavia lieveilmiöitä'' \cite{okm}. Tähän ongelmaan on Yhdysvalloissa jo osittain reagoitukin, sillä esimerkiksi Californian osavaltio päätti viime vuonna poistaa takuumaksut käytöstä \cite{cnn}.
%Kritiikkiä on esitetty niin itse takuun rahallisesta määrästä (lähde?) kuin perusteista (propublica).
%Ongelmana tässä on se, millä perustein tuomarit tekevät päätöksen bailille pääsemisestä on käynyt ilmi (linkkaa propublica), että vaikka he käyttävät yhdysvaltalaisen yhtiön North
\section{''Kausaalipäättely uutena paradigmana''}\label{para}
% miksi halutaan siirtyä (frekventistisen / bayes-päättelyn ongelmat), edut, esiintyminen, erot, käyttö
Judea Pearl ja Mackenzie esittävät kirjassaan Miksi, että ihmisillä on luontainen kausaalisen päättelyn taito \cite{miksi}. Tavalliset tilastollisen päättelyn menetelmät eivät tarjoa tapaa määritellä kausaalista yhteyttä: aineistosta voidaan päätellä erilaisia \emph{korrelaatioita}, mutta kausaalista päättelyä \emph{A johtuu B:stä} ei voida tehdä perinteisen tilastotieteen keinoin. Käytännön tutkimuksessa kausaaliset yhteydet kiinnostavat erityisesti lääketieteen alalla \cite{pearl10}. Kuten Kalisch toteaa, aiemmin kausaalisuuden päättely on perustunut korrelaatioiden havaitsemiseen. On hypotetisoitu, että jonkinlaisen biomarkkerin ja taudin samanaikainen havaitseminen viittaisi siihen, että markkeri aiheuttaa taudin. Voimmeko siis markkeria käsittelemällä vaikuttaa tautiin tai jopa parantaa sen? \cite{kalisch14}
Syy-seuraussuhteen matemaattinen määrittely vaatii uutta lähestymistä myös todennäköisyyslaskennan merkintöihin. Pearl käyttää alkuperäisessä, englanninkielisessä kirjallisuudessa merkintää 'do' ilmaisemaan interventiota. Merkinnällä halutaan erottaa tavanomainen ehdollinen todennäköisyys $\pr(Y|X=x)$ interventiosta, jossa asetamme muuttujan $X$ arvoon $x$: $\pr(Y|\text{do}(X=x))$. Kausaalipäättelyyn liittyvät myös oleellisesti kontrafaktuaalit, jotka kuvaavat muuttujien mahdollisia arvoja, jos jokin toinen muuttuja olisi ollut erilainen -- "sateen todennäköisyys, jos taivaalla olisi ollut pilviä". Esimerkiksi muuttujan $Y$ arvoa, jos $X$ olisi ollut $x$ asteikolla $u$ merkittäisiin $Y_x(u)$. Tässä tutkielmassa käsittelen kuitenkin vain Pearlin kausaalimallia. Esittelen käyttämäni merkinnät tarkemmin kappaleessa \ref{kausaalimerk_laus}.
Kausaalipäättelyssä mallit voidaan esittää graafeina, eli verkkoina. Verkoista voidaan suoraan lukea eri muuttujien syy-seuraussuhteet ja riippuvuudet tai riippumattomuudet.
\section{Valikoitumisharha -- seulotun aineiston ongelma}\label{sl}
Havaintoja voi puuttua erilaisissa tutkimuksissa useista eri syistä. Kyselytutkimuksissa vastauskatoa voi syntyä esimerkiksi vastaajan haluttomuudesta vastata kysymykseen tai yksinkertaisesti siitä syystä, että vastaajaa ei tavoiteta. Jos aineiston puuttuneisuusmekanismi on luonteeltaan täysin satunnainen, eli vastauksen puuttuneisuus ei liity millään tavalla mitattuihin muuttujiin, voidaan sanoa aineistoa puuttuvan \emph{täysin satunnaisesti}. Käänteisessä tapauksessa voidaan puhua \emph{ei-satunnaisesta puuttuvuudesta}. \cite{laaksonen13}
Tässä tutkielmassa tarkasteltavassa asetelmassa havaintojen puuttuminen liittyy sekä havaittuihin että havaitsemattomiin muuttujiin. Puuttuneisuuden voidaan sanoa olevan \emph{satunnaista ehdollisesti}, koska aineistoa puuttuu vain yksilöiltä, joilla on korkea todennäköisyys haitalliseen tulokseen. (Erilaisia aineiston puuttuneisuusmekanismeja esitellään laajemmin esimerkiksi Laaksosen kirjassa \emph{Surveymetodiikka}.) Puuttuneisuutta voidaan korjata imputoinnilla, jolla yritetään tehdä mahdollisimman hyvä arvaus puuttuvasta arvosta. Todistan tutkielmassani myöhemmin, että kausaalipäättelyä hyödyntämällä voimme estimoida havaitusta, valikoitumisharhaisesta aineistosta haluttuja tunnuslukuja ilman imputointia harhattomasti. \cite{laaksonen13} Englanninkielisessä kirjallisuudessa seulotun aineiston ongelmasta on alettu käyttää Lakkarajun esittämää termiä \emph{selective labels} \cite{lakkaraju17}. % se lähde, missä näin väitettiin
Aineiston luova mekanismi on esitetty kuvassa \ref{valikoitumisharha} ja toimii siten, että aluksi jokin henkilö tai muu entiteetti saapuu päätöksentekijän eteen seulottavaksi. Päätöksentekijän tavoitteena on estää haitallinen tulos ($y=0$) pitäen samalla myönteisten päätösten ($t=1$) määrä mahdollisimman pienenä. Seuloja pyrkii siis antamaan kielteisen päätöksen kaikille niille, joilla epäonnistuminen on todennäköisin. Päätöksen jälkeen Kohtalo määrittää havainnolle tuloksen $y\in\{0, 1\}$. Kielteisen päätöksen saaneille tulos voidaan merkitä puuttuvaksi tai onnistuneeksi, koska haitallista tapahtumaa ei havaita.
Aineiston generoivaa mekanismia voidaan havainnollistaa lääke- ja oikeustieteen alan esimerkeillä. Henkilö on ensin mainitussa potilas ja jälkimmäisessä epäilty. Seuloja voi olla esimerkiksi lääkäri, joka päättää annetaanko potilaalle vahvempaa ja samalla kalliimpaa lääkettä, jolloin relapsia ei havaita. Oikeudellisessa asetelmassa seulojalla voidaan tarkoittaa tuomaria, joka päättää epäillyn vapauttamisesta takuita vastaan ilman pelkoa rikoksen uusimisesta. Molemmilla päättäjillä on selkeä kannustin estää haitalliset tulokset -- sairauskohtaukset tai rikokset -- pitäen samalla päätöksistä aiheutuvat rasitteet yhteiskunnalle ja yksilöiden elämille mahdollisimman pienenä. Lisäksi erityisesti oikeudellisessa asetelmassa on selvää, kuinka takuukäsittelystä kielteisen tuloksen saaneet eivät voi syyllistyä uuteen rikokseen, joten heidän tulosmuuttujan arvo voidaan merkitä joko onnistumiseksi tai havaitsemattomaksi.
\begin{figure}%[H]
\centering
\includegraphics[scale = 0.4]{valikoitumis_iso}
\caption{Valikoitumisharha aineiston generoivana mekanismina \cite{lakkaraju17}}
\label{valikoitumisharha}
\end{figure}
%%%%%%%%%
%%%%%%%%%
\chapter{Aineiston generointi}\label{aineisto}
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
%%%%%%%%%%
%
%\section{COMPAS}\label{compas}
%
%COMPAS-aineisto (Correctional Offender Management Profiling for Alternative Sanctions) on alun perin ProPublica-julkaisun koostama aineisto yhteensä 18 610 amerikkalaisesta. Aineistossa on muun muassa heidän demografiset tiedot, kuten ikä, sukupuoli ja rotu, ja rikoshistoriaan liittyvät tiedot. Oikeammin COMPAS viittaa Northpointe-yhtiön työkaluun, joka antaa arvion epäillyn rikoksenuusintariskistä. Arvio perustuu epäillyn vastauksiin kyselyyn, jossa tiedustellaan hänen taustoistaan, kuten lähipiirin huumeidenkäytöstä ja epäillyn taipumuksesta väkivaltaisuuteen. ProPublica kokosi aineiston alun perin paljastaakseen arvion tuottavan algoritmin mustia syrjivän luonteen. ProPublican analyysi osoitti, että mustat saivat järjestelmällisesti korkeamman riskiarvion kuin valkoihoiset. \cite{propublica16}
%
%ProPublica esittää artikkelinsa metodologiaosiossa, kuinka he ovat päätyneet lopulliseen aineistoon, joka käsittää tiedot 6172 henkilöstä. Pääpiirteissään he ovat siistineet aineistoa siten, että se yhdistää oikeat henkilöt oikeisiin pisteytyksiin ja oikeisiin uusintatuomioihin. Joitakin johdettuja mutujia luotiin, kuten tekstuaalinen kuvaus desiilipisteytyksestä scoretext joka ryhmittää etc etc.
%
%\begin{table}[H]
%\centering
%\begin{tabular}{lrrrrrrrrrr}
%\hline \hline
% Muuttujan nimi & $\bar{x}$ & Keskihajonta & Min & 25\% & 50\% & 75\% & Max \\
%\hline \hline
% age & 34,5 & 11,7 & 18 & 25 & 31 & 42 & 96 \\
% priors\_count & 3,25 & 4,74 & 0 & 0 & 1 & 4 & 38 \\ \hline
% days\_b\_screening\_arrest & -1,74 & 5,08 & -30 & -1 & -1 & -1 & 30 \\
% decile\_score & 4,42 & 2,84 & 1 & 2 & 4 & 7 & 10 \\
% is\_recid & 0,484 & 0,500 & 0 & 0 & 0 & 1 & 1 \\ \hline
% two\_year\_recid & 0,455 & 0,498 & 0 & 0 & 0 & 1 & 1 \\
% length\_of\_stay & 14,6 & 46,7 & -1 & 0 & 1 & 5 & 799 \\
%\hline \hline
%\end{tabular}
%\caption{COMPAS-aineiston numeeristen muuttujien hajontalukuja}
%\label{table:1}
%\end{table}
%\section{Synteettinen}\label{synteettinen}
Synteettinen aineisto luotiin Lakkarajun selostamalla tavalla. Aineistoon simuloitiin kolme muuttujaa $X$, $Z$, ja $W$. Näistä muuttujista $X$ vastaa informaatiota, joka on sekä mallin että päätöksentekijän havaittavissa. Käytännössä muuttuja $X$ vastaa kirjallista informaatiota, joka on kirjattu erilaisiin pöytäkirjoihin tai rekistereihin. Muuttujalla $Z$ kuvataan tietoa, jonka vain päätöksentekijä voi havaita: kuten Lakkaraju havainnollistaa, tällaista voi olla oikeudessa esimerkiksi tieto siitä, onko vastaajalla perhettä mukana oikeussalissa. $W$ tuo malliin kohinaa. Muuttujalla esitämme aineistossa informaatiota, joka ei ole saatavilla päätöksentekijöille eikä mallille, mutta vaikuttaa silti epätoivottavan tuloksen riskiin. Aineistossa nämä ovat kaikki riippumattomia standardinormaalijakautuneita satunnaismuuttujia, eli $X, W, Z \sim N(0, 1) \independent$. \cite{lakkaraju17}
Aineistossa jyvitämme jokaiselle $M=100$ päätöksentekijälle 500 arvioitavaa. Kaikille päättäjille arvotaan hyväksymisprosentti ottamalla arvoja tasajakaumasta suljetulta väliltä [0,1; 0,9] ja sitten pyöristämällä saadut arvot 10 desimaalin tarkkuuteen. Tulosmuuttuja Y määritetään ehdollisen todennäköisyyden
\begin{equation} \label{y_ehd}
\pr(Y=0|X, Z, W)=\dfrac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ+\beta_WW)\}}
\end{equation}
mukaisesti. Jos $\pr(Y=0|X, Z, W) \geq 0,5$, tulosmuuttujan arvoksi asetetaan 0 ja vastaavasti jos $\pr(Y=0|X, Z, W) < 0,5$ muuttujan arvoksi asetetaan 1. Lausekkeissa \ref{y_ehd} ja \ref{t_ehd} olevat kertoimet $\beta_X$, $\beta_Z$ ja $\beta_W$ ovat 1, 1 ja 0,2 vastaavassa järjestyksessä. \cite{lakkaraju17}
Päätösmuuttuja $T$ määritetään kaksivaiheisesti: ensin määritetään todennäköisyys kielteiselle päätökselle ja sitten muuttujan arvo asetetaan näiden todennäköisyyksien keskinäisen suuruuden ja hyväksymisasteen $r$ mukaisesti. Muuttujan $T$ ehdollinen todennäköisyys
\begin{equation} \label{t_ehd}
\pr(T=0|X, Z)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ)\}} + \epsilon,
\end{equation}
missä $\epsilon \sim N(0, 0,1)$ vastaa pientä määrää kohinaa. Henkilölle $i$ annetaan kielteinen päätös, eli $T_i=0$, jos ehdollinen todennäköisyys $\pr(T=0)$ on seulojan $j$ suurimman $(1-r)\cdot 100\%$ joukossa. Toisin sanoen seuloja $j$ antaa myönteisen päätöksen $r$ prosentille hänen arvioitavakseen annetuista henkilöistä, joilla on alin todennäköisyys kielteiseen päätökseen, oli se sitten rikoksen uusinta tai relapsi. \cite{lakkaraju17}
Kun aineisto oli simuloitu, se jaettiin niin sanottuihin koulutus- ja testiaineistoihin. Lopuksi molempia aineistoja muokattiin siten, että tulosmuuttujan arvo oli saatavissa vain yksilöille, joille oli annettu positiivinen päätös $(T=1)$. Kielteisen päätöksen saaneille tulosmuuttujan arvo asetettiin arvoon NA, kuten kuvassa \ref{valikoitumisharha}. Syntetisoidun aineiston keskeisimmät hajontaluvut on esitetty taulukossa \ref{synt_hl}. \cite{lakkaraju17}
\begin{table}[H]
\centering
\begin{tabular}{lrrrrrrrrrr}
\hline \hline
Muuttuja & Keskiarvo & Keskihajonta & Minimi & 25\% & 50\% & 75\% & Maksimi \\
\hline
acceptanceRate\_R & 0.48 & 0.23 & 0.10 & 0.26 & 0.47 & 0.65 & 0.89 \\
X & 0.00 & 1.00 & -4.66 & -0.67 & 0.00 & 0.67 & 3.83 \\
Z & 0.01 & 1.00 & -4.85 & -0.67 & 0.00 & 0.68 & 4.24 \\
W & 0.01 & 1.00 & -4.03 & -0.67 & 0.01 & 0.68 & 4.29 \\
result\_Y & 0.50 & 0.50 & 0.00 & 0.00 & 0.00 & 1.00 & 1.00 \\
% probabilities\_T & 0.50 & 0.28 & -0.34 & 0.28 & 0.50 & 0.72 & 1.30 \\
decision\_T & 0.48 & 0.50 & 0.00 & 0.00 & 0.00 & 1.00 & 1.00 \\
\hline
\end{tabular}
\caption{Synteettisen aineiston muuttujien hajontalukuja}
\label{synt_hl}
Tässä kappaleessa esitän tutkielmassani käyttämät metodit. Selostan supistusalgoritmin toiminnan kappaleessa \ref{contraction} sekä kausaalisen mallin laatimisessa ja arvioinnissa käyttämäni teoreettisen taustan kappaleissa \ref{verkot}. Koska kausaalinen malli esitetään verkkona, käyn aluksi läpi vaadittavat verkkoteoreettiset määritelmät. Esitän sen jälkeen mallini graafina ja osoitan kausaalisen vaikutuksen olevan identifioituva.
\section{Metriikat}
Algoritmien suorituskyvyn arviointiin liittyy kolme keskeistä metriikkaa: hyväksymisaste (engl. \emph{acceptance rate}, (AR)), epäonnistumisprosentti (\emph{failure rate} (FR)) ja keskimääräinen virhe(\emph{mean absolute error} (MAE)).
\begin{maar}[Hyväksymisaste (AR)] \label{acc_rate}
Päättäjän hyväksymisaste määritetään myönteisten päätösten määrän suhteena annettujen päätösten kokonaismäärään. Eli jos päätöksentekijä antaa 100 päätöstä, joista 40 on myönteisiä, niin hänen hyväksymisasteensa on $0,4$.
\end{maar}
\begin{maar}[Epäonnistumisprosentti (FR)] \label{fail_rate}
Päätöksentekijän epäonnistumisprosentti määritetään epäonnistuneiden tulosten määrän suhteena annettujen päätösten kokonaismäärään. Eli jos päätöksentekijä antaa 100 päätöstä, joista 60 on myönteistä ja näistä 60 päätöksestä 30 johtaa epäonnistumiseen (esimerkiksi rikoksen uusintaan), niin tuomarin epäonnistumisprosentti on $0,3$.
\end{maar}
\begin{maar}[Keskimääräinen virhe (MAE)] \label{mae}
\end{maar}
\section{Supistusalgoritmi}\label{contraction}
Supistusalgoritmi on 2017 esitetty algoritmi \cite{lakkaraju17}, jonka avulla voidaan arvioida ennustavien mallien todellista suorituskykyä, kun vain tietylle osalle aineistosta on luokka (label) saatavissa. Algoritmin toimintaperiaatteena on arvioida mallin $\B$ ennusteita löyhimmän päätöksentekijän tekemien päätösten joukossa. Algoritmin pseudokoodi on esitetty Algoritmissa \ref{contraction_alg}.
\begin{algorithm}[H] % enter the algorithm environment
\caption{Supistusalgoritmi} % give the algorithm a caption
\label{contraction_alg} % and a label for \ref{} commands later in the document
\begin{algorithmic}[1] % enter the algorithmic environment
\REQUIRE Aineisto $\D$, todennäköisyydet $\s$ ja hyväksymisaste $r$
\ENSURE Epäonnistumisprosentti (FR) hyväksymisasteella $r$
\STATE Olkoon $q$ päättäjä, jolla on korkein hyväksymisaste $r$.
\STATE $\D_q = \{(x, j, t, y) \in \D | j = q \}$
\STATE \hskip3.0em $\rhd$ Nyt $\D_q$ on havaintojoukko, jolle $q$ on antanut päätökset.
\STATE $\RR_q = \{(x, j, t, y) \in \D_q | t=1 \}$
\STATE \hskip3.0em $\rhd$ $\RR_q$ on on joukon $\D_q$ osa, jolle tulosmuuttujan arvot on havaittu.
\STATE Järjestä taulukoon $\RR_q$ havainnot laskevaan järjestykseen todennäköisyyksien $\s$ mukaan ja talleta ne taulukkoon $\RR_q^{sort}$
\STATE \hskip3.0em $\rhd$ Mallin korkeariskisimmät ovat nyt listan kärjessä
\STATE Ota taulukosta $\RR_q^{sort}$ sen $[(1.0-r)|\D_q|]-[|\D_q|-|\RR_q|]$ ensimmäistä/ylintä havaintoa ja talleta ne taulukkoon $\RR_\B$.
\STATE \hskip3.0em $\rhd$ $\RR_\B$ on lista henkilöistä, joille malli $\B$ on antanut positiivisen päätöksen
\STATE Laske $\mathbf{u} = \sum_{i=1}^{|\RR_\B|} \dfrac{\delta\{y_i=0\}}{|\D_q|}$.
\end{algorithmic}
\end{algorithm}
%%%%%%%%%%
%
%\section{Aiemmat tutkimukset?}\label{aiemmat}
%
%Aiemmat tutkimukset ovat lähestyneet monesta näkökulmasta, mutta ilman kausaatiota.
%
%%%%%%%%%%
%
%\section{Validointimetodit}\label{validointi}
%
%Tulosten arvioinnissa käytetään
%
%Tulosten arvioinnissa käytetään visuaalista tarkastelua ja XZY. Laskemme arvioista vapaaksi päässeiden uusijoiden suhteen kaikkiin tuomittuihin, eli niin sanotun virhesuhteen (failure rate).
%
%%%%%%%%%%
Verkot koostuvat \emph{solmuista} ja \emph{kaarista}, joita voidaan havainnollistaa pisteinä ja viivoina tai nuolina näiden pisteiden väliilä. Kaaret ovat järjestettyjä pareja, kuten verkot itsekin, mutta oletan tavallisimmat joukko-opin merkinnät ja käsitteet tunnetuiksi. Noudatan määritelmissä Oinosta \cite{oinonen16} ja erikseen merkityissä kohdissa Kivistä \cite{tira}.
% Ota esimerkki verkko ja kirjoita siitä lyhyet havainnollistavat kommentit
\begin{tikzpicture}[->,>=stealth',node distance=2.0cm, semithick]
\tikzstyle{every state}=[fill=none,draw=black,text=black]
\node[state] (R) {$R$};
\node[state] (X) [right of=R] {$X$};
\node[state] (T) [below of=X] {$T$};
\node[state] (Z) [right of=X] {$Z$};
\node[state] (Y) [below of=Z] {$Y$};
\path (R) edge (T)
(X) edge (R)
edge (T)
edge (Y)
(Z) edge (X)
edge (T)
edge (Y)
edge [bend right] (R)
(T) edge (Y);
\end{tikzpicture}
\caption{Eräs verkko $H = (V, E)$, missä $V = \{R, X, Z, T, Y\}$.}
\label{esverkko}
\begin{maar}[Suunnattu verkko] \label{suun_verkko}
\emph{Suunnattu verkko G} on pari $(V, E)$, missä $V \neq \emptyset$ on \emph{solmujen} joukko ja $$E = \{(a, b) \in V \times V | \text{ solmusta } a \text{ on nuoli solmuun } b \} $$ on \emph{kaarien} joukko.
\end{maar}
\smallskip
\noindent Kuvassa \ref{esverkko} näkyvässä verkossa esimerkiksi $(X, R) \in E$, mutta $(T, Z) \notin E$, koska solmusta $T$ ei ole nuolta solmuun $Z$. Lisäksi voidaan todeta, että kaarien joukkoon kuuluu yhdeksän järjestettyä paria ja solmujen joukko $V$ käsittää viisi alkiota.
\smallskip
\begin{maar} % Lähtösolmu, maalisolmu, vierussolmu
Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
\noindent Merkintä $a \rightarrow b$ tarkoittaa, että $(a, b) \in E$. Tällöin sanotaan, että $a$ on kaaren $(a, b)$ \emph{lähtösolmu} ja $b$ on kaaren $(a, b)$ \emph{maalisolmu}. Sanotaan myös, että solmu $b$ on solmun $a$ \emph{vierussolmu} tai että solmut $a$ ja $b$ ovat \emph{vierekkäisiä}. \\
\noindent Jos $(a, a) \in E$, sanotaan suunnatussa verkossa olevan \emph{silmukka} solmussa $a$.
\end{maar}
\noindent Esimerkkiverkossa $H$ kaaren $(Z, T)$ lähtösolmu on solmu $Z$ ja maalisolmu solmu $T$. Lisäksi huomataan, että verkossa $H$ ei ole yhtään silmukkaa. Kuvan \ref{esverkko} verkosta havaitaan, että melkein kaikki solmut ovat toistensa vierussolmuja. Ainoa poikkeus on solmut $R$ ja $Y$, joiden välillä ei ole nuolta ja jotka eivät siten ole vierekkäisiä.
\begin{maar}[Yksinkertainen suunnattu verkko] \label{yk_suun_verkko}
Oletetaan, että $G = (V,E)$ on suunnattu verkko, jossa ei ole yhtään silmukkaa eli $(v, v) \notin E$ kaikilla $v \in V$. \\
\noindent Tällöin sanotaan, että $G$ on yksinkertainen suunnattu verkko.
\end{maar}
\noindent Esimerkkinä käytetystä verkosta $H$ nähdään heti, että se on yksinkertainen suunnattu verkko, koska siinä ei ole yhtään silmukkaa. Yksinkertaisesta suunnatusta verkosta käytetään englanniksi nimitystä \emph{directed acyclic graph} ja se saatetaan lyhentää DAG.
\begin{maar}[Polku ja suunnattu polku] \label{polku}
Oletetaan, että $G$ on yksinkertainen verkko ja $n \in \N, n \geq 1$.
\begin{enumerate}[(a)]
\item Verkon $G$ solmujen jono $v_1, \ldots, v_n$ on \emph{polku} solmusta $v_1$ solmuun $v_n$, jos jonon jokaisesta solmusta on kaari jonon seuraavaan solmuun. Polkua voidaan merkitä $v_1 \leadsto v_n$.
\item Jos verkko $G$ on suunnattu verkko, $a, b \in V$ ja kaikki polun $a \leadsto b$ kaaret kulkevat kaarien suuntien mukaisesti, voidaan täsmentää, että polku $a \leadsto b$ on \emph{suunnattu polku}.
\item Polku on \emph{yksinkertainen}, jos kukin solmu esiintyy polussa vain kerran, paitsi että viimeinen ja ensimmäinen saavat olla sama solmu. \cite{tira}
\item Yksinkertainen polku on \emph{sykli} eli \emph{kehä}, jos viimeinen ja ensimmäinen solmu ovat samat. \cite{tira} %Suuntaamattomassa verkossa lisäksi vaaditaan, että syklissä pitää olla vähintään kolme solmua.
\end{enumerate}
\smallskip
\noindent Huomataan, että verkossa $H$ on useita polkuja solmusta $R$ solmuun $Y$. Polku $R \rightarrow T \rightarrow Y$ on ainut suunnattu polku ja $R \leftarrow X \rightarrow Y$ on tavallinen polku, sillä solmujen $R$ ja $X$ välillä kuljetaan nuolen suunnan vastaisesti. Verkossa ei ole yhtään sykliä eli se on \emph{syklitön}. Suunnatuista ja syklittömistä verkoista voidaan käyttää englannin kielestä juontuvaa lyhennettä DAG \emph{(directed acyclic graph)} \cite{tira}.
\smallskip
\begin{maar}[Jälkeläisyys] \label{sukulaisuus}
Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
\noindent Jos on olemassa suunnattu polku $a \leadsto b$, niin solmun $b$ sanotaan olevan solmun $a$ \emph{jälkeläinen}. Vastaavasti tällöin sanotaan solmun $a$ olevan solmun $b$ \emph{vanhempi}.
\noindent Esimerkiksi kuvan \ref{esverkko} verkossa solmulla $Y$ ei ole jälkeläisiä ja solmun $Z$ jälkeläiset ovat kaikki muut verkon solmut poislukien se itse, eli solmun $Z$ jälkeläiset on joukko $V \setminus \{Z\}$.
Kausaalipäättelyssä kausaalisten vaikutusten identifiomiseksi tarvitaan usein selvittää niin sanotut \emph{haarukka-} ja \emph{käänteiset haarukkasolmut}. Määritellään ne seuraavaksi.
\begin{maar}[Haarukkasolmu] \label{haarukka}
Oletetaan, että suunnatussa verkossa on polku $A \leftarrow B \rightarrow C \leftarrow D$. Tällöin solmua B sanotaan \emph{haarukkasolmuksi} ja solmua C \emph{käänteiseksi haarukkasolmuksi}.
\section{Kausaalipäättely}\label{kausaali}
Judea Pearl esittää artikkelissaan \cite{pearl10}, että kaikessa tutkimuksessa, joka hyödyntää kausaalipäättelyä, tulisi edetä järjestelmällisesti neljässä vaiheessa:
\begin{enumerate}
\item Määrittely: Määritetään tavoitesuuruus Q funktiona Q($\M$), joka voidaan laskea kaikille malleille $\M$.
\item Oletuksien esitys: Esitä kausaaliset oletukset luonnollisella kielellä ja ilmaise niiden rakenteellinen osa verkkona.
\item Identifioituvuus: Osoita, onko tavoitesuuruus määritettävissä (ilmaistavissa estimoitavina parametreina).
\item Estimointi: Estimoi tavoitesuuruutta, jos se on identifioituva tai approksimoi sitä jos se ei ole. Tarkista mallin mahdolliset (tilastolliset) oletukset ja implikaatiot ja muuta mallia, jos oletukset osoittautuvat paikkaansa pitämättömiksi.
\end{enumerate}
\noindent Tutkielmani tavoitteena on esittää algoritmi, jolla voimme paremmin ennustaa riskiä populaatiotasolla, kun muutamme myönteisten päätösten osuutta jakun käytössä on valintaharhasta kärsivää aineistoa. Todennäköisyyslausekkein ilmaistuna haluamme siis selvittää vapautusprosentin muutoksen vaikutusta epätoivottavan tapahtuman $Y=0$ todennäköisyyteen, mikä voidaan kirjoittaa muotoon
\begin{equation} \label{q_m}
\pr(Y=0 | \text{do}(R=r)).
\end{equation}
\noindent Huomataan, että lauseke \ref{q_m} ei riipu mistään mallista $\M$, joten se täyttää Pearlin tavoitesuuruuden Q määritelmän mukaiset ehdot.
Kausaalipäättelyssä mallit määritellään usein yksinkertaisina suunnattuina verkkoina. Mallin määrittämästä verkosta voidaan suoraan lukea kausaaliset riippuvuussuhteet ja malliin kuuluvat muuttujat. Jos mallissa on solmut $A$ ja $B$ ja jos solmu $B$ on solmun $A$ jälkeläinen, niin muuttujalla $A$ on mallin mukaan jonkinlainen kausaalinen vaikutus muuttujaan $B$. Jos verkossa muuttujien välillä ei ole jälkeläisyyssuhdetta, niin ne ovat toisistaan riipumattomat. Kausaalisen vaikutuksen funktionaalista muotoa ei usein määritellä.
\subsection{Merkinnät ja keskeiset lauseet}\label{kausaalimerk_laus}
Kausaalipäättelyssä käytettävät merkinnät noudattelevat pitkälle tavallisia todennäköisyyslaskennan merkintöjä. Kun selvitetään muuttujan $X$ vaikutusta muuttujaan $Y$ ja tehdään interventio asettamalla muuttuja $X$ arvoon $x_0$, sitä merkitään $\pr(Y| \text{do} (X=x_0))$.
Käydään seuraavaksi läpi kausaalilaskennan kannalta keskeisimmät lauseet. Lauseiden todistukset sivuutetaan, mutta ne on löydettävissä Pearlin artikkelin lähteistä \cite{pearl10}. Määritelmät \ref{d_sep} ja \ref{takaovi} \textbf{JNE}.
\begin{maar}[d-separoituvuus \cite{pearl10}]\label{d_sep}
Joukko $\s$ katkaisee (blocks) polun $p$, jos vähintään toinen seuraavista ehdoista on voimassa:
\item Polku $p$ sisältää vähintään yhden solmun, joka on jonkin polun kulkusuuntaisen kaaren lähtösolmu ja kuuluu joukkoon $\s$. (arrow-emitting)
\item Polku $p$ sisältää vähintään yhden käänteisen haarukkasolmun (collision node), joka ei kuulu joukkoon $\s$ ja jolla ei ole jälkeläisiä joukossa $\s$.
\noindent Jos joukko $\s$ katkaisee kaikki polut muuttujasta $X$ muuttujaan $Y$, sanotaan joukon $\s$ d-separoivan muuttujat $X$ ja $Y$. Tällöin $X$ ja $Y$ ovat riippumattomia ehdolla $\s$, eli $X \independent Y | \s$.
\begin{maar}[Takaovikriteeri (\emph{back-door criterion}) \cite{pearl10}] \label{takaovi}
Oletetaan, että halutaan selvittää muuttujan X kausaalista vaikutusta muuttujaan Y. Joukko $\s$ on \emph{riittävä} vaikutuksen selvittämiseen (sufficient for adjustment), kun seuraavat ehdot ovat voimassa:
\item Yksikään joukon $\s$ alkioista ei ole solmun X jälkeläinen.
\item Joukon $\s$ alkiot katkaisevat kaikki määritelmän \ref{d_sep} mukaiset kiertoreitit solmusta X solmuun Y. Kiertoreittejä ovat polut, jotka päättyvät muuttujaan $X$ osoittavaan nuoleen.
\subsection{Malli}\label{kausaalimalli}
Malli sisältää viisi muuttujaa, jotka on esitelty lyhyesti taulukossa \ref{syntmjat}. Muuttujalla $R$ kuvataan päätöksentekijän hyväksymisprosenttia, eli sitä prosentuaalista osuutta henkilöistä, joilla on pienin vaara epätoivottavaan tulokseen ja joille siten voidaan antaa myönteinen päätös. $X$ ilmentää henkilön henkilökohtaisia ominaisuuksia, jotka ovat sekä päätöksentekijän että mallin havaittavissa. Muuttuja $X$ voi olla esimerkiksi jonkinlainen rekisteritieto, kuten ikä tai sukupuoli. Muuttuja $Z$ on muuttuja, jonka tuomari tai muu asiantuntija voi havaita, mutta joka on mallilta piilotettu. Muuttujan $Z$ voidaan ajatella esimerkiksi oikeuskäsittelyjen tapauksessa kuvaavan epäillyn kääytöstä oikeussalissa. Tulosmuuttuja $Y$ ja päätösmuuttuja $T$ ovat kaksiarvoisia ja niiden määrittelyt on esitelty kuvassa \ref{valikoitumisharha}: myönteistä päätöstä merkitään $t=1$, kielteistä $t=0$. Vastaavasti myönteinen tulos määritellään muuttujan $y$ arvoksi 1, kielteinen arvoksi 0.
Mallin määrittelevä graafi on estetty kuviossa \ref{final_model} ilman virhemuuttujia. Graafista voidaan suoraan lukea oletukset: oletetaan, että $Z \independent X, R$ mutta laajennetaan Lakkarajun oletuksia sallimalla muuttujan X vaikutus muuttujaan R \cite{lakkaraju17}. Mallin oletetuilla kausaalisilla vaikutuksilla on lisäksi selkeästi ilmaistavat realisaatiot: kuinka osuuden $R$ muuttaminen vaikuttaa päätökseen ja edelleen päätös tulokseen ja niin edelleen.
\begin{table} %[H]
\centering
\begin{tabular}{rl}
\hline \hline
Muuttuja & Kuvaus \\
\hline
R & Myönteisten päätösten osuus prosentteina $r \in [0, 1]$ \\
X & Kirjatut muuttujat, havaittavissa kaikille \\
Z & Kirjaamattomat muuttujat, vain päättäjän havaitsemat\\
Y & Tulosmuuttuja, $y \in \{0, 1\}$\\
T & Päätösmuuttuja, $t \in \{0, 1\}$\\
\caption{Mallin muuttujien selitteet}
\begin{figure}% [H]
\centering
\begin{subfigure}[b]{0.4\textwidth}
\includegraphics[width=\textwidth]{final_model}
\caption{Malli ilman interventiota.}
\end{subfigure}
~ %add desired spacing between images, e. g. ~, \quad, \qquad, \hfill etc.
%(or a blank line to force the subfigure onto a new line)
\begin{subfigure}[b]{0.5\textwidth}
\includegraphics[width=\textwidth]{intervention_model}
\caption{Malli, johon interventio on merkitty.}
\label{intervention_model}
\end{subfigure}
~ %add desired spacing between images, e. g. ~, \quad, \qquad, \hfill etc.
%(or a blank line to force the subfigure onto a new line)
\caption{Kausaalimallit graafeina.}\label{mallikuvat}
Johdetaan muuttujan $R$ kausaalivaikutus muuttujaan $Y$ yli kaikkien ositteiden X. Huomataan, että osuuden $R$ kausaalinen vaikutus voidaan ilmaista suoraan lausekkeella \ref{q_m}, sillä $\pr(Y=0|\text{do}(R=0))=0$ ja siten edelleen
\begin{equation*}
\pr(Y=0|\text{do}(R=r))-\pr(Y=0|\text{do}(R=0)) \\
% =\: \pr(Y=0|\text{do}(R=r))-0 \\
=\: \pr(Y=0|\text{do}(R=r)).
\end{equation*}
Osoitetaan seuraavaksi, että X on riittävä vaikutusten korjaamiseen määritelmän \ref{takaovi} mukaisesti, kun selvitetään muuttujan R kausaalista vaikutusta muuttujaan Y. Mallista voidaan suoraan lukea, että takaovikriteerin ensimmäinen ehto on voimassa: X ei ole muuttujan R jälkeläinen. Polut, jotka muuttujan X pitää katkaista ollakseen riittävä vaikutusten korjaamiseen ovat $R \leftarrow X \rightarrow Y$, $R \leftarrow X \rightarrow T \rightarrow Y$ ja $R \leftarrow X \rightarrow T \leftarrow Z \rightarrow Y$. Muuttuja X täyttää kuitenkin määritelmän \ref{d_sep} (a)-kohdan ehdon ja siten d-separoi muuttujat R ja Y. Tällöin X on riittävä vaikutusten korjaamiseen ja voidaan hyödyntää Pearlin kaavaa 25 \cite{pearl10}:
\begin{subequations} \label{derivation}
\begin{align}
\pr&(Y=0|\text{do}(R=r)) = \sum_x \pr(Y=0| R=r, X=x) \pr(X=x) \label{derivation1} \\
&= \sum_x \left( \sum_t \pr(Y=0, T=t| R=r, X=x) \right) \pr(X=x) \label{derivation2} \\
&= \sum_x \left( \sum_t \pr(Y=0| T=t, R=r, X=x)\pr(T=t| R=r, X=x) \right) \pr(X=x) \label{derivation3} \\
&= \sum_x \pr(Y=0| T=1, R=r, X=x) \pr(T=1| R=r, X=x) \pr(X=x) \label{derivation4} \\
&= \sum_x \pr(Y=0| T=1, X=x) \pr(T=1| R=r, X=x) \pr(X=x) \label{derivation5}
\end{align}
\end{subequations}
Yllä oleva lauseke on yhtäpitävä myös jatkuville muuttujan $x$ arvoille, kun korvaamme summaukset integraalilla parametriavaruuden yli: $$\pr(Y=0|\text{do}(R=r)) = \int_x \pr(Y=0| T=1, X=x) \pr(T=1| R=r, X=x) \pr(X=x).$$
\subsection{algo}
Pearlin mukaan:
$$P(Y=0|do(R=r), X=x)=P(Y=0|R=r, X=x)=P(Y=0|R=r, X=x, T=1)P(T=1|R=r, X=x)$$
Mallit vaikutukset laskettiin Pythonilla versio 3.6. Syötteett sklinear mallliin , joka fitattiin testi dataan ja sitten integroitiin eri leniencyn tasoilla muuttujan X parametriavaruuden eli reaaliakselin ylitse.
%\begin{algorithm} % enter the algorithm environment
%\caption{Kausaalialgoritmi} % give the algorithm a caption
%\label{causal_alg} % and a label for \ref{} commands later in the document
%\begin{algorithmic}[1] % enter the algorithmic environment
%\REQUIRE aineisto $(\mathbf{x}, t, y) \in \D_t, \D_v$ ja hyväksymisaste $r \in [0, 1]$, missä $\D_t$ on testiaineisto ja $\D_v$ validointiaineisto.
%\ENSURE $\pr(Y=0|\text{do}(R=r))$
%
%\STATE Määritä $f(x) = \pr(X=x)$ testiaineistosta.
%\STATE Ennusta vastetta $Y$ selittävillä muuttujilla $X$ käyttäen harjoitusaineiston havaintoja, joilla $T=1$.
%\STATE Määritä harjoitusaineiston jokaiselle havainnolle $P(Y=0|X=x)$ käyttäen yllä olevaa mallia.
%\STATE Järjestä havainnot nousevaan järjestykeen edellisen kohdan todennäköisyyksien mukaan.
%\STATE Alusta muuttuja \texttt{summa} = 0.
%\FORALL{Jokaiselle parametriavaruuden pisteelle}
% \STATE $p_x \leftarrow P(X=x)$
% \STATE $\mathcal{D_x} \leftarrow \{\mathcal{D} | X = x\}$
% \STATE Assign first $r\cdot 100\%$ observations from $\mathcal{D_x}$ to $\mathcal{D}_{rx}$
% \STATE $p_t \leftarrow \dfrac{|\{\mathcal{D}_{rx}|T=1\}|}{|\mathcal{D}_{rx}|}$
% \STATE $\mathcal{D}_{tx} \leftarrow \{\mathcal{D}_x | T = 1\}$
% \STATE $p_y \leftarrow \dfrac{|\{\mathcal{D}_{tx}|Y=0\}|}{|\mathcal{D}_{tx}|}$
% \STATE Lisää muuttujaan \texttt{summa} tulo $p_y \cdot p_t \cdot p_x$
%\ENDFOR
%\RETURN \texttt{summa}
%\end{algorithmic}
%\end{algorithm}
\chapter{Tulokset}\label{tulokset}
- se pääkuvaaja vertailuineen
- beta ztan vaikutus?
- erilaiset mallit ja koko käyrä aina 1 asti -> kuinka meillä parempi
- voidaanko antaa estimaateille mitään luottusvälejä tjsp?
\begin{figure}[H]
\centering
\includegraphics[width = 0.8\textwidth]{without_unobservables}
\caption{Tulokset kuvana}
\label{tuloskuva}
\end{figure}
- Jatkosuunnitelmat: tutkitaan beta zetan vaikutusta tuloksiin, kuinka hyvin estimoituu. Sovelletaan oikeaan data settiiin. Mielenkiintoiseksi on osoittautunut propublica julkaisun artikkelissa machine bias käyttämä COMPAS-aineisto.
- Ongelmat / muut huomiot: Tällä aikataululla en ole tehnyt mallin validointeja: onko kausaaliset pathwayt reasonable. Malli itsessään on suhteellisen yksinkertainen joten (KÄSIENHEILUTTELU) on jokseenkin luultavaa, että sinällään mallin spesifionnissa tuskin on mitään virheitä. Voitaisiin ehkä tietenkin koostaa jokseenkin hienosyisempi malli (erilaiset rikoshistoria yms erikseeen) ja jotain. Jvat muuttujat? P-uloitteinen parametriavaruus???
- Mallin validointi epäeettistä, koska vaatisi huonoja päätöksiä > meillä kyllä synteettinen?
- Implikaatiot: parempia malleja???
%\begin{verbatim}
%# R-koodi, tulos sama
%library(igraph)
%library(causaleffect)
%# simplify = FALSE to allow multiple edges
%g <- graph.formula(X -+ R, X -+ D, X -+ Y, R -+ D , D -+ Y, D -+ Y, Y -+ D, simplify = FALSE)
%# Here the bidirected edge between X and Z is set to be unobserved in graph g
%# This is denoted by giving them a description attribute with the value "U"# The edges in question are the fourth and the fifth edge
%g <- set.edge.attribute(graph = g, name = "description", index = c(6,7), value = "U")
%
%res <- causal.effect("Y", "R", G = g)
%\end{verbatim}
%\begin{appendices}
%\chapter{Abstract in English?}
%The contents...
%\end{appendices}