Newer
Older
\documentclass[12pt,a4paper,leqno]{report}
%\usepackage[ansinew]{inputenc} Vaihdettu paketti alla olevaan, jotta ääkköset toimii
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[finnish]{babel}
\usepackage{amsthm}
\usepackage{amsfonts}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage{hyperref}
\usepackage{url}
\usepackage[toc]{appendix}
\renewcommand{\appendixtocname}{Liitteet}
\newcommand\independent{\protect\mathpalette{\protect\independenT}{\perp}} %riippumattomuus
\def\independenT#1#2{\mathrel{\rlap{$#1#2$}\mkern2mu{#1#2}}}
\usepackage[nottoc]{tocbibind} % Lähteet sisällykseen
%\usepackage[round,sort,comma]{natbib} % Natbib että harvard, ei toimi babelbibin kanssa
\usepackage[fixlanguage]{babelbib}
\selectbiblanguage{finnish}
\usepackage{algorithm}% http://ctan.org/pkg/algorithms
\usepackage{algorithmic}% http://ctan.org/pkg/algorithms
\floatname{algorithm}{Algoritmi}
\renewcommand{\algorithmicrequire}{\textbf{Syöte:}}
\renewcommand{\algorithmicensure}{\textbf{Palauttaa:}}
%\makeatletter
%\renewcommand{\listalgorithmname}{List of \ALG@name s}
%\makeatother
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\No}{\mathbb{N}_0}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\diam}{\operatorname{diam}}
\theoremstyle{plain}
\newtheorem{lause}[equation]{Lause}
\newtheorem{lem}[equation]{Lemma}
\newtheorem{prop}[equation]{Propositio}
\newtheorem{kor}[equation]{Korollaari}
\theoremstyle{definition}
\newtheorem{maar}[equation]{Määritelmä}
\newtheorem{konj}[equation]{Konjektuuri}
\newtheorem{esim}[equation]{Esimerkki}
\theoremstyle{remark}
\newtheorem{huom}[equation]{Huomautus}
\pagestyle{plain}
\setcounter{page}{1}
\addtolength{\hoffset}{-1.15cm}
\addtolength{\textwidth}{2.3cm}
\addtolength{\voffset}{0.45cm}
\addtolength{\textheight}{-0.9cm}
\title{Kandidaatin tutkielma\\ {\Large Rikoksenuusinnan ennustaminen kausaalipäättelyllä}} % Parempi otsikko
\author{Riku Laine\\ Valtiotieteellinen tiedekunta, Helsingin yliopisto}
%%%%%%%%%%%%%%
%
% Tärkeitä termejä
%
% DEFENDANT = VASTAAJA
% bail = takuu(järjestelmä)
%
%%%%%%%%%%%%%%
\begin{document}
\maketitle
\tableofcontents
\chapter{Esipuhe ja kiitokset}\label{epkiit}
Tämä kandidaatintutkielma on tehty yhteistyössä Helsingin yliopiston tietojenkäsittelytieteen osaston apulaisprofessorien $\leftarrow$ TARKISTA Michael Mathioudakiksen ja Antti Hyttisen kanssa. He tarjosivat minulle aiheen ja merkittävää tukea tämän tutkielman tekoon.\\
Tämän tutkielman on tarkastanut XYZ. Haluan kiittää kaikkia edellä mainittuja henkilöitä sekä ystäviäni ja perhettäni, jotka tukivat minua tämän tutkielman tekemisessä. \\
\rightline{Helsingissä XX.XX.2019}
%%%%%%%%%
\chapter{Tiivistelmä - Kypsyysnäyte?}\label{tiiv}
\emph{\nameref{johd}}-luvussa esittelen ongelman asettelun ja tilanteen yleisen viiitekeshyksen. Kskustelemme rikoksenuusinnan ennustamisesta yhdysvaltalaisessa oikeusjäjrestelmässä. Esitän kappaleessa yleisen kuvauksen takuukäsittelyn etenemisestä oikeusprosessina, jonka jälkeen pohdin hieman takuukäsittelyn yheiskunnallista merkitystä ja motivaatiota hyvään ennusteeseen. Kappaleen lopussa kirjoitan hieman kausaalipäättelystä uutena (?) paradigmana \cite{pearl10}.
Kappaleessa \emph{\nameref{data}} esittelen käyttämäni datalähteet ja niiden ominaispiirteet. Esittelen kuinka COMPAS-datasetti (ref?) on luotu ja \emph{jotain muuta}. Esitän myös kuinka olen luonut analyyseissä myöhemmin käytetävän synteettisen datasetin hyödyntäen Lakkarajun vuoden 2017 julkaisua \cite{lakkaraju17}.
\emph{\nameref{metodit}}-kappaleessa esitän käyttämäni mallit ja metodit. Esitän lyhyen katasauksen aikaisempaan kirjallisuuteen ja tukimuksiin tällä sovellusalalla. Käyn lisäksi läpi tässä tutkielmassa myöhemmin käytettäviä matemaattisia merkintöjä ja määritelmiä. Teen joitakin osoituksia ja osoitan kuinka mallimme ei riipu havaitsemattomista (unobservables) muuttujista.
Luvussa \emph{\nameref{tulokset}} esitän algoritmillani saavuttamani tulokset ja vertailen niitä Lakkarajun \cite{lakkaraju17} saavuttamiin. Olen eritellyt erillisiin alalukuihin synteettisellä ja COMPAS-dataseteillä saavutetut tulokset.
Viimeisessä kappaleessa \emph{\nameref{diskussio}} esitän mallien ja tutkielmani virhelähteet ja muut ongelmat sekä keskustelen tulosten mahdollisesta vaikutukseta, sikäli niitä sovellettaisiin sikäläisen oikeuslaitoksen toimintaan.
%%%%%%%%%
Tässä kappaleessa esittelen tutkielman taustaa ja yleisellä tasolla yhdysvaltalaisen oikeuslaitoksen takuukäsittelyprosessin. Sen jälkeen paneudun hieman vangitsemispäätöksen yhteiskunnalliseen merkitykseen: minkä takia ihmisiä vangitaan ja mitä perusteita on vangitsemattajätttämispätökselle. Pyrin luvun aikana myös hieman selvittämään takuujärjestelmän käyttöä Suomessa ja kappaleen lopussa pohdin hieman kausaalipäättelyä paradigman muutoksena tilastotieteen kentällä. Jätän kuitenkin tarvittavien merkintöjen esittämisen kappaleeseen \emph{\nameref{kausaalimerk}} ja mallin esittelyn \emph{\nameref{kausaalimalli}}-lukuun.
% https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/76171/omkm_2009_2.pdf
\section{Takuukäsittely prosessina}\label{pros}
% Johdanto, yhdysvallat, Suomi, kritiikki
Yhdysvalloissa, kuten monissa muissa anglosaksisissa maissa, on käytössä järjestelmä, jota nimitetään takuu- tai vakuusjärjestelmäksi. Takuujärjestelmä on epäillyn vaihtoehto tutkintavankeudelle hänen odottaessaan oikeudenkäyntiä ja Yhdysvalloissa oikeus takuuseen periytyy maan perustamisen ajalta \cite{okm, zaniewski14}. Suomen oikeus- ja sisäasiainministeriön alaisen esitutkinta- ja pakkokeinotoimikunnan mukaan takuujärjestelmiä on kolmenlaisia: kahdessa niistä epäilty maksaa itse käteisellä vakuuden tai asettaa omaisuuttaan vakuudeksi ja kolmannessa jokin ulkopuolinen taho ''menee takuuseen epäillyn velvollisuuksien täyttämisestä'' \cite{okm}.
Yhdysvalloissa epäillyn pidätyksen jälkeen hänet viedään paikallisen oikeusviranomaisen järjestämään takuukuulemiseen (bail hearing) \cite{zaniewski14}. Kuulemisessa päätetään myönnetäänkö takuu, eli voidaanko epäilty vapauttaa, vai halutaanko hänet asettaa vankeuteen ennen oikeudenkäyntiä. Kuulemisessa päätetään myös mahdollisen takuun määrästä sekä vapauttamisen ehdoista \cite{zaniewski14}. Takuu voidaan suorittaa taattuna tai takaamattomana maksusitoumuksena tai maksaa suoraan (cash) - erityistapauksissa epäilty voidaan vapauttaa myös pelkällä kirjallisella sitoumuksella (release on personal recognizance (ROR)) \cite{zaniewski14}.
% Tilastoja?
\section{Yhteiskunnallinen merkitys ja kritiikki}\label{ykmerk}
Zaniewski toteaa lyhyessä kirjallisuuskatsauksessaan, että takuujärjestelmän uusidtus 1982 ei ole onnistunut laskemaan tarpeettomia vangitsemisia -- päinvastoin niiden suhteellinen määrä kaksikertaistui 22\%:sta 49\%:iin vuodesta 1984 vuoteen 2007. Nykyisellään sikälinen oikeusjärjestelmä suosii suoraan rahalla maksettavia tai taatuilla maksusitoumuksilla hoidettuja takuuksia, mikä asettaa huonossa taloustilanteessa olevat epäillyt eri tilanteeseen. \cite{zaniewski14}
Suomessa vakuusjärjestelmää ei ole käytetty, vaikka yllä mainittu toimikunta toteaakin sen sisältyvän tullilain 44 §:ään. Kyseisessä pykälässä ''- - säädetään mahdollisuudesta asettaa pidätetyn tai vangitun vapaaksi päästämi[s]en ehdoksi, että hän asettaa vakuuden, jonka harkitaan takaavan hänen saapumisensa oikeudenkäyntiin ja ehkä tuomittavien seuraamusten suorittamisen''. Kuten he tarkentavat, lisäksi usein edellytetään että epäilty ei asu Suomessa ja epäillään hänen pakenevan maasta ennen oikeudenkäyntiä tai rangaistusta \cite{okm}. Sekä yhdysvaltalaiselle että suomalaiselle järjestelmälle on yhteistä, että takuu tuomitaan menetettäväksi valtiolle, jos vapauden ehtoja rikotaan.
Kritiikkiä on esitetty molemmissa maissa osaltaan samoihin asioihin. Suomessa pykälää ei ole sovellettu, koska luultavasti sen tulkintaohjeet ovat niin niukat, kuten myös sääntely \cite{okm}. Yhdistävänä kritiikkinä sekä Zaniewski että esitutkinta- ja pakkokeinotoimikunta mainitsevat muun muassa sen, kuinka takuumaksujen toimeenpano vaikuttaa tai Suomen tapauksessa vaikuttaisi pienituloisten taloustilanteeseen \cite{zaniewski14, okm}. Suomalainen toimikunta esittää lisäksi monia muitakin ongelmakohtia, sikäli takuujärjestelmä haluttaisiin ottaa Suomessa käyttöön, esimerkiksi he toteavat että vakuusmaksujen maksamiseen tulisi todennäköisesti liittymään ''epätoivottavia lieveilmiöitä'' \cite{okm}. Tähän ongelmaan on Yhdysvalloissa jo osittain reagoitukin, sillä esimerkiksi Californian osavaltio päätti viime vuonna poistaa takuumaksut käytöstä \cite{cnn}.
%Kritiikkiä on esitetty niin itse takuun rahallisesta määrästä (lähde?) kuin perusteista (propublica).
%Ongelmana tässä on se, millä perustein tuomarit tekevät päätöksen bailille pääsemisestä on käynyt ilmi (linkkaa propublica), että vaikka he käyttävät yhdysvaltalaisen yhtiön North
\section{''Kausaalipäättely uutena paradigmana''}\label{para}
% miksi halutaan siirtyä (frekventistisen/bayes-ppäättelyn ongelmat), edut, esiintyminen, erot, käyttö
Haluamme siiirtyä assosiatiivisesta päättelystä kausaalipäättelyyn,, koska defninitiiivesten pätöksin tekeminen muuten hankalaa. Lisäksi on ylitettävä korrelaatio ei ole kausaatiota -kynnys, erityisesti \cite{pearl10}.
\section{Valikoitumisharha}\label{sl}
% aiempaa tutkimusta, miten voidaan muissa tutkimuksissa tassoittaa -> Tässä tutkimkssa
Datassa on valikoitumisharha, mistä Lakkaraju käyttää termiä\emph{''selective labels''} \cite{lakkaraju17}. Datan harha johtuu luonnollisesti siitä, että rikoksen voi uusia vain, jos tuomari päättää vapauttaa takuita vastaan. Suorat päättelytavat -- \emph{counterfactual inference} -- ovat ongelmallisia siinä mielessä, että jne jne.
Tässä luvussa kuvaillaan käytetyt datasetit ja niiden ominaispiirteet.
\section{Synteettinen}\label{synteettinen}
Synteettinen data luotiin Lakkarajun artikkelissaan selostamalla tavalla \cite{lakkaraju17}. Dataan simuloitiin kolme muuttujaa $X$, $Z$, ja $W$. Näistä muuttujista $X$ vastaa informaatiota, joka on sekä mallin että tuomarin havaittavissa, eli informaatiota joka on kirjattu oikeuden pöytäkirjoihin tai on kerättävissä muista rekistereistä, kuten vastaajan sukupuoli. Muuttujalla $Z$ kuvataan tietoa, jonka vain tuomari voi havaita: kuten Lakkaraju havainnollistaa, tällaista voi olla esimerkiksi tieto siitä, onko vastaajalla perhettä mukana oikeussalissa \cite{lakkaraju17}. $W$ on mallissa havainnollistamassa reaalimaailmaa. Muuttujalla esitämme datassa informaatiota, joka ei ole saatavilla päätöksentekijöille eikä mallille mutta vaikuttaa silti rikoksenuusimisriskiin. Datassa nämä ovat kaikki riippumattomia standardinormaalijakautuneita satunnaismuuttujia, eli $X, W, Z \sim N(0, 1) \independent$.
Yhdistämme henkilöt satunnaisesti kuhunkin $M = 500$ tuomariin, joista jokaiselle määritellään hyväksymisprosentti $r \in [0,1]$. Tuomarin hyväksymisprosentti määritetään ottamalla arvoja tasajakaumasta suljetulta väliltä [0,1; 0,9] ja sitten pyöristämällä ne 10 desimaalin tarkkuuteen. Tulosmuuttuja Y simuloidaan määrittämällä sen ehdollinen todennäköisyys seuraavasti: $P(Y=0|X, Z, W)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ+\beta_WW)\}}$, missä kertoimet $\beta_X$, $\beta_Z$ ja $\beta_W$ on asetettu arvoihin 1, 1 ja 0,2 vastaavassa järjestyksessä. \cite{lakkaraju17}
Päätösmuuttujan $T$ ehdolinen todennäköisyys $P(T=0|X, Z)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ)\}} + \epsilon$ missä $\epsilon \sim N(0, 0,1)$ vastaa pientä määrää kohinaa. Henkilöltä $i$ kielletään takuut, eli $T_i=0$ jos muuttujan $T$ ehdollinen todennäköisyys on tuomarin $j$ suurimman $(1-r)\cdot 100\%$ joukossa. Lopuksi koulutusdata suodatettiin siten, että saatavissa oli vain yksilöt, jotka päästettiin vapaaksi $(t=1)$. \cite{lakkaraju17}
Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni metodit.
\section{Aiemmat tutkimukset}\label{aiemmat}
Aiemmat tutkimukset ovat lähestyneeyt monesta näklökulmasta, mutta ilman kausaatiota.
\section{Validointimetodit}\label{validointi}
Ristiin taulukoinnit yms.
\section{Verkkoteoria}\label{verkot}
Esitän tässä kappleessa lyhyesti kaikki tarvittavat verkkoteorieettiset määritelmäät, joita tulen hyödyntämään. Noudatan määritelmissä Oinosta \cite{oinonen16}.
\begin{maar}[Suunnattu verkko]
\emph{Suunnattu verkko G} on pari $(V, E)$, missä $V \neq \emptyset$ on solmujen joukko ja $$E = \{(a, b) \in V \times V | \text{ solmusta } a \text{ on nuoli solmuun } b \} $$ on \emph{kaarien} joukko.
\end{maar}
\begin{maar}[Vierekkäisyys]
Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
Jos solmujen $a$ ja $b$ välillä on nuoli, niin solmujen $a$ ja $b$ sanotaan olevan \emph{vierekkäisiä}.
\end{maar}
\begin{maar}[Yksinkertainen suunnattu verkko]
Oletetaan, että $G = (V,E)$ on suunnattu tai suuntaamaton verkko, jossa ei ole yhtään silmukkaa eli $(v, v) \notin E$ kaikilla $v \in V$. \\
Jos $G$ on suunnattu verkko, sanotaan, että $G$ on yksinkertainen suunnattu verkko. \\
Jos $G$ on suuntaamaton verkko, sanotaan, että $G$ on yksinkertainen verkko.
\end{maar}
\section{Kausaalipäättely}\label{kausaali}
\subsection{Johdanto}\label{kausaalijohd}
\subsection{Merkinnät}\label{kausaalimerk}
\subsection{Määritelmät}\label{kausaalimäär}
\begin{maar}\label{d_sep}
Joukko $\mathcal{S}$ blokkaa polun $p$, jos vähintään toinen seuraavista ehdoista on voimassa:
\begin{enumerate}[(a)]
\item Polku $p$ sisältää vähintään yhden arrow-emitting solmun, joka on joukossa $\mathcal{S}$.
\item Polku $p$ sisältää vähintään yhden collision noden, joke ei kuulu joukkoon $\mathcal{S}$ ja jolla ei ole jälkeläisiä joukossa $\mathcal{S}$.
\end{enumerate}
\end{maar}
\begin{maar}\label{adjustment}
Oletetaan, että halutaan selvittää (satunnais)muuttujan X kausaalista vaikutusta muuuttujaan Y. Joukko $\mathcal{S}$ on riittävä adjustmenttiin, kun seuraavat ehdot ovat voimassa:
\begin{enumerate}[(1)]
\item Yksikään joukon $\mathcal{S}$ alkioista ei ole solmun X jälkeläinen.
\item Joukon $\mathcal{S}$ alkiot ''blokkaavat'' kaikki märitelmän \ref{d_sep} mukaiset ''takaovireitit'' solmusta X solmuun Y.
\end{enumerate}
\end{maar}
\subsection{Malli}\label{kausaalimalli}
\begin{algorithm} % enter the algorithm environment
\caption{Calculate $y = x^n$} % give the algorithm a caption
\label{alg1} % and a label for \ref{} commands later in the document
\begin{algorithmic} % enter the algorithmic environment
\REQUIRE $n \geq 0 \vee x \neq 0$
\ENSURE $y = x^n$
\STATE $y \Leftarrow 1$
\IF{$n < 0$}
\STATE $X \Leftarrow 1 / x$
\STATE $N \Leftarrow -n$
\ELSE
\STATE $X \Leftarrow x$
\STATE $N \Leftarrow n$
\ENDIF
\WHILE{$N \neq 0$}
\IF{$N$ is even}
\STATE $X \Leftarrow X \times X$
\STATE $N \Leftarrow N / 2$
\ELSE[$N$ is odd]
\STATE $y \Leftarrow y \times X$
\STATE $N \Leftarrow N - 1$
\ENDIF
\ENDWHILE
\end{algorithmic}
\end{algorithm}
\chapter{Tulokset}\label{tulokset}
\section{Synteettinen}\label{synttulokset}
283
284
285
286
287
288
289
290
291
292
293
294
295
296
297
298
299
300
301
302
303
304
305
306
307
308
309
310
311
312
313
314
315
316
317
318
319
320
321
322
323
324
\section{Compas}\label{compastulokset}
\begin{maar}\label{tngenmaar}
Jos $X$ on diskreetti satunnaismuuttuja, joka saa
arvokseen luonnollisia lukuja, niin $X$:n \emph{todennäkäisyysgeneroiva
funktio} on
\begin{equation}\label{genf}
G_X(t)=\sum_{k=0}^\infty P(X=k) t^k=\sum_{k=0}^\infty p_k t^k.
\end{equation}
\end{maar}
Mikäli $X$:n arvojoukko on äärellinen ja arvojoukon jäsenten todennäkäisyydet
ovat nollasta poikkeavia, $G_X$ on määritelty kaikilla reaaliluvuilla
$t$. Muutoin $G_X$ on määritelty ainoastaan niille $t\in\R$, joilla $G_X$
suppenee. Koska pistetodennäkäisyydet $p_k=P(X=k)$ ovat ei-negatiivisia ja
summautuvat ykkäseksi, sarja suppenee ainakin suljetulla välillä $t\in[-1, 1]$.
Generoiva funktio voidaan odotusarvon avulla ilmaista muodossa
\begin{equation}\label{genvar}
G_X(t) = E(t^X).
\end{equation}
\begin{lause}
Jos $X$ on diskreetti satunnaismuuttuja, joka saa arvokseen
luonnollisia lukuja, niin $X$:n todennäkäisyysgeneroiva funktio määrää $X$:n
jakauman yksikäsitteisesti.
\end{lause}
\begin{proof}
Koska määritelmän mukaan $G_X$ on ainakin välillä $[-1, 1]$ suppeneva
potenssisarja, niin sillä on kaikkien kertalukujen derivaatat ainakin
välillä $(-1, 1)$ ja
\[
p_k=\frac{G_X^{(k)}(0)}{k!},\quad k\in\N.
\]
Tästä näemme, että $G_X$ määrää luvut $p_k$ ja täten $X$:n
jakauman yksikäsitteisesti.
\end{proof}
Seuraavaksi esittelemme tutuimpien diskreettien jakaumien todennäkäisyysgeneroivat
funktiot. Jne\ldots
327
328
329
330
331
332
333
334
335
336
337
338
339
340
341
342
343
344
345
346
347
348
349
350
351
352
353
354
355
356
\chapter{Diskussio}\label{diskussio}
\begin{maar}\label{mommaar}
Jos $X$ on satunnaismuuttuja ja odotusarvo $E(e^{tX})$
on olemassa, kun $|t| < \delta$, $\delta > 0$, niin $X$:n \emph{momenttigeneroiva
funktio} on
\begin{equation}\label{momf}
M_X(t) = E(e^{tX}).
\end{equation}
\end{maar}
Todennäkäisyys- ja momenttigeneroivilla funktioilla on seuraava yhteys:
\begin{lause}
Jos $X$ on diskreetti satunnaismuuttuja, jonka arvojoukko sisältyy
joukkoon $\{0,1,2,\ldots\}$, niin
\[
M_X(t) = G_X(e^t)
\]
edellyttäen, että $G_X$ on olemassa, kun $|t| < 1 + \delta$, $\delta > 0$.
\end{lause}
\begin{proof} Nyt
\[
M_X(t) = E(e^{tX}) = E((e^t)^X) = G_X(e^t).\qedhere
\]
\end{proof}
Ja niin edelleen\ldots
\bibliographystyle{babplain}
\bibliography{viitteet}
\chapter{Abstract in English?}