Newer
Older
\documentclass[12pt,a4paper,leqno]{report}
%\usepackage[ansinew]{inputenc} Vaihdettu paketti alla olevaan, jotta ääkköset toimii
\usepackage[utf8]{inputenc}
\usepackage[T1]{fontenc}
\usepackage[finnish]{babel}
\usepackage{amsthm}
\usepackage{amsfonts}
\usepackage{amsmath}
\usepackage{amssymb}
\usepackage{hyperref}
\usepackage{url}
\usepackage[toc]{appendix}
\renewcommand{\appendixtocname}{Liitteet}
\usepackage[nottoc]{tocbibind} % Löhteet sisällykseen
%\usepackage[round,sort,comma]{natbib} % Natbib että harvard, ei toimi babelbibin kanssa
\usepackage[fixlanguage]{babelbib}
\selectbiblanguage{finnish}
\newcommand{\R}{\mathbb{R}}
\newcommand{\C}{\mathbb{C}}
\newcommand{\Q}{\mathbb{Q}}
\newcommand{\N}{\mathbb{N}}
\newcommand{\No}{\mathbb{N}_0}
\newcommand{\Z}{\mathbb{Z}}
\newcommand{\diam}{\operatorname{diam}}
\theoremstyle{plain}
\newtheorem{lause}[equation]{Lause}
\newtheorem{lem}[equation]{Lemma}
\newtheorem{prop}[equation]{Propositio}
\newtheorem{kor}[equation]{Korollaari}
\theoremstyle{definition}
\newtheorem{maar}[equation]{Määritelmä}
\newtheorem{konj}[equation]{Konjektuuri}
\newtheorem{esim}[equation]{Esimerkki}
\theoremstyle{remark}
\newtheorem{huom}[equation]{Huomautus}
\pagestyle{plain}
\setcounter{page}{1}
\addtolength{\hoffset}{-1.15cm}
\addtolength{\textwidth}{2.3cm}
\addtolength{\voffset}{0.45cm}
\addtolength{\textheight}{-0.9cm}
\title{Kandidaatin tutkielma\\ {\Large Rikoksenuusinnan ennustaminen kausaalipäättelyllä}} % Parempi otsikko
\author{Riku Laine\\ Valtiotieteellinen tiedekunta, Sosiaalitieteden laitos, Helsingin yliopisto}
\date{\today}
\begin{document}
\maketitle
\tableofcontents
\chapter{Esipuhe ja kiitokset}\label{epkiit}
Tämä kandidaatin tutkielma on tehty yhteistyössä Helsingin yliopiston tietojenkäsittelytieteen osaston apulaisprofessorien $\leftarrow$ TARKISTA Michael Mathioudakiksen ja Antti Hyttisen kanssa. He tarjosivat minulle aiheen ja merkittävää tukea tämän tutkielman tekoon.
Tämän tutkielman on tarkastanut XYZ. \\
\rightline{Helsingissä XX.XX.2019}
%%%%%%%%%
\chapter{Tiivistelmä - Kypsyysnäyte?}\label{tiiv}
\emph{\nameref{johd}}-luvussa esittelen ongelman asettelun ja tilanteen yleisen viiitekeshyksen. Kskustelemme rikoksenuusinnan ennustamisesta yhdysvaltalaisessa oikeusjäjrestelmässä. Esitän kappaleessa yleisen kuvauksen takuukäsittelyn etenemisestä oikeusprosessina, jonka jälkeen pohdin hieman takuukäsittelyn yheiskunnallista merkitystä ja motivaatiota hyvään ennusteeseen. Kappaleen lopussa kirjoitan hieman kausaalipäättelystä uutena (?) paradigmana \cite{pearl10}.
Kappaleessa \emph{\nameref{data}} esittelen käyttämäni datalähteet ja niiden ominaispiirteet. Esittelen kuinka COMPAS-datasetti (ref?) on luotu ja \emph{jotain muuta}. Esitän myös kuinka olen luonut analyyseissä myöhemmin käytetävän synteettisen datasetin hyödyntäen Lakkarajun vuoden 2017 julkaisua \cite{lakkaraju17}.
\emph{\nameref{metodit}}-kappaleessa esitän käyttämäni mallit ja metodit. Esitän lyhyen katasauksen aikaisempaan kirjallisuuteen ja tukimuksiin tällä sovellusalalla. Käyn lisäksi läpi tässä tutkielmassa myöhemmin käytettäviä matemaattisia merkintöjä ja määritelmiä. Teen joitakin osoituksia ja osoitan kuinka mallimme ei riipu havaitsemattomista (unobservables) muuttujista.
Luvussa \emph{\nameref{tulokset}} esitän algoritmillani saavuttamani tulokset ja vertailen niitä Lakkarajun \cite{lakkaraju17} saavuttamiin. Olen eritellyt erillisiin alalukuihin synteettisellä ja COMPAS-dataseteillä saavutetut tulokset.
Viimeisessä kappaleessa \emph{\nameref{diskussio}} esitän mallien ja tutkielmani virhelähteet ja muut ongelmat sekä keskustelen tulosten mahdollisesta vaikutukseta, sikäli niitä sovellettaisiin sikäläisen oikeuslaitoksen toimintaan.
%%%%%%%%%
Tämän tutkielman tavoitteena on muodostaa koneoppimisalgoritmi, jolla voidaan ennustaa yhdysvaltalaisten rikollisten rikoksen uusimisriskiä kausaalipäättelyä hyödyntävällä mallilla. Kausaalipäättelyä hyödyntämällä voimme rakentaa todennäköisyyslaskennallisen (probabilistic framework) kehyksen rikosten uusijoiden ennustamiseksi. Esitän tarvittavat merkinnät kappaleessa \emph{\nameref{kausaalimerk}} ja itse mallin tarkemmin kappaleessa \emph{\nameref{kausaalimalli}}.
Onngelma mallia selective labels.
% https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/76171/omkm_2009_2.pdf
% https://www.mass.gov/files/documents/2016/09/qx/bail-in-united-states-literature-review.pdf
\section{Takuukäsittely prosessina}\label{pros}
% Erilliset alakappaleet Suomen ja USAn eroista, johdantoon yleinen kuvaus
Yhdysvalloissa voi päästä vapaaksi rahaa vastaan. Tuomari arvioi rikollisen rikoksen uusimismahdollisuuden ja tekee siitä päätökseen takuu (bail) asetetaan ja kun se maksaa, niin pääsee pois. Takuu maksetaan kun palaa oikeuteen väliajan jälkeen.
Ongelmana tässä on se, millä perustein tuomarit tekevät päätöksen bailille pääsemisestä on käynyt ilmi (linkkaa propublica), että vaikka he käyttävät yhdysvaltalaisen yhtiön North
\section{Yhteiskunnallinen merkitys}\label{ykmerk}
\section{''Kausaalipäättely uutena paradigmana''}\label{para}
Haluamme siiirtyä assosiatiivisesta päättelystä kausaalipäättelyyn,, koska defninitiiivesten pätöksin tekeminen muuten hankalaa. Lisäksi on ylitettävä korrelaatio ei ole kausaatiota -kynnys, erityisesti \cite{pearl10}.
Tässä luvussa kuvaillaan käytetyt datasetit ja niiden ominaispiirteet.
\section{Synteettinen}\label{synteettinen}
Synteettinen data luodaan, kuten Lakkaraju selostaa \cite{lakkaraju17}. Ensinn koostettiina.
\section{''Selective labels''}\label{sl}
Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni metodit.
\section{Aiemmat tutkimukset}\label{aiemmat}
Aiemmat tutkimukset ovat lähestyneeyt monesta näklökulmasta, mutta ilman kausaatiota.
\section{Validointimetodit}\label{validointi}
Ristiin taulukoinnit yms.
\section{Kausaalipäättely}\label{kausaali}
Erityisesti \cite{pearl10}
\subsection{Johdanto}\label{kausaalijohd}
\subsection{Merkinnät}\label{kausaalimerk}
\subsection{Määritelmät}\label{kausaalimäär}
\subsection{Malli}\label{kausaalimalli}
\chapter{Tulokset}\label{tulokset}
\section{Synteettinen}\label{synttulokset}
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
\section{Compas}\label{compastulokset}
\begin{maar}\label{tngenmaar}
Jos $X$ on diskreetti satunnaismuuttuja, joka saa
arvokseen luonnollisia lukuja, niin $X$:n \emph{todennäkäisyysgeneroiva
funktio} on
\begin{equation}\label{genf}
G_X(t)=\sum_{k=0}^\infty P(X=k) t^k=\sum_{k=0}^\infty p_k t^k.
\end{equation}
\end{maar}
Mikäli $X$:n arvojoukko on äärellinen ja arvojoukon jäsenten todennäkäisyydet
ovat nollasta poikkeavia, $G_X$ on määritelty kaikilla reaaliluvuilla
$t$. Muutoin $G_X$ on määritelty ainoastaan niille $t\in\R$, joilla $G_X$
suppenee. Koska pistetodennäkäisyydet $p_k=P(X=k)$ ovat ei-negatiivisia ja
summautuvat ykkäseksi, sarja suppenee ainakin suljetulla välillä $t\in[-1, 1]$.
Generoiva funktio voidaan odotusarvon avulla ilmaista muodossa
\begin{equation}\label{genvar}
G_X(t) = E(t^X).
\end{equation}
\begin{lause}
Jos $X$ on diskreetti satunnaismuuttuja, joka saa arvokseen
luonnollisia lukuja, niin $X$:n todennäkäisyysgeneroiva funktio määrää $X$:n
jakauman yksikäsitteisesti.
\end{lause}
\begin{proof}
Koska määritelmän mukaan $G_X$ on ainakin välillä $[-1, 1]$ suppeneva
potenssisarja, niin sillä on kaikkien kertalukujen derivaatat ainakin
välillä $(-1, 1)$ ja
\[
p_k=\frac{G_X^{(k)}(0)}{k!},\quad k\in\N.
\]
Tästä näemme, että $G_X$ määrää luvut $p_k$ ja täten $X$:n
jakauman yksikäsitteisesti.
\end{proof}
Seuraavaksi esittelemme tutuimpien diskreettien jakaumien todennäkäisyysgeneroivat
funktiot. Jne\ldots
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
\chapter{Diskussio}\label{diskussio}
\begin{maar}\label{mommaar}
Jos $X$ on satunnaismuuttuja ja odotusarvo $E(e^{tX})$
on olemassa, kun $|t| < \delta$, $\delta > 0$, niin $X$:n \emph{momenttigeneroiva
funktio} on
\begin{equation}\label{momf}
M_X(t) = E(e^{tX}).
\end{equation}
\end{maar}
Todennäkäisyys- ja momenttigeneroivilla funktioilla on seuraava yhteys:
\begin{lause}
Jos $X$ on diskreetti satunnaismuuttuja, jonka arvojoukko sisältyy
joukkoon $\{0,1,2,\ldots\}$, niin
\[
M_X(t) = G_X(e^t)
\]
edellyttäen, että $G_X$ on olemassa, kun $|t| < 1 + \delta$, $\delta > 0$.
\end{lause}
\begin{proof} Nyt
\[
M_X(t) = E(e^{tX}) = E((e^t)^X) = G_X(e^t).\qedhere
\]
\end{proof}
Ja niin edelleen\ldots
\nocite{*}
\bibliographystyle{babplain}
\bibliography{viitteet}
\begin{appendices}
\chapter{Abstract in English}
The contents...
\end{appendices}