Skip to content
Snippets Groups Projects
Kandi.tex 10.5 KiB
Newer Older
  • Learn to ignore specific revisions
  • \documentclass[12pt,a4paper,leqno]{report}
    
    %\usepackage[ansinew]{inputenc} Vaihdettu paketti alla olevaan, jotta ääkköset toimii
    \usepackage[utf8]{inputenc}
    \usepackage[T1]{fontenc}
    \usepackage[finnish]{babel}
    \usepackage{amsthm}
    \usepackage{amsfonts}         
    \usepackage{amsmath}
    \usepackage{amssymb}
    
    
    \usepackage{hyperref}  
    \usepackage{url}
    
    
    \usepackage[toc]{appendix}
    \renewcommand{\appendixtocname}{Liitteet}
    
    \newcommand\independent{\protect\mathpalette{\protect\independenT}{\perp}} %riippumattomuus??
    \def\independenT#1#2{\mathrel{\rlap{$#1#2$}\mkern2mu{#1#2}}}
    
    
    \usepackage[nottoc]{tocbibind} % Löhteet sisällykseen
    
    %\usepackage[round,sort,comma]{natbib} % Natbib että harvard, ei toimi babelbibin kanssa
    
    \usepackage[fixlanguage]{babelbib}
    \selectbiblanguage{finnish}
    
    
    \newcommand{\R}{\mathbb{R}}
    \newcommand{\C}{\mathbb{C}}
    \newcommand{\Q}{\mathbb{Q}}
    \newcommand{\N}{\mathbb{N}}
    \newcommand{\No}{\mathbb{N}_0}
    \newcommand{\Z}{\mathbb{Z}}
    \newcommand{\diam}{\operatorname{diam}}
    
    \theoremstyle{plain}
    \newtheorem{lause}[equation]{Lause}
    \newtheorem{lem}[equation]{Lemma}
    \newtheorem{prop}[equation]{Propositio}
    \newtheorem{kor}[equation]{Korollaari}
    
    \theoremstyle{definition}
    \newtheorem{maar}[equation]{Määritelmä}
    \newtheorem{konj}[equation]{Konjektuuri}
    \newtheorem{esim}[equation]{Esimerkki}
    
    \theoremstyle{remark}
    \newtheorem{huom}[equation]{Huomautus}
    
    \pagestyle{plain}
    \setcounter{page}{1}
    \addtolength{\hoffset}{-1.15cm}
    \addtolength{\textwidth}{2.3cm}
    \addtolength{\voffset}{0.45cm}
    \addtolength{\textheight}{-0.9cm}
    
    
    \title{Kandidaatin tutkielma\\ {\Large Rikoksenuusinnan ennustaminen kausaalipäättelyllä}} % Parempi otsikko
    
    \author{Riku Laine\\ Valtiotieteellinen tiedekunta, Sosiaalitieteiden laitos, Helsingin yliopisto}
    
    \date{\today}
    
    \begin{document}
    
    \maketitle
    
    \tableofcontents
    
    
    \chapter{Esipuhe ja kiitokset}\label{epkiit}
    
    
    Tämä kandidaatin tutkielma on tehty yhteistyössä Helsingin yliopiston tietojenkäsittelytieteen osaston apulaisprofessorien $\leftarrow$ TARKISTA Michael Mathioudakiksen ja Antti Hyttisen kanssa. He tarjosivat minulle aiheen ja merkittävää tukea tämän tutkielman tekoon.
    
    Tämän tutkielman on tarkastanut XYZ. \\
    
    
    \rightline{Helsingissä XX.XX.2019}
    
    %%%%%%%%%
    
    \chapter{Tiivistelmä - Kypsyysnäyte?}\label{tiiv}
    
    \emph{\nameref{johd}}-luvussa esittelen ongelman asettelun ja tilanteen yleisen viiitekeshyksen. Kskustelemme rikoksenuusinnan ennustamisesta yhdysvaltalaisessa oikeusjäjrestelmässä. Esitän kappaleessa yleisen kuvauksen takuukäsittelyn etenemisestä  oikeusprosessina, jonka jälkeen pohdin hieman takuukäsittelyn yheiskunnallista merkitystä ja motivaatiota hyvään ennusteeseen. Kappaleen lopussa kirjoitan hieman kausaalipäättelystä uutena (?) paradigmana \cite{pearl10}.
    
    Kappaleessa \emph{\nameref{data}} esittelen käyttämäni datalähteet ja niiden ominaispiirteet. Esittelen kuinka COMPAS-datasetti (ref?) on luotu ja \emph{jotain muuta}. Esitän myös kuinka olen luonut analyyseissä myöhemmin käytetävän synteettisen datasetin hyödyntäen Lakkarajun vuoden 2017 julkaisua \cite{lakkaraju17}. 
    
    \emph{\nameref{metodit}}-kappaleessa esitän käyttämäni mallit ja metodit. Esitän lyhyen katasauksen aikaisempaan kirjallisuuteen ja tukimuksiin tällä sovellusalalla. Käyn lisäksi läpi tässä tutkielmassa myöhemmin käytettäviä matemaattisia merkintöjä  ja määritelmiä. Teen joitakin osoituksia ja osoitan  kuinka mallimme ei riipu havaitsemattomista (unobservables) muuttujista.
    
    Luvussa \emph{\nameref{tulokset}} esitän algoritmillani saavuttamani tulokset ja vertailen niitä Lakkarajun \cite{lakkaraju17} saavuttamiin. Olen eritellyt erillisiin alalukuihin synteettisellä ja COMPAS-dataseteillä saavutetut tulokset.
    
    Viimeisessä kappaleessa \emph{\nameref{diskussio}} esitän mallien ja tutkielmani virhelähteet ja muut ongelmat sekä keskustelen tulosten mahdollisesta vaikutukseta, sikäli niitä sovellettaisiin sikäläisen oikeuslaitoksen toimintaan.
    
    %%%%%%%%%
    
    
    \chapter{Johdanto}\label{johd}
    
    
    Tässä kappaleessa esittelen tutkielman taustaa ja yleisellä tasolla yhdysvaltalaisen oikeuslaitoksen takuukäsittelyprosessin. Sen jälkeen paneudun hieman vangitsemispäätöksen yhteiskunnalliseen merkitykseen: minkä takia ihmisiä vangitaan ja mitä perusteita on vangitsemattajätttämispätökselle. Pyrin luvun aikana myös hieman selvittämään takuujärjestelmän käyttöä Suomessa ja kappaleen lopussa pohdin hieman kausaalipäättelyä paradigman muutoksena tilastotieteen kentällä. Jätän kuitenkin tarvittavien merkintöjen esittämisen kappaleeseen \emph{\nameref{kausaalimerk}} ja mallin esittelyn \emph{\nameref{kausaalimalli}}-lukuun.  
    
    
    % https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/76171/omkm_2009_2.pdf
    
    \section{Takuukäsittely prosessina}\label{pros}
    
    
    % Erilliset alakappaleet Suomen ja USAn eroista, johdantoon yleinen kuvaus
    
    Yhdysvalloissa voi päästä vapaaksi rahaa vastaan. Tuomari arvioi rikollisen rikoksen uusimismahdollisuuden ja tekee siitä päätökseen takuu (bail) asetetaan ja kun se maksaa, niin pääsee pois. Takuu maksetaan kun palaa oikeuteen kuultavaksi tarpeellisten tutkintojen jälkee.
    
    
    Kritiikkiä on esitetty niin itse takuun rahallisesta määrästä (lähde?) kuin perusteista (propublica). 
    
    
    Ongelmana  tässä on se, millä perustein tuomarit tekevät päätöksen bailille pääsemisestä on käynyt ilmi (linkkaa propublica), että vaikka he käyttävät yhdysvaltalaisen yhtiön North
    
    Vuokaavio oikeuskäsittelyn kulusta??
    
    
    \section{Yhteiskunnallinen merkitys}\label{ykmerk}
    
    
    \section{''Kausaalipäättely uutena paradigmana''}\label{para}
    
    
    Haluamme siiirtyä assosiatiivisesta päättelystä kausaalipäättelyyn,, koska defninitiiivesten pätöksin tekeminen muuten hankalaa. Lisäksi on ylitettävä korrelaatio ei ole kausaatiota -kynnys, erityisesti \cite{pearl10}.
    
    
    \chapter{Data}\label{data}
    
    
    Tässä luvussa kuvaillaan käytetyt datasetit ja niiden ominaispiirteet.
    
    
    \section{COMPAS}\label{compas}
    
    
    \section{Synteettinen}\label{synteettinen}
    
    
    Synteettinen data luotiin, kuten Lakkaraju selostaa artikkelissaan \cite{lakkaraju17}. Dataan simuloitiin kolme muuttujaa, $X$, $Z$, ja $W$. Näistä muuttujista $X$ vastaa informaatiota, joka on sekä mallin että tuomarin havaittavissa, eli informaatiota joka on kirjattu oikeuden pöytäkirjoihin tai on syntetisoitavissa muista rekistereistä, kuten vastaajan sukupuoli. Muuttujalla $Z$ kuvataan tietoa, jonka vain tuomari voi havaita: kuten Lakkaraju havainnollistaa, tällaista voi olla esimerkiksi tito siitä, onko vastaajalla perhettä mukana oikeussalissa \cite{lakkaraju17}. $W$ on mallissa havainnollistamassa reaalimaailman tomimmista. Muuttujalla $W$ esitämme datassa informaatiota, joka ei ole saatavilla päätöksentekijöille eikä mallille mutta vaikuttaa silti tulokseen, eli rikoksen uusimiseen. Datassa nämä ovat kaikki riippumattomia standardinormaalijakautuneita satunnaismuuttujia, toisin sanoen $X, W, Z \sim N(0, 1)  \independent$.
    
    Yhdistämme henkilöt satunnaisesti kuhunkin $M = 500$ tuomariin, joista jokaiselle määritellään hyväksymisprosentti $r \in [0,1]$. Tuomarin hyväksymisprosentti määritetään ottamalla arvoja tasajakaumasta suljetulta väliltä $[0\,1; 0\,9]$ ja sitten pyöristämällä ne yhden desimaalin tarkkuuteen. Tulosmuuttuja Y simuloidaan märittämällä sen ehdollinen todennäköisyysjakauma seuraavasti: $P(Y=0|X, Z, W)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ+\beta_WW)\}}$ missä kertoimet $\beta_X$,  $\beta_Z$ ja  $\beta_W$ on asetettus vastaavasti arvoihin 1, 1 ja 0,2.
    
    \section{''Selective labels''}\label{sl}
    
    
    \chapter{Metodit}\label{metodit}
    
    
    Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni metodit.
    
    
    \section{Aiemmat tutkimukset}\label{aiemmat}
    
    
    Aiemmat tutkimukset ovat lähestyneeyt monesta näklökulmasta, mutta ilman kausaatiota.
    
    
    \section{Validointimetodit}\label{validointi}
    
    
    Ristiin taulukoinnit yms.
    
    
    \section{Kausaalipäättely}\label{kausaali}
    
    
    Erityisesti \cite{pearl10}
    
    
    \subsection{Johdanto}\label{kausaalijohd}
    
    
    \subsection{Merkinnät}\label{kausaalimerk}
    
    
    \subsection{Määritelmät}\label{kausaalimäär}
    
    
    
    \subsection{Malli}\label{kausaalimalli}
    
    
    
    \chapter{Tulokset}\label{tulokset}
    
    
    \section{Synteettinen}\label{synttulokset}
    
    
    \section{Compas}\label{compastulokset}
    
    \begin{maar}\label{tngenmaar}
    Jos $X$ on diskreetti satunnaismuuttuja, joka saa
    arvokseen luonnollisia lukuja, niin $X$:n \emph{todennäkäisyysgeneroiva 
    funktio} on
    \begin{equation}\label{genf}
    G_X(t)=\sum_{k=0}^\infty P(X=k) t^k=\sum_{k=0}^\infty p_k t^k.
    \end{equation}
    \end{maar}
    
    Mikäli $X$:n arvojoukko on äärellinen ja arvojoukon jäsenten todennäkäisyydet
    ovat nollasta poikkeavia, $G_X$ on määritelty kaikilla reaaliluvuilla
    $t$. Muutoin $G_X$ on määritelty ainoastaan niille $t\in\R$, joilla $G_X$
    suppenee. Koska pistetodennäkäisyydet $p_k=P(X=k)$ ovat ei-negatiivisia ja 
    summautuvat ykkäseksi, sarja suppenee ainakin suljetulla välillä $t\in[-1, 1]$.
    
    Generoiva funktio voidaan odotusarvon avulla ilmaista muodossa
    \begin{equation}\label{genvar}
    G_X(t) = E(t^X).
    \end{equation}
    
    \begin{lause}
    Jos $X$ on diskreetti satunnaismuuttuja, joka saa arvokseen
    luonnollisia lukuja, niin $X$:n todennäkäisyysgeneroiva funktio määrää $X$:n
    jakauman yksikäsitteisesti.
    \end{lause}
    
    \begin{proof}
    Koska määritelmän mukaan $G_X$ on ainakin välillä $[-1, 1]$ suppeneva
    potenssisarja, niin sillä on kaikkien kertalukujen derivaatat ainakin
    välillä $(-1, 1)$ ja
    \[
    p_k=\frac{G_X^{(k)}(0)}{k!},\quad k\in\N. 
    \]
    Tästä näemme, että $G_X$ määrää luvut $p_k$ ja täten $X$:n 
    jakauman yksikäsitteisesti.
    \end{proof}
    
    Seuraavaksi esittelemme tutuimpien diskreettien jakaumien todennäkäisyysgeneroivat
    funktiot. Jne\ldots
    
    
    \chapter{Diskussio}\label{diskussio}
    
    \begin{maar}\label{mommaar}
    Jos $X$ on satunnaismuuttuja ja odotusarvo $E(e^{tX})$
    on olemassa, kun $|t| < \delta$, $\delta > 0$, niin $X$:n \emph{momenttigeneroiva 
    funktio} on
    \begin{equation}\label{momf}
    M_X(t) = E(e^{tX}).
    \end{equation}
    \end{maar}
    
    Todennäkäisyys- ja momenttigeneroivilla funktioilla on seuraava yhteys:
    
    \begin{lause}
    Jos $X$ on diskreetti satunnaismuuttuja, jonka arvojoukko sisältyy
    joukkoon $\{0,1,2,\ldots\}$, niin 
    \[
    M_X(t) = G_X(e^t)
    \]
    edellyttäen, että $G_X$ on olemassa, kun $|t| < 1 + \delta$, $\delta > 0$.
    \end{lause}
    
    \begin{proof} Nyt
    \[
    M_X(t) = E(e^{tX}) = E((e^t)^X) = G_X(e^t).\qedhere
    \]
    \end{proof}
    
    Ja niin edelleen\ldots
    
    
    \nocite{*}
    
    \bibliographystyle{babplain}
    \bibliography{viitteet} 
    
    
    \begin{appendices}
    
    The contents...
    \end{appendices}