Skip to content
Snippets Groups Projects
Kandi.tex 8.8 KiB
Newer Older
  • Learn to ignore specific revisions
  • \documentclass[12pt,a4paper,leqno]{report}
    
    %\usepackage[ansinew]{inputenc} Vaihdettu paketti alla olevaan, jotta ääkköset toimii
    \usepackage[utf8]{inputenc}
    \usepackage[T1]{fontenc}
    \usepackage[finnish]{babel}
    \usepackage{amsthm}
    \usepackage{amsfonts}         
    \usepackage{amsmath}
    \usepackage{amssymb}
    
    
    \usepackage{hyperref}  
    \usepackage{url}
    
    
    \usepackage[toc]{appendix}
    \renewcommand{\appendixtocname}{Liitteet}
    
    \usepackage[nottoc]{tocbibind} % Löhteet sisällykseen
    
    %\usepackage[round,sort,comma]{natbib} % Natbib että harvard, ei toimi babelbibin kanssa
    
    \usepackage[fixlanguage]{babelbib}
    \selectbiblanguage{finnish}
    
    
    \newcommand{\R}{\mathbb{R}}
    \newcommand{\C}{\mathbb{C}}
    \newcommand{\Q}{\mathbb{Q}}
    \newcommand{\N}{\mathbb{N}}
    \newcommand{\No}{\mathbb{N}_0}
    \newcommand{\Z}{\mathbb{Z}}
    \newcommand{\diam}{\operatorname{diam}}
    
    \theoremstyle{plain}
    \newtheorem{lause}[equation]{Lause}
    \newtheorem{lem}[equation]{Lemma}
    \newtheorem{prop}[equation]{Propositio}
    \newtheorem{kor}[equation]{Korollaari}
    
    \theoremstyle{definition}
    \newtheorem{maar}[equation]{Määritelmä}
    \newtheorem{konj}[equation]{Konjektuuri}
    \newtheorem{esim}[equation]{Esimerkki}
    
    \theoremstyle{remark}
    \newtheorem{huom}[equation]{Huomautus}
    
    \pagestyle{plain}
    \setcounter{page}{1}
    \addtolength{\hoffset}{-1.15cm}
    \addtolength{\textwidth}{2.3cm}
    \addtolength{\voffset}{0.45cm}
    \addtolength{\textheight}{-0.9cm}
    
    
    \title{Kandidaatin tutkielma\\ {\Large Rikoksenuusinnan ennustaminen kausaalipäättelyllä}} % Parempi otsikko
    \author{Riku Laine\\ Valtiotieteellinen tiedekunta, Sosiaalitieteden laitos, Helsingin yliopisto}
    
    \date{\today}
    
    \begin{document}
    
    \maketitle
    
    \tableofcontents
    
    
    \chapter{Esipuhe ja kiitokset}\label{epkiit}
    
    
    Tämä kandidaatin tutkielma on tehty yhteistyössä Helsingin yliopiston tietojenkäsittelytieteen osaston apulaisprofessorien $\leftarrow$ TARKISTA Michael Mathioudakiksen ja Antti Hyttisen kanssa. He tarjosivat minulle aiheen ja merkittävää tukea tämän tutkielman tekoon.
    
    Tämän tutkielman on tarkastanut XYZ. \\
    
    
    \rightline{Helsingissä XX.XX.2019}
    
    %%%%%%%%%
    
    \chapter{Tiivistelmä - Kypsyysnäyte?}\label{tiiv}
    
    \emph{\nameref{johd}}-luvussa esittelen ongelman asettelun ja tilanteen yleisen viiitekeshyksen. Kskustelemme rikoksenuusinnan ennustamisesta yhdysvaltalaisessa oikeusjäjrestelmässä. Esitän kappaleessa yleisen kuvauksen takuukäsittelyn etenemisestä  oikeusprosessina, jonka jälkeen pohdin hieman takuukäsittelyn yheiskunnallista merkitystä ja motivaatiota hyvään ennusteeseen. Kappaleen lopussa kirjoitan hieman kausaalipäättelystä uutena (?) paradigmana \cite{pearl10}.
    
    Kappaleessa \emph{\nameref{data}} esittelen käyttämäni datalähteet ja niiden ominaispiirteet. Esittelen kuinka COMPAS-datasetti (ref?) on luotu ja \emph{jotain muuta}. Esitän myös kuinka olen luonut analyyseissä myöhemmin käytetävän synteettisen datasetin hyödyntäen Lakkarajun vuoden 2017 julkaisua \cite{lakkaraju17}. 
    
    \emph{\nameref{metodit}}-kappaleessa esitän käyttämäni mallit ja metodit. Esitän lyhyen katasauksen aikaisempaan kirjallisuuteen ja tukimuksiin tällä sovellusalalla. Käyn lisäksi läpi tässä tutkielmassa myöhemmin käytettäviä matemaattisia merkintöjä  ja määritelmiä. Teen joitakin osoituksia ja osoitan  kuinka mallimme ei riipu havaitsemattomista (unobservables) muuttujista.
    
    Luvussa \emph{\nameref{tulokset}} esitän algoritmillani saavuttamani tulokset ja vertailen niitä Lakkarajun \cite{lakkaraju17} saavuttamiin. Olen eritellyt erillisiin alalukuihin synteettisellä ja COMPAS-dataseteillä saavutetut tulokset.
    
    Viimeisessä kappaleessa \emph{\nameref{diskussio}} esitän mallien ja tutkielmani virhelähteet ja muut ongelmat sekä keskustelen tulosten mahdollisesta vaikutukseta, sikäli niitä sovellettaisiin sikäläisen oikeuslaitoksen toimintaan.
    
    %%%%%%%%%
    
    
    \chapter{Johdanto}\label{johd}
    
    
    Tämän tutkielman tavoitteena on muodostaa koneoppimisalgoritmi, jolla voidaan ennustaa yhdysvaltalaisten rikollisten rikoksen uusimisriskiä kausaalipäättelyä hyödyntävällä mallilla. Kausaalipäättelyä hyödyntämällä voimme rakentaa todennäköisyyslaskennallisen (probabilistic framework) kehyksen rikosten uusijoiden ennustamiseksi. Esitän tarvittavat merkinnät kappaleessa \emph{\nameref{kausaalimerk}} ja itse mallin tarkemmin kappaleessa \emph{\nameref{kausaalimalli}}.  
    
    Onngelma mallia selective labels.
    
    
    % https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/76171/omkm_2009_2.pdf
    % https://www.mass.gov/files/documents/2016/09/qx/bail-in-united-states-literature-review.pdf
    
    \section{Takuukäsittely prosessina}\label{pros}
    
    
    % Erilliset alakappaleet Suomen ja USAn eroista, johdantoon yleinen kuvaus
    Yhdysvalloissa voi päästä vapaaksi rahaa vastaan. Tuomari arvioi rikollisen rikoksen uusimismahdollisuuden ja tekee siitä päätökseen takuu (bail) asetetaan ja kun se maksaa, niin pääsee pois. Takuu maksetaan kun palaa oikeuteen väliajan jälkeen.
    
    Ongelmana  tässä on se, millä perustein tuomarit tekevät päätöksen bailille pääsemisestä on käynyt ilmi (linkkaa propublica), että vaikka he käyttävät yhdysvaltalaisen yhtiön North
    
    Vuokaavio oikeuskäsittelyn kulusta??
    
    
    \section{Yhteiskunnallinen merkitys}\label{ykmerk}
    
    
    \section{''Kausaalipäättely uutena paradigmana''}\label{para}
    
    
    Haluamme siiirtyä assosiatiivisesta päättelystä kausaalipäättelyyn,, koska defninitiiivesten pätöksin tekeminen muuten hankalaa. Lisäksi on ylitettävä korrelaatio ei ole kausaatiota -kynnys, erityisesti \cite{pearl10}.
    
    
    \chapter{Data}\label{data}
    
    
    Tässä luvussa kuvaillaan käytetyt datasetit ja niiden ominaispiirteet.
    
    
    \section{COMPAS}\label{compas}
    
    
    \section{Synteettinen}\label{synteettinen}
    
    
    Synteettinen data luodaan, kuten Lakkaraju selostaa \cite{lakkaraju17}. Ensinn koostettiina.
    
    
    \section{''Selective labels''}\label{sl}
    
    
    \chapter{Metodit}\label{metodit}
    
    
    Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni metodit.
    
    
    \section{Aiemmat tutkimukset}\label{aiemmat}
    
    
    Aiemmat tutkimukset ovat lähestyneeyt monesta näklökulmasta, mutta ilman kausaatiota.
    
    
    \section{Validointimetodit}\label{validointi}
    
    
    Ristiin taulukoinnit yms.
    
    
    \section{Kausaalipäättely}\label{kausaali}
    
    
    Erityisesti \cite{pearl10}
    
    
    \subsection{Johdanto}\label{kausaalijohd}
    
    
    \subsection{Merkinnät}\label{kausaalimerk}
    
    
    \subsection{Määritelmät}\label{kausaalimäär}
    
    
    
    \subsection{Malli}\label{kausaalimalli}
    
    
    
    \chapter{Tulokset}\label{tulokset}
    
    
    \section{Synteettinen}\label{synttulokset}
    
    
    \section{Compas}\label{compastulokset}
    
    \begin{maar}\label{tngenmaar}
    Jos $X$ on diskreetti satunnaismuuttuja, joka saa
    arvokseen luonnollisia lukuja, niin $X$:n \emph{todennäkäisyysgeneroiva 
    funktio} on
    \begin{equation}\label{genf}
    G_X(t)=\sum_{k=0}^\infty P(X=k) t^k=\sum_{k=0}^\infty p_k t^k.
    \end{equation}
    \end{maar}
    
    Mikäli $X$:n arvojoukko on äärellinen ja arvojoukon jäsenten todennäkäisyydet
    ovat nollasta poikkeavia, $G_X$ on määritelty kaikilla reaaliluvuilla
    $t$. Muutoin $G_X$ on määritelty ainoastaan niille $t\in\R$, joilla $G_X$
    suppenee. Koska pistetodennäkäisyydet $p_k=P(X=k)$ ovat ei-negatiivisia ja 
    summautuvat ykkäseksi, sarja suppenee ainakin suljetulla välillä $t\in[-1, 1]$.
    
    Generoiva funktio voidaan odotusarvon avulla ilmaista muodossa
    \begin{equation}\label{genvar}
    G_X(t) = E(t^X).
    \end{equation}
    
    \begin{lause}
    Jos $X$ on diskreetti satunnaismuuttuja, joka saa arvokseen
    luonnollisia lukuja, niin $X$:n todennäkäisyysgeneroiva funktio määrää $X$:n
    jakauman yksikäsitteisesti.
    \end{lause}
    
    \begin{proof}
    Koska määritelmän mukaan $G_X$ on ainakin välillä $[-1, 1]$ suppeneva
    potenssisarja, niin sillä on kaikkien kertalukujen derivaatat ainakin
    välillä $(-1, 1)$ ja
    \[
    p_k=\frac{G_X^{(k)}(0)}{k!},\quad k\in\N. 
    \]
    Tästä näemme, että $G_X$ määrää luvut $p_k$ ja täten $X$:n 
    jakauman yksikäsitteisesti.
    \end{proof}
    
    Seuraavaksi esittelemme tutuimpien diskreettien jakaumien todennäkäisyysgeneroivat
    funktiot. Jne\ldots
    
    
    \chapter{Diskussio}\label{diskussio}
    
    \begin{maar}\label{mommaar}
    Jos $X$ on satunnaismuuttuja ja odotusarvo $E(e^{tX})$
    on olemassa, kun $|t| < \delta$, $\delta > 0$, niin $X$:n \emph{momenttigeneroiva 
    funktio} on
    \begin{equation}\label{momf}
    M_X(t) = E(e^{tX}).
    \end{equation}
    \end{maar}
    
    Todennäkäisyys- ja momenttigeneroivilla funktioilla on seuraava yhteys:
    
    \begin{lause}
    Jos $X$ on diskreetti satunnaismuuttuja, jonka arvojoukko sisältyy
    joukkoon $\{0,1,2,\ldots\}$, niin 
    \[
    M_X(t) = G_X(e^t)
    \]
    edellyttäen, että $G_X$ on olemassa, kun $|t| < 1 + \delta$, $\delta > 0$.
    \end{lause}
    
    \begin{proof} Nyt
    \[
    M_X(t) = E(e^{tX}) = E((e^t)^X) = G_X(e^t).\qedhere
    \]
    \end{proof}
    
    Ja niin edelleen\ldots
    
    
    \nocite{*}
    
    \bibliographystyle{babplain}
    \bibliography{viitteet} 
    
    
    \begin{appendices}
    \chapter{Abstract in English}
    The contents...
    \end{appendices}