\documentclass[12pt,a4paper,leqno]{report} %\usepackage[ansinew]{inputenc} Vaihdettu paketti alla olevaan, jotta ääkköset toimii \usepackage[utf8]{inputenc} \usepackage[T1]{fontenc} \usepackage[finnish]{babel} \usepackage{amsthm} \usepackage{amsfonts} \usepackage{amsmath} \usepackage{amssymb} \usepackage{hyperref} \usepackage{url} \usepackage[toc]{appendix} \renewcommand{\appendixtocname}{Liitteet} \usepackage[nottoc]{tocbibind} % Löhteet sisällykseen %\usepackage[round,sort,comma]{natbib} % Natbib että harvard, ei toimi babelbibin kanssa \usepackage[fixlanguage]{babelbib} \selectbiblanguage{finnish} \newcommand{\R}{\mathbb{R}} \newcommand{\C}{\mathbb{C}} \newcommand{\Q}{\mathbb{Q}} \newcommand{\N}{\mathbb{N}} \newcommand{\No}{\mathbb{N}_0} \newcommand{\Z}{\mathbb{Z}} \newcommand{\diam}{\operatorname{diam}} \theoremstyle{plain} \newtheorem{lause}[equation]{Lause} \newtheorem{lem}[equation]{Lemma} \newtheorem{prop}[equation]{Propositio} \newtheorem{kor}[equation]{Korollaari} \theoremstyle{definition} \newtheorem{maar}[equation]{Määritelmä} \newtheorem{konj}[equation]{Konjektuuri} \newtheorem{esim}[equation]{Esimerkki} \theoremstyle{remark} \newtheorem{huom}[equation]{Huomautus} \pagestyle{plain} \setcounter{page}{1} \addtolength{\hoffset}{-1.15cm} \addtolength{\textwidth}{2.3cm} \addtolength{\voffset}{0.45cm} \addtolength{\textheight}{-0.9cm} \title{Kandidaatin tutkielma\\ {\Large Rikoksenuusinnan ennustaminen kausaalipäättelyllä}} % Parempi otsikko \author{Riku Laine\\ Valtiotieteellinen tiedekunta, Sosiaalitieteden laitos, Helsingin yliopisto} \date{\today} \begin{document} \maketitle \tableofcontents %%%%%%%%% \chapter{Esipuhe ja kiitokset}\label{epkiit} Tämä kandidaatin tutkielma on tehty yhteistyössä Helsingin yliopiston tietojenkäsittelytieteen osaston apulaisprofessorien $\leftarrow$ TARKISTA Michael Mathioudakiksen ja Antti Hyttisen kanssa. He tarjosivat minulle aiheen ja merkittävää tukea tämän tutkielman tekoon. Tämän tutkielman on tarkastanut XYZ. \\ \rightline{Helsingissä XX.XX.2019} %%%%%%%%% \chapter{Tiivistelmä - Kypsyysnäyte?}\label{tiiv} \emph{\nameref{johd}}-luvussa esittelen ongelman asettelun ja tilanteen yleisen viiitekeshyksen. Kskustelemme rikoksenuusinnan ennustamisesta yhdysvaltalaisessa oikeusjäjrestelmässä. Esitän kappaleessa yleisen kuvauksen takuukäsittelyn etenemisestä oikeusprosessina, jonka jälkeen pohdin hieman takuukäsittelyn yheiskunnallista merkitystä ja motivaatiota hyvään ennusteeseen. Kappaleen lopussa kirjoitan hieman kausaalipäättelystä uutena (?) paradigmana \cite{pearl10}. Kappaleessa \emph{\nameref{data}} esittelen käyttämäni datalähteet ja niiden ominaispiirteet. Esittelen kuinka COMPAS-datasetti (ref?) on luotu ja \emph{jotain muuta}. Esitän myös kuinka olen luonut analyyseissä myöhemmin käytetävän synteettisen datasetin hyödyntäen Lakkarajun vuoden 2017 julkaisua \cite{lakkaraju17}. \emph{\nameref{metodit}}-kappaleessa esitän käyttämäni mallit ja metodit. Esitän lyhyen katasauksen aikaisempaan kirjallisuuteen ja tukimuksiin tällä sovellusalalla. Käyn lisäksi läpi tässä tutkielmassa myöhemmin käytettäviä matemaattisia merkintöjä ja määritelmiä. Teen joitakin osoituksia ja osoitan kuinka mallimme ei riipu havaitsemattomista (unobservables) muuttujista. Luvussa \emph{\nameref{tulokset}} esitän algoritmillani saavuttamani tulokset ja vertailen niitä Lakkarajun \cite{lakkaraju17} saavuttamiin. Olen eritellyt erillisiin alalukuihin synteettisellä ja COMPAS-dataseteillä saavutetut tulokset. Viimeisessä kappaleessa \emph{\nameref{diskussio}} esitän mallien ja tutkielmani virhelähteet ja muut ongelmat sekä keskustelen tulosten mahdollisesta vaikutukseta, sikäli niitä sovellettaisiin sikäläisen oikeuslaitoksen toimintaan. %%%%%%%%% \chapter{Johdanto}\label{johd} Tämän tutkielman tavoitteena on muodostaa koneoppimisalgoritmi, jolla voidaan ennustaa yhdysvaltalaisten rikollisten rikoksen uusimisriskiä kausaalipäättelyä hyödyntävällä mallilla. Kausaalipäättelyä hyödyntämällä voimme rakentaa todennäköisyyslaskennallisen (probabilistic framework) kehyksen rikosten uusijoiden ennustamiseksi. Esitän tarvittavat merkinnät kappaleessa \emph{\nameref{kausaalimerk}} ja itse mallin tarkemmin kappaleessa \emph{\nameref{kausaalimalli}}. Onngelma mallia selective labels. % https://julkaisut.valtioneuvosto.fi/bitstream/handle/10024/76171/omkm_2009_2.pdf % https://www.mass.gov/files/documents/2016/09/qx/bail-in-united-states-literature-review.pdf \section{Takuukäsittely prosessina}\label{pros} % Erilliset alakappaleet Suomen ja USAn eroista, johdantoon yleinen kuvaus Yhdysvalloissa voi päästä vapaaksi rahaa vastaan. Tuomari arvioi rikollisen rikoksen uusimismahdollisuuden ja tekee siitä päätökseen takuu (bail) asetetaan ja kun se maksaa, niin pääsee pois. Takuu maksetaan kun palaa oikeuteen väliajan jälkeen. Ongelmana tässä on se, millä perustein tuomarit tekevät päätöksen bailille pääsemisestä on käynyt ilmi (linkkaa propublica), että vaikka he käyttävät yhdysvaltalaisen yhtiön North Vuokaavio oikeuskäsittelyn kulusta?? \section{Yhteiskunnallinen merkitys}\label{ykmerk} \section{''Kausaalipäättely uutena paradigmana''}\label{para} Haluamme siiirtyä assosiatiivisesta päättelystä kausaalipäättelyyn,, koska defninitiiivesten pätöksin tekeminen muuten hankalaa. Lisäksi on ylitettävä korrelaatio ei ole kausaatiota -kynnys, erityisesti \cite{pearl10}. %%%%%%%%% \chapter{Data}\label{data} Tässä luvussa kuvaillaan käytetyt datasetit ja niiden ominaispiirteet. \section{COMPAS}\label{compas} \section{Synteettinen}\label{synteettinen} Synteettinen data luodaan, kuten Lakkaraju selostaa \cite{lakkaraju17}. Ensinn koostettiina. \section{''Selective labels''}\label{sl} %%%%%%%%% \chapter{Metodit}\label{metodit} Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni metodit. \section{Aiemmat tutkimukset}\label{aiemmat} Aiemmat tutkimukset ovat lähestyneeyt monesta näklökulmasta, mutta ilman kausaatiota. \section{Validointimetodit}\label{validointi} Ristiin taulukoinnit yms. \section{Kausaalipäättely}\label{kausaali} Erityisesti \cite{pearl10} \subsection{Johdanto}\label{kausaalijohd} \subsection{Merkinnät}\label{kausaalimerk} \subsection{Määritelmät}\label{kausaalimäär} \subsection{Malli}\label{kausaalimalli} %%%%%%%%% \chapter{Tulokset}\label{tulokset} \section{Synteettinen}\label{synttulokset} \section{Compas}\label{compastulokset} \begin{maar}\label{tngenmaar} Jos $X$ on diskreetti satunnaismuuttuja, joka saa arvokseen luonnollisia lukuja, niin $X$:n \emph{todennäkäisyysgeneroiva funktio} on \begin{equation}\label{genf} G_X(t)=\sum_{k=0}^\infty P(X=k) t^k=\sum_{k=0}^\infty p_k t^k. \end{equation} \end{maar} Mikäli $X$:n arvojoukko on äärellinen ja arvojoukon jäsenten todennäkäisyydet ovat nollasta poikkeavia, $G_X$ on määritelty kaikilla reaaliluvuilla $t$. Muutoin $G_X$ on määritelty ainoastaan niille $t\in\R$, joilla $G_X$ suppenee. Koska pistetodennäkäisyydet $p_k=P(X=k)$ ovat ei-negatiivisia ja summautuvat ykkäseksi, sarja suppenee ainakin suljetulla välillä $t\in[-1, 1]$. Generoiva funktio voidaan odotusarvon avulla ilmaista muodossa \begin{equation}\label{genvar} G_X(t) = E(t^X). \end{equation} \begin{lause} Jos $X$ on diskreetti satunnaismuuttuja, joka saa arvokseen luonnollisia lukuja, niin $X$:n todennäkäisyysgeneroiva funktio määrää $X$:n jakauman yksikäsitteisesti. \end{lause} \begin{proof} Koska määritelmän mukaan $G_X$ on ainakin välillä $[-1, 1]$ suppeneva potenssisarja, niin sillä on kaikkien kertalukujen derivaatat ainakin välillä $(-1, 1)$ ja \[ p_k=\frac{G_X^{(k)}(0)}{k!},\quad k\in\N. \] Tästä näemme, että $G_X$ määrää luvut $p_k$ ja täten $X$:n jakauman yksikäsitteisesti. \end{proof} Seuraavaksi esittelemme tutuimpien diskreettien jakaumien todennäkäisyysgeneroivat funktiot. Jne\ldots %%%%%%%%% \chapter{Diskussio}\label{diskussio} \begin{maar}\label{mommaar} Jos $X$ on satunnaismuuttuja ja odotusarvo $E(e^{tX})$ on olemassa, kun $|t| < \delta$, $\delta > 0$, niin $X$:n \emph{momenttigeneroiva funktio} on \begin{equation}\label{momf} M_X(t) = E(e^{tX}). \end{equation} \end{maar} Todennäkäisyys- ja momenttigeneroivilla funktioilla on seuraava yhteys: \begin{lause} Jos $X$ on diskreetti satunnaismuuttuja, jonka arvojoukko sisältyy joukkoon $\{0,1,2,\ldots\}$, niin \[ M_X(t) = G_X(e^t) \] edellyttäen, että $G_X$ on olemassa, kun $|t| < 1 + \delta$, $\delta > 0$. \end{lause} \begin{proof} Nyt \[ M_X(t) = E(e^{tX}) = E((e^t)^X) = G_X(e^t).\qedhere \] \end{proof} Ja niin edelleen\ldots %%%%%%%%% \nocite{*} \bibliographystyle{babplain} \bibliography{viitteet} \begin{appendices} \chapter{Abstract in English} The contents... \end{appendices} \end{document}