diff --git a/Kandi.pdf b/Kandi.pdf
index 34398ebc2ce434f10f64985349ff03c757f454e9..2237236eea9472d28b2c7f9fa1641c29bad143a8 100644
Binary files a/Kandi.pdf and b/Kandi.pdf differ
diff --git a/Kandi.synctex.gz b/Kandi.synctex.gz
index 8838b6225ae4fddc272c136d443ab94b9ba3d3e7..c08c7a083bb34d3c67204c145a90ba061a9fa6a4 100644
Binary files a/Kandi.synctex.gz and b/Kandi.synctex.gz differ
diff --git a/Kandi.tex b/Kandi.tex
index 318cceeb38e13766ddce5dab76ac1a8821e09a38..85e6fa8c78cecea1bbd46299bede59b32cf2621c 100644
--- a/Kandi.tex
+++ b/Kandi.tex
@@ -17,6 +17,9 @@
 \usepackage[toc]{appendix}
 \renewcommand{\appendixtocname}{Liitteet}
 
+\usepackage{graphicx} % kuvat
+\graphicspath{ {./figures/} }
+
 \newcommand\independent{\protect\mathpalette{\protect\independenT}{\perp}} %riippumattomuus
 \def\independenT#1#2{\mathrel{\rlap{$#1#2$}\mkern2mu{#1#2}}}
 
@@ -29,14 +32,14 @@
 \usepackage{algorithmic}% http://ctan.org/pkg/algorithms
 \floatname{algorithm}{Algoritmi}
 \renewcommand{\algorithmicrequire}{\textbf{Syöte:}}
-\renewcommand{\algorithmicensure}{\textbf{Palauttaa:}}
+\renewcommand{\algorithmicensure}{\textbf{Tuloste:}}
 
 %\makeatletter
 %\renewcommand{\listalgorithmname}{List of \ALG@name s}
 %\makeatother
 
 \newcommand{\pr}{\mathbb{P}} % tn merkki
-\newcommand{\D}{\mathcal{D}} % data
+\newcommand{\D}{\mathcal{D}} % aineisto
 \newcommand{\s}{\mathcal{S}} % tn merkki
 
 \newcommand{\R}{\mathbb{R}}
@@ -95,16 +98,22 @@ Tämän tutkielman aikana on tullut esiin takuujärjestelmään liittyvät ongel
 
 Tämän tutkielman on tarkastanut XYZ. Haluan kiittää kaikkia edellä mainittuja henkilöitä sekä ystäviäni ja perhettäni, jotka tukivat minua tämän tutkielman tekemisessä. 
 
+\bigskip
 
-\rightline{Helsingissä XX.XX.2019}
+\rightline{Helsingissä \today}
 \rightline{Riku Laine}
 
+\bigskip
 
 \hrule
 
-I would like to wholeheartedly thank assistant professor Michael Mathioudakis from University of Helsinki's Department of Computer Science for numerous things. He provided me this extremely interesting thesis topic and provided insightful and encouraging comments throughout the process. Antti Hytiinen from the same department also gave important insight in the causal modelling.
+\bigskip
+
+\noindent I would like to wholeheartedly thank assistant professor Michael Mathioudakis from University of Helsinki's Department of Computer Science for numerous things. He provided me this extremely interesting thesis topic and provided insightful and encouraging comments throughout the process. Antti Hyttinen from the same department also gave important insight in the causal modelling and commented on the content.
 
 
+%%%%%%%%%
+%%%%%%%%%
 %%%%%%%%%
 
 \chapter{Tiivistelmä -- Kypsyysnäyte?}\label{tiiv}
@@ -113,14 +122,16 @@ I would like to wholeheartedly thank assistant professor Michael Mathioudakis fr
 
 \emph{\nameref{johd}}-luvussa esittelen ongelman asettelun ja tilanteen yleisen viitekehyksen. Keskustelemme rikoksenuusinnan ennustamisesta yhdysvaltalaisessa oikeusjärjestelmässä. Esitän kappaleessa yleisen kuvauksen takuukäsittelyn etenemisestä oikeusprosessina, jonka jälkeen pohdin hieman takuukäsittelyn yhteiskunnallista merkitystä ja motivaatiota hyvään ennusteeseen. Kappaleen lopussa kirjoitan hieman kausaalipäättelystä uutena tilastotieteellisenä paradigmana \cite{pearl10}.
 
-Kappaleessa \emph{\ref{data}} esittelen käyttämäni datalähteet ja niiden ominaispiirteet. Esitän COMPAS-tietojen ominaispiirteet ja \emph{jotain muuta}. Esitän myös kuinka olen luonut analyyseissä myöhemmin käytettävän datasetin mukaillen Lakkarajun vuoden 2017 konferenssijulkaisua \cite{lakkaraju17}. 
+Kappaleessa \emph{\ref{aineisto}} esittelen käyttämäni aineistolähteet ja niiden ominaispiirteet. Esitän COMPAS-tietojen ominaispiirteet ja \emph{jotain muuta}. Esitän myös kuinka olen luonut analyyseissä myöhemmin käytettävän aineistosetin mukaillen Lakkarajun vuoden 2017 konferenssijulkaisua \cite{lakkaraju17}. 
 
-\emph{\nameref{metodit}}-kappaleessa esitän käyttämäni mallit ja metodit. Teen lyhyen katsauksen aikaisempaan kirjallisuuteen ja tutkimuksiin tällä sovellusalalla. Käyn lisäksi läpi tässä tutkielmassa myöhemmin käytettäviä matemaattisia  sekä verkkoteoreettisia merkintöjä ja määritelmiä. Teen joitakin osoituksia ja osoitan kuinka mallimme ei riipu havaitsemattomista (unobservables) muuttujista. % Mallin robustius?
+\emph{\nameref{metodit}}-kappaleessa esitän käyttämäni mallit ja menetelmät. Teen lyhyen katsauksen aikaisempaan kirjallisuuteen ja tutkimuksiin tällä sovellusalalla. Käyn lisäksi läpi tässä tutkielmassa myöhemmin käytettäviä matemaattisia  sekä verkkoteoreettisia merkintöjä ja määritelmiä. Teen joitakin osoituksia ja osoitan kuinka mallimme ei riipu havaitsemattomista (unobservables) muuttujista. % Mallin robustius?
 
-Luvussa \emph{\ref{tulokset}} esitän algoritmillani saavuttamani tulokset ja vertailen niitä Lakkarajun \cite{lakkaraju17} saavuttamiin. Olen eritellyt erillisiin alalukuihin synteettisellä ja COMPAS-dataseteillä saavutetut tulokset.
+Luvussa \emph{\ref{tulokset}} esitän algoritmillani saavuttamani tulokset ja vertailen niitä Lakkarajun \cite{lakkaraju17} saavuttamiin. Olen eritellyt erillisiin alalukuihin synteettisellä ja COMPAS-aineistoseteillä saavutetut tulokset.
 
 Viimeisessä kappaleessa \emph{\nameref{diskussio}} esitän mallien ja tutkielmani virhelähteet ja muut ongelmat sekä keskustelen tulosten mahdollisesta vaikutuksesta, sikäli niitä sovellettaisiin sikäläisen oikeuslaitoksen toimintaan.
 
+%%%%%%%%%
+%%%%%%%%%
 %%%%%%%%%
 
 \chapter{Johdanto}\label{johd}
@@ -154,8 +165,9 @@ Kritiikkiä on esitetty molemmissa maissa osaltaan samoihin asioihin. Suomessa p
 \section{''Kausaalipäättely uutena paradigmana''}\label{para}
 
 % miksi halutaan siirtyä (frekventistisen/bayes-ppäättelyn ongelmat), edut, esiintyminen, erot, käyttö
+Kuten Pearl ja Mackenzie esittävät kirjassaan Miksi, ihmisillä on luontainen kausaalisen päättelyn taito \cite{miksi}. Tavalliset tilastollisen päättelyn menetelmät eivät tarjoa tapaa määritellä kausaalista yhteyttä: aineistosta voidaan päätellä erilaisia \emph{korrelaatioita}, mutta päättely B \emph{johtuu} A:sta vaatii uudenlaista näkökulmaa. Käytännön tutimuksessa tarve on olemassa erityisesti lääketieteen alalla, jossa halutaan tietää \emph{johtuuko} paraneminen annetusta suoraan annetusta hoidosta vai vaikuttaako läääke johonkin mittaamattomaan muutujaan, joka on suorassa kausaalisessa yhteydessä paranemisen kanssa. \textbf{Lisää lähteet ja tarkista!}
 
-Haluamme siirtyä assosiatiivisesta päättelystä kausaalipäättelyyn, koska definitiivisten päätöksien tekeminen muuten hankalaa. (Onko paraneminen seuraus lääkkeen käytöstä, nyt voimme sanoa vain että käyttäneillä on parempi ennusta. semantiikkaa vain?) Lisäksi on ylitettävä korrelaatio ei ole kausaliteettia -kynnys, erityisesti \cite{pearl10}.
+Syy-seuraussuhteen vahvuuden matemaattinen määrittely vaatii siis uutta lähestymistä todennäköisyyslaskennan merkintöihin. Pearl käyttää alkuperäisessä, englanninkielisessä kirjallisuudessa merkintää do ilmaisemaan interventiota. Merkinnällä halutaan erottaa tavanomainen ehdollinen todennäköisyys $\pr(Y|X=x)$ interventiosta, jossa asetamme muuttujan $X$ arvoon $x$: $\pr(Y|\text{do}(X=x)$. Kimmo Pietiläinen käyttää kirjan suomennoksessa käännöstä \emph{tee}, mutta seuraan tässä tutkielmassa Pearlin merkintöjä, ellen erikseen muuta mainitse \cite{miksi}. Esittelen käyttämäni merkinnät tarkemmin kappaleessa  \ref{kausaalimerk}.
 
 * Kausaalipäättely vaatii uutta laskentoa, \emph{do}-laskento (calculus), myös Miksi-kirjan käännöksen tee-laskento.
 * Päättely nojaa vahvasti / tarvitsee mallin, joka ilmaistaan (usein/aina) verkkona, josta voidaan suoraan lukea muuuttujien väliset riippuvuussuhteet.
@@ -165,51 +177,104 @@ Haluamme siirtyä assosiatiivisesta päättelystä kausaalipäättelyyn, koska d
 \section{Valikoitumisharha}\label{sl}
 % aiempaa tutkimusta, miten voidaan muissa tutkimuksissa tassoittaa -> Tässä tutkimkssa 
 
-Datassa on valikoitumisharha, mistä Lakkaraju käyttää termiä\emph{''selective labels''} \cite{lakkaraju17}. Datan harha johtuu luonnollisesti siitä, että rikoksen voi uusia vain, jos tuomari päättää vapauttaa takuita vastaan. Suorat päättelytavat -- \emph{counterfactual inference} -- ovat ongelmallisia siinä mielessä, että jne jne.
+aineistossa on valikoitumisharha, mistä Lakkaraju käyttää termiä\emph{''selective labels''} \cite{lakkaraju17}. aineiston harha johtuu luonnollisesti siitä, että rikoksen voi uusia vain, jos tuomari päättää vapauttaa takuita vastaan. Suorat päättelytavat -- \emph{counterfactual inference} -- ovat ongelmallisia siinä mielessä, että jne jne.
 
+
+%%%%%%%%%
+%%%%%%%%%
 %%%%%%%%%
 
-\chapter{Data}\label{data}
+\chapter{Aineistot}\label{aineisto}
 
-Tässä luvussa kuvaillaan käytetyt datasetit ja niiden ominaispiirteet.
+Tässä luvussa kuvaillaan käytetyt aineistot ja niiden ominaispiirteet.
 
 \section{COMPAS}\label{compas}
 
-Dataa broward Countysta
+aineistoa broward Countysta
+\begin{table}[h!]
+\centering
+\begin{tabular}{lrrrrrrrrrr}
+\hline \hline 
+ Muuttujan nimi    & $\bar{x}$ &  Keskihajonta &   Min &   25\% &   50\% &   75\% &   Max \\
+\hline \hline
+ age                  		&  34,5   &  11,7   &  18 &  25 &  31 &  42 &  96 \\
+ priors\_count            	&    3,25  &   4,74  &   0 &   0 &   1 &   4 &  38 \\ \hline
+ days\_b\_screening\_arrest &   -1,74  &   5,08  & -30 &  -1 &  -1 &  -1 &  30 \\
+ decile\_score            	&    4,42   &   2,84  &   1 &   2 &   4 &   7 &  10 \\
+ is\_recid                		&   0,484 &   0,500 &   0 &   0 &   0 &   1 &   1 \\ \hline
+ two\_year\_recid      		&    0,455  &   0,498 &   0 &   0 &   0 &   1 &   1 \\
+ length\_of\_stay        	&  14,6   &  46,7   &  -1 &   0 &   1 &   5 & 799 \\
+\hline \hline
+\end{tabular}
+\caption{COMPAS-aineiston muuttujien hajontalukuja}
+\label{table:1}
+\end{table}
 
 \section{Synteettinen}\label{synteettinen}
 
-Synteettinen data luotiin Lakkarajun artikkelissaan selostamalla tavalla \cite{lakkaraju17}. Dataan simuloitiin kolme muuttujaa $X$, $Z$, ja $W$. Näistä muuttujista $X$ vastaa informaatiota, joka on sekä mallin että tuomarin havaittavissa, eli informaatiota, joka on kirjattu oikeuden pöytäkirjoihin tai on kerättävissä muista rekistereistä, kuten vastaajan sukupuoli. Muuttujalla $Z$ kuvataan tietoa, jonka vain tuomari voi havaita: kuten Lakkaraju havainnollistaa, tällaista voi olla esimerkiksi tieto siitä, onko vastaajalla perhettä mukana oikeussalissa \cite{lakkaraju17}. $W$ on mallissa havainnollistamassa reaalimaailmaa. Muuttujalla esitämme datassa informaatiota, joka ei ole saatavilla päätöksentekijöille eikä mallille mutta vaikuttaa silti rikoksenuusimisriskiin. Datassa nämä ovat kaikki riippumattomia standardinormaalijakautuneita satunnaismuuttujia, eli $X, W, Z \sim N(0, 1) \independent$.
+Synteettinen aineisto luotiin Lakkarajun artikkelissaan selostamalla tavalla \cite{lakkaraju17}. aineistoan simuloitiin kolme muuttujaa $X$, $Z$, ja $W$. Näistä muuttujista $X$ vastaa informaatiota, joka on sekä mallin että tuomarin havaittavissa, eli informaatiota, joka on kirjattu oikeuden pöytäkirjoihin tai on kerättävissä muista rekistereistä, kuten vastaajan sukupuoli. Muuttujalla $Z$ kuvataan tietoa, jonka vain tuomari voi havaita: kuten Lakkaraju havainnollistaa, tällaista voi olla esimerkiksi tieto siitä, onko vastaajalla perhettä mukana oikeussalissa \cite{lakkaraju17}. $W$ on mallissa havainnollistamassa reaalimaailmaa. Muuttujalla esitämme aineistossa informaatiota, joka ei ole saatavilla päätöksentekijöille eikä mallille mutta vaikuttaa silti rikoksenuusimisriskiin. aineistossa nämä ovat kaikki riippumattomia standardinormaalijakautuneita satunnaismuuttujia, eli $X, W, Z \sim N(0, 1) \independent$.
 
 Yhdistämme henkilöt satunnaisesti kuhunkin $M = 500$ tuomariin, joista jokaiselle määritellään hyväksymisprosentti $r \in [0,1]$. Tuomarin hyväksymisprosentti määritetään ottamalla arvoja tasajakaumasta suljetulta väliltä [0,1; 0,9] ja sitten pyöristämällä ne 10 desimaalin tarkkuuteen. Tulosmuuttuja Y simuloidaan määrittämällä sen ehdollinen todennäköisyys seuraavasti: $\pr(Y=0|X, Z, W)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ+\beta_WW)\}}$, missä kertoimet $\beta_X$, $\beta_Z$ ja $\beta_W$ on asetettu arvoihin 1, 1 ja 0,2 vastaavassa järjestyksessä. \cite{lakkaraju17}
 
-Päätösmuuttujan $T$ ehdolinen todennäköisyys $\pr(T=0|X, Z)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ)\}} + \epsilon$ missä $\epsilon \sim N(0, 0,1)$ vastaa pientä määrää kohinaa. Henkilöltä $i$ kielletään takuut, eli $T_i=0$ jos muuttujan $T$ ehdollinen todennäköisyys on tuomarin $j$ suurimman $(1-r)\cdot 100\%$ joukossa. Lopuksi koulutusdata suodatettiin siten, että saatavissa oli vain yksilöt, jotka päästettiin vapaaksi $(T=1)$. \cite{lakkaraju17}
+Päätösmuuttujan $T$ ehdolinen todennäköisyys $\pr(T=0|X, Z)=\frac{1}{1+\text{exp}\{-(\beta_XX+\beta_ZZ)\}} + \epsilon$ missä $\epsilon \sim N(0, 0,1)$ vastaa pientä määrää kohinaa. Henkilöltä $i$ kielletään takuut, eli $T_i=0$ jos muuttujan $T$ ehdollinen todennäköisyys on tuomarin $j$ suurimman $(1-r)\cdot 100\%$ joukossa. Lopuksi koulutusaineisto suodatettiin siten, että saatavissa oli vain yksilöt, jotka päästettiin vapaaksi $(T=1)$. \cite{lakkaraju17}
+
+\begin{table}[h!]
+\centering
+\begin{tabular}{lrrrrrrrrrr}
+\hline \hline 
+Muuttuja           &  Keskiarvo &   Keskihajonta &   Minimi &   25\% &   50\% &   75\% &   Maksimi \\
+\hline
+ acceptanceRate\_R &         0.48 &           0.23 &     0.10 &  0.26 &  0.47 &  0.65 &      0.89 \\
+ X                &        -0.00 &           1.00 &    -4.66 & -0.67 & -0.00 &  0.67 &      3.83 \\
+ Z                &         0.01 &           1.00 &    -4.85 & -0.67 &  0.00 &  0.68 &      4.24 \\
+ W                &         0.01 &           1.00 &    -4.03 & -0.67 &  0.01 &  0.68 &      4.29 \\
+ result\_Y         &         0.50 &           0.50 &     0.00 &  0.00 &  0.00 &  1.00 &      1.00 \\
+ probabilities\_T  &         0.50 &           0.28 &    -0.34 &  0.28 &  0.50 &  0.72 &      1.30 \\
+ decision\_T       &         0.48 &           0.50 &     0.00 &  0.00 &  0.00 &  1.00 &      1.00 \\
+\hline
+\end{tabular}
+\caption{Synteettisen aineiston muuttujien hajontalukuja}
+\label{table:2}
+\end{table}
 
+%%%%%%%%%
+%%%%%%%%%
 %%%%%%%%%
 
-\chapter{Metodit}\label{metodit}
+\chapter{Menetelmät}\label{metodit}
 
-Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni metodit.
+Tässä kappaleessa selostan analyyseissa, mallinnuksessa ja validoinnissa käyttämäni menetelmät.
 
-\section{Aiemmat tutkimukset}\label{aiemmat}
+\section{Aiemmat tutkimukset?}\label{aiemmat}
 
-Aiemmat tutkimukset ovat lähestyneet monesta näkökulmasta, mutta ilman kausaatiota.
+Aiemmat tutkimukset ovat lähestyneet monesta näkökulmasta, mutta ilman kausaatiota. 
 
 \section{Validointimetodit}\label{validointi}
 
-Ristiin taulukoinnit yms.
+Tulosten arvioinnissa käytetään visuaalista tarkastelua ja XZY. Laskemme arvioista vapaaksi päässeiden uusijoiden suhteen kaikkiin tuomittuihin, eli niin sanotun virhesuhteen (failure rate).
 
 \section{Verkkoteoria}\label{verkot}
 
-Esitän tässä kappaleessa lyhyesti kaikki tarvittavat verkkoteoreettiset määritelmät, joita tulen hyödyntämään. Noudatan määritelmissä Oinosta \cite{oinonen16}.
+Esitän tässä kappaleessa lyhyesti kaikki tarvittavat verkkoteoreettiset määritelmät, joita tulen hyödyntämään. Nouaineiston määritelmissä Oinosta \cite{oinonen16}.
 
 % TiRan materiaalit??
 
+% Ota esimerkki verkko ja kirjoita siitä lyhyet havainnollistavat kommentit
+ 
+\begin{figure}[H]\label{full_model}
+\centering
+\includegraphics[scale = 0.5]{full_model}
+\caption{Esimerkkiverkko $G = (V, E)$, missä $V =  \{R, X, Z, T, Y\}$}
+\end{figure}
+
 \begin{maar}[Suunnattu verkko] \label{suun_verkko}
 
 \emph{Suunnattu verkko G} on pari $(V, E)$, missä $V \neq \emptyset$ on solmujen joukko ja $$E = \{(a, b) \in V \times V | \text{ solmusta } a \text{ on nuoli solmuun } b \} $$ on \emph{kaarien} joukko.
 
 \end{maar}
+
+\noindent Kuvassa \ref{full_model} näkyvässä verkossa esimerkiksi $(X, R) \in E$, mutta $(T, Z) \notin E$, koska solmusta $T$ ei ole nuolta solmuun $Z$. Lisäksi voidaan todeta, että kaarien joukkoon kuuluu yhdeksän järjestettyä paria ja solmujen joukko $V$ käsittää viisi alkiota, jotka on lueteltu kuvatekstissä.
+
 \begin{maar} % Lähtösolmu, maalisolmu, vierussolmu
 
 Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
@@ -238,12 +303,18 @@ Oletetaan, että $G = (V,E)$ on suunnattu verkko, jossa ei ole yhtään silmukka
 
 Oletetaan, että $G$ on yksinkertainen verkko ja $n \in \N, n \geq 1$. \\
 
-\noindent Verkon $G$ solmujen jono $v_1, \ldots, v_n$ on \emph{polku} solmusta $v_1$ solmuun $v_n$, jos jonon jokaisesta solmusta on kaari jonon seuraavaan solmuun. Polkua voidaan merkitä $a \leadsto b$. \\
+\noindent Verkon $G$ solmujen jono $v_1, \ldots, v_n$ on \emph{polku} solmusta $v_1$ solmuun $v_n$, jos jonon jokaisesta solmusta on kaari jonon seuraavaan solmuun. Polkua voidaan merkitä $v_1 \leadsto v_n$. \\
 
-\noindent Jos verkko $G$ on suunnattu verkko ja kaikki polun $a \leadsto b$ kaaret kulkevat kaarien suuntien mukaisesti, voidaan täsmentää, että polku $a \leadsto b$ on \emph{suunnattu polku}.
+\noindent Jos verkko $G$ on suunnattu verkko, $a, b \in V$ ja kaikki polun $a \leadsto b$ kaaret kulkevat kaarien suuntien mukaisesti, voidaan täsmentää, että polku $a \leadsto b$ on \emph{suunnattu polku}.
 
 \end{maar}
 
+\begin{maar} \label{sukulaisuus}
+
+Oletetaan, että $G=(V, E)$ on suunnattu verkko ja $a, b \in V$. \\
+
+\noindent Jos on olemassa suunnattu polku $a \leadsto b$, niin solmun $b$ sanotaan olevan solmun $a$ \emph{jälkeläinen}. Vastaavasti tällöin sanotaan solmun $a$ olevan solmun $b$ \emph{vanhempi}. 
+\end{maar}
 
 \section{Kausaalipäättely}\label{kausaali}
 
@@ -286,12 +357,12 @@ Oletetaan, että halutaan selvittää (satunnais)muuttujan X kausaalista vaikutu
 \caption{Kausaalialgoritmi} 		% give the algorithm a caption
 \label{causal_alg} 			% and a label for \ref{} commands later in the document
 \begin{algorithmic}[1] 		% enter the algorithmic environment
-\REQUIRE Data $(\mathbf{x}, t, y) \in \D_t, \D_v$ ja hyväksymisaste $r \in [0, 1]$, missä $\D_t$ on testidata ja $\D_v$ validointidata.
+\REQUIRE aineisto $(\mathbf{x}, t, y) \in \D_t, \D_v$ ja hyväksymisaste $r \in [0, 1]$, missä $\D_t$ on testiaineisto ja $\D_v$ validointiaineisto.
 \ENSURE $\pr(Y=0|\text{do}(R=r))$
 
-\STATE Määritä $f(x) = \pr(X=x)$ testidatasta.
-\STATE Ennusta vastetta $Y$ selittävillä muuttujilla $X$ käyttäen harjoitusdatan havaintoja, joilla $T=1$.
-\STATE  Määritä harjoitusdatan jokaiselle havainnolle $P(Y=0|X=x)$ käyttäen yllä olevaa mallia.
+\STATE Määritä $f(x) = \pr(X=x)$ testiaineistosta.
+\STATE Ennusta vastetta $Y$ selittävillä muuttujilla $X$ käyttäen harjoitusaineiston havaintoja, joilla $T=1$.
+\STATE  Määritä harjoitusaineiston jokaiselle havainnolle $P(Y=0|X=x)$ käyttäen yllä olevaa mallia.
 \STATE Järjestä havainnot nousevaan järjestykeen edellisen kohdan todennäköisyyksien mukaan.
 \STATE Alusta muuttuja \texttt{summa} = 0.
 \FORALL{Jokaiselle parametriavaruuden pisteelle}
@@ -307,6 +378,8 @@ Oletetaan, että halutaan selvittää (satunnais)muuttujan X kausaalista vaikutu
 \end{algorithmic}
 \end{algorithm}
 
+%%%%%%%%%
+%%%%%%%%%
 %%%%%%%%%
 
 \chapter{Tulokset}\label{tulokset}
@@ -321,12 +394,27 @@ Oletetaan, että halutaan selvittää (satunnais)muuttujan X kausaalista vaikutu
 
 
 
+%%%%%%%%%
+%%%%%%%%%
 %%%%%%%%%
 
 \chapter{Diskussio}\label{diskussio}
 
 
 
+\begin{verbatim} 
+# R-koodi, tulos sama
+library(igraph)
+library(causaleffect)
+# simplify = FALSE to allow multiple edges
+g <- graph.formula(X -+ R, X -+ D, X -+ Y, R -+ D , D -+ Y, D -+ Y, Y -+ D, simplify = FALSE)
+# Here the bidirected edge between X and Z is set to be unobserved in graph g
+# This is denoted by giving them a description attribute with the value "U"# The edges in question are the fourth and the fifth edge
+g <- set.edge.attribute(graph = g, name = "description", index = c(6,7), value = "U")
+
+res <- causal.effect("Y", "R", G = g)
+\end{verbatim}
+
 %%%%%%%%%
 
 %\nocite{*}
diff --git a/analysis_and_scripts/Bachelors_thesis_analyses.ipynb b/analysis_and_scripts/Bachelors_thesis_analyses.ipynb
index 3aea2990849d658541760c174e0166976eaa4c8a..ca077bb5c65e46bacb7b86610d8f26dc124ec8d7 100644
--- a/analysis_and_scripts/Bachelors_thesis_analyses.ipynb
+++ b/analysis_and_scripts/Bachelors_thesis_analyses.ipynb
@@ -7,7 +7,7 @@
    },
    "source": [
     "<h1>Table of Contents<span class=\"tocSkip\"></span></h1>\n",
-    "<div class=\"toc\"><ul class=\"toc-item\"><li><span><a href=\"#Data\" data-toc-modified-id=\"Data-1\"><span class=\"toc-item-num\">1&nbsp;&nbsp;</span>Data</a></span><ul class=\"toc-item\"><li><span><a href=\"#COMPAS-data\" data-toc-modified-id=\"COMPAS-data-1.1\"><span class=\"toc-item-num\">1.1&nbsp;&nbsp;</span>COMPAS data</a></span></li><li><span><a href=\"#Synthetic-data\" data-toc-modified-id=\"Synthetic-data-1.2\"><span class=\"toc-item-num\">1.2&nbsp;&nbsp;</span>Synthetic data</a></span></li></ul></li><li><span><a href=\"#Algorithms\" data-toc-modified-id=\"Algorithms-2\"><span class=\"toc-item-num\">2&nbsp;&nbsp;</span>Algorithms</a></span><ul class=\"toc-item\"><li><span><a href=\"#Contraction-algorithm\" data-toc-modified-id=\"Contraction-algorithm-2.1\"><span class=\"toc-item-num\">2.1&nbsp;&nbsp;</span>Contraction algorithm</a></span></li><li><span><a href=\"#Causal-model\" data-toc-modified-id=\"Causal-model-2.2\"><span class=\"toc-item-num\">2.2&nbsp;&nbsp;</span>Causal model</a></span></li></ul></li><li><span><a href=\"#Performance-comparison\" data-toc-modified-id=\"Performance-comparison-3\"><span class=\"toc-item-num\">3&nbsp;&nbsp;</span>Performance comparison</a></span><ul class=\"toc-item\"><li><span><a href=\"#Predictive-models\" data-toc-modified-id=\"Predictive-models-3.1\"><span class=\"toc-item-num\">3.1&nbsp;&nbsp;</span>Predictive models</a></span></li><li><span><a href=\"#Causal-model\" data-toc-modified-id=\"Causal-model-3.2\"><span class=\"toc-item-num\">3.2&nbsp;&nbsp;</span>Causal model</a></span></li><li><span><a href=\"#Visual-comparison\" data-toc-modified-id=\"Visual-comparison-3.3\"><span class=\"toc-item-num\">3.3&nbsp;&nbsp;</span>Visual comparison</a></span></li></ul></li></ul></div>"
+    "<div class=\"toc\"><ul class=\"toc-item\"><li><span><a href=\"#Data\" data-toc-modified-id=\"Data-1\"><span class=\"toc-item-num\">1&nbsp;&nbsp;</span>Data</a></span><ul class=\"toc-item\"><li><span><a href=\"#COMPAS-data\" data-toc-modified-id=\"COMPAS-data-1.1\"><span class=\"toc-item-num\">1.1&nbsp;&nbsp;</span>COMPAS data</a></span></li><li><span><a href=\"#Synthetic-data\" data-toc-modified-id=\"Synthetic-data-1.2\"><span class=\"toc-item-num\">1.2&nbsp;&nbsp;</span>Synthetic data</a></span></li></ul></li><li><span><a href=\"#Algorithms\" data-toc-modified-id=\"Algorithms-2\"><span class=\"toc-item-num\">2&nbsp;&nbsp;</span>Algorithms</a></span><ul class=\"toc-item\"><li><span><a href=\"#Contraction-algorithm\" data-toc-modified-id=\"Contraction-algorithm-2.1\"><span class=\"toc-item-num\">2.1&nbsp;&nbsp;</span>Contraction algorithm</a></span></li><li><span><a href=\"#Causal-model\" data-toc-modified-id=\"Causal-model-2.2\"><span class=\"toc-item-num\">2.2&nbsp;&nbsp;</span>Causal model</a></span></li></ul></li><li><span><a href=\"#Performance-comparison\" data-toc-modified-id=\"Performance-comparison-3\"><span class=\"toc-item-num\">3&nbsp;&nbsp;</span>Performance comparison</a></span><ul class=\"toc-item\"><li><span><a href=\"#Synthetic-data\" data-toc-modified-id=\"Synthetic-data-3.1\"><span class=\"toc-item-num\">3.1&nbsp;&nbsp;</span>Synthetic data</a></span><ul class=\"toc-item\"><li><span><a href=\"#Predictive-models\" data-toc-modified-id=\"Predictive-models-3.1.1\"><span class=\"toc-item-num\">3.1.1&nbsp;&nbsp;</span>Predictive models</a></span></li><li><span><a href=\"#Causal-model\" data-toc-modified-id=\"Causal-model-3.1.2\"><span class=\"toc-item-num\">3.1.2&nbsp;&nbsp;</span>Causal model</a></span></li><li><span><a href=\"#Visual-comparison\" data-toc-modified-id=\"Visual-comparison-3.1.3\"><span class=\"toc-item-num\">3.1.3&nbsp;&nbsp;</span>Visual comparison</a></span></li></ul></li><li><span><a href=\"#COMPAS-data\" data-toc-modified-id=\"COMPAS-data-3.2\"><span class=\"toc-item-num\">3.2&nbsp;&nbsp;</span>COMPAS data</a></span></li></ul></li></ul></div>"
    ]
   },
   {
@@ -36,7 +36,19 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
-      "(7214, 53)\n"
+      "(7214, 53)\n",
+      "['id' 'name' 'first' 'last' 'compas_screening_date' 'sex' 'dob' 'age'\n",
+      " 'age_cat' 'race' 'juv_fel_count' 'decile_score' 'juv_misd_count'\n",
+      " 'juv_other_count' 'priors_count' 'days_b_screening_arrest' 'c_jail_in'\n",
+      " 'c_jail_out' 'c_case_number' 'c_offense_date' 'c_arrest_date'\n",
+      " 'c_days_from_compas' 'c_charge_degree' 'c_charge_desc' 'is_recid'\n",
+      " 'r_case_number' 'r_charge_degree' 'r_days_from_arrest' 'r_offense_date'\n",
+      " 'r_charge_desc' 'r_jail_in' 'r_jail_out' 'violent_recid'\n",
+      " 'is_violent_recid' 'vr_case_number' 'vr_charge_degree' 'vr_offense_date'\n",
+      " 'vr_charge_desc' 'type_of_assessment' 'decile_score.1' 'score_text'\n",
+      " 'screening_date' 'v_type_of_assessment' 'v_decile_score' 'v_score_text'\n",
+      " 'v_screening_date' 'in_custody' 'out_custody' 'priors_count.1' 'start'\n",
+      " 'end' 'event' 'two_year_recid']\n"
      ]
     }
    ],
@@ -48,6 +60,8 @@
     "import scipy.stats as scs\n",
     "import seaborn as sns\n",
     "import numpy.random as npr\n",
+    "from sklearn.linear_model import LogisticRegression\n",
+    "from sklearn import tree\n",
     "\n",
     "%matplotlib inline\n",
     "\n",
@@ -58,7 +72,8 @@
     "compas_raw = pd.read_csv(\"../data/compas-scores-two-years.csv\")\n",
     "\n",
     "# Check dimensions, number of rows should be 7214\n",
-    "print(compas_raw.shape)"
+    "print(compas_raw.shape)\n",
+    "print(compas_raw.columns.values)"
    ]
   },
   {
@@ -85,7 +100,7 @@
     "    'two_year_recid', 'c_jail_in', 'c_jail_out'\n",
     "]]\n",
     "\n",
-    "# Subset values\n",
+    "# Subset values, see reasons in ProPublica methodology.\n",
     "compas = compas.query('days_b_screening_arrest <= 30 and \\\n",
     "                      days_b_screening_arrest >= -30 and \\\n",
     "                      is_recid != -1 and \\\n",
@@ -302,6 +317,7 @@
     }
    ],
    "source": [
+    "# Calculate length of stay\n",
     "out = pd.to_datetime(compas.c_jail_out, format=\"%Y-%m-%d %H:%M:%S\")\n",
     "in_ = pd.to_datetime(compas.c_jail_in, format=\"%Y-%m-%d %H:%M:%S\")\n",
     "\n",
@@ -313,7 +329,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 4,
+   "execution_count": 29,
    "metadata": {
     "scrolled": false
    },
@@ -511,7 +527,7 @@
        "      <th>c_jail_in</th>\n",
        "      <td>6172</td>\n",
        "      <td>6172</td>\n",
-       "      <td>2013-03-09 10:28:41</td>\n",
+       "      <td>2013-05-19 07:00:07</td>\n",
        "      <td>1</td>\n",
        "      <td>NaN</td>\n",
        "      <td>NaN</td>\n",
@@ -566,7 +582,7 @@
        "decile_score             6172    NaN                  NaN   NaN    4.4185   \n",
        "is_recid                 6172    NaN                  NaN   NaN  0.484446   \n",
        "two_year_recid           6172    NaN                  NaN   NaN   0.45512   \n",
-       "c_jail_in                6172   6172  2013-03-09 10:28:41     1       NaN   \n",
+       "c_jail_in                6172   6172  2013-05-19 07:00:07     1       NaN   \n",
        "c_jail_out               6172   6161  2013-09-14 05:58:00     3       NaN   \n",
        "length_of_stay           6172    NaN                  NaN   NaN   14.6228   \n",
        "\n",
@@ -587,7 +603,7 @@
        "length_of_stay            46.6935   -1    0    1    5  799  "
       ]
      },
-     "execution_count": 4,
+     "execution_count": 29,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -604,7 +620,7 @@
     "\n",
     "* Mean age is roughly 34.5 years ranging from 18 to 96\n",
     "* Defendants have an average of 3.2 priors (sd 4.7) and more than half have 1 or more prior.\n",
-    "* 48.4% have recidivated (or 45.5%?)"
+    "* 48.4% have recidivated in general and 45.5% recidivated within a two-year period following their arrest."
    ]
   },
   {
@@ -623,6 +639,25 @@
       "needs_background": "light"
      },
      "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "                          age  priors_count  days_b_screening_arrest  \\\n",
+      "age                      1.00          0.12                    -0.07   \n",
+      "priors_count             0.12          1.00                     0.02   \n",
+      "days_b_screening_arrest -0.07          0.02                     1.00   \n",
+      "decile_score            -0.40          0.45                     0.09   \n",
+      "length_of_stay           0.01          0.19                     0.06   \n",
+      "\n",
+      "                         decile_score  length_of_stay  \n",
+      "age                             -0.40            0.01  \n",
+      "priors_count                     0.45            0.19  \n",
+      "days_b_screening_arrest          0.09            0.06  \n",
+      "decile_score                     1.00            0.21  \n",
+      "length_of_stay                   0.21            1.00  \n"
+     ]
     }
    ],
    "source": [
@@ -630,34 +665,27 @@
     "    'age', 'priors_count', 'days_b_screening_arrest', 'decile_score',\n",
     "    'length_of_stay'\n",
     "]])\n",
-    "plt.show()"
+    "plt.show()\n",
+    "\n",
+    "print(compas[[\n",
+    "    'age', 'priors_count', 'days_b_screening_arrest', 'decile_score',\n",
+    "    'length_of_stay'\n",
+    "]].corr().round(2))"
    ]
   },
   {
-   "cell_type": "code",
-   "execution_count": 6,
+   "cell_type": "markdown",
    "metadata": {},
-   "outputs": [
-    {
-     "name": "stdout",
-     "output_type": "stream",
-     "text": [
-      "                length_of_stay  decile_score\n",
-      "length_of_stay        1.000000      0.207478\n",
-      "decile_score          0.207478      1.000000\n"
-     ]
-    }
-   ],
    "source": [
-    "# Correlation should be 0.2073297, but R uses n-1\n",
-    "# as denominator in variance. Reference:\n",
-    "# https://stackoverflow.com/questions/53404367/why-pearson-correlation-is-different-between-tensorflow-and-scipy\n",
-    "print(compas[['length_of_stay', 'decile_score']].corr())"
+    "**Notes:**\n",
+    "\n",
+    "* Some notable correlations: `age` and `decile_score` ($\\rho\\approx-0.40$, Spearman -0.44) and `decile_score` and `priors_count` ($\\rho\\approx0.45$, Spearman 0.44)\n",
+    "* Spearman correlation was for `length_of_stay` and `priors_count` 0.27 and for `length_of_stay` and `decile_score` 0.27"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 7,
+   "execution_count": 6,
    "metadata": {},
    "outputs": [
     {
@@ -685,7 +713,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 8,
+   "execution_count": 7,
    "metadata": {},
    "outputs": [
     {
@@ -705,7 +733,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 9,
+   "execution_count": 8,
    "metadata": {
     "scrolled": false
    },
@@ -737,7 +765,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 10,
+   "execution_count": 9,
    "metadata": {},
    "outputs": [
     {
@@ -750,7 +778,7 @@
       "Asian defendants: 0.50%\n",
       "Native American defendants: 0.18%\n",
       "---\n",
-      "Defendants of other ethnicity: 5.56%\n"
+      "Defendants of other race: 5.56%\n"
      ]
     }
    ],
@@ -761,12 +789,12 @@
     "print(\"Asian defendants: %.2f%%\" % (31 / 6172 * 100))\n",
     "print(\"Native American defendants: %.2f%%\" % (11 / 6172 * 100))\n",
     "print(\"---\")\n",
-    "print(\"Defendants of other ethnicity: %.2f%%\" % (343 / 6172 * 100))"
+    "print(\"Defendants of other race: %.2f%%\" % (343 / 6172 * 100))"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": 11,
+   "execution_count": 10,
    "metadata": {},
    "outputs": [
     {
@@ -778,7 +806,7 @@
        "Name: score_text, dtype: int64"
       ]
      },
-     "execution_count": 11,
+     "execution_count": 10,
      "metadata": {},
      "output_type": "execute_result"
     }
@@ -787,6 +815,28 @@
     "compas.score_text.value_counts()"
    ]
   },
+  {
+   "cell_type": "code",
+   "execution_count": 11,
+   "metadata": {},
+   "outputs": [
+    {
+     "data": {
+      "text/plain": [
+       "F    3970\n",
+       "M    2202\n",
+       "Name: c_charge_degree, dtype: int64"
+      ]
+     },
+     "execution_count": 11,
+     "metadata": {},
+     "output_type": "execute_result"
+    }
+   ],
+   "source": [
+    "compas.c_charge_degree.value_counts()"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": 12,
@@ -1287,7 +1337,7 @@
   },
   {
    "cell_type": "code",
-   "execution_count": 16,
+   "execution_count": 25,
    "metadata": {
     "scrolled": false
    },
@@ -1445,6 +1495,20 @@
      "name": "stdout",
      "output_type": "stream",
      "text": [
+      "\\begin{tabular}{lrrrrrrrr}\n",
+      "\\hline\n",
+      "                  &    Määrä &   Keskiarvo &   Keskihajonta &   Minimi &   25\\% &   50\\% &   75\\% &   Maksimi \\\\\n",
+      "\\hline\n",
+      " judgeID\\_J        & 50000.00 &       49.50 &          28.87 &     0.00 & 24.75 & 49.50 & 74.25 &     99.00 \\\\\n",
+      " acceptanceRate\\_R & 50000.00 &        0.48 &           0.23 &     0.10 &  0.26 &  0.47 &  0.65 &      0.89 \\\\\n",
+      " X                & 50000.00 &       -0.00 &           1.00 &    -4.66 & -0.67 & -0.00 &  0.67 &      3.83 \\\\\n",
+      " Z                & 50000.00 &        0.01 &           1.00 &    -4.85 & -0.67 &  0.00 &  0.68 &      4.24 \\\\\n",
+      " W                & 50000.00 &        0.01 &           1.00 &    -4.03 & -0.67 &  0.01 &  0.68 &      4.29 \\\\\n",
+      " result\\_Y         & 50000.00 &        0.50 &           0.50 &     0.00 &  0.00 &  0.00 &  1.00 &      1.00 \\\\\n",
+      " probabilities\\_T  & 50000.00 &        0.50 &           0.28 &    -0.34 &  0.28 &  0.50 &  0.72 &      1.30 \\\\\n",
+      " decision\\_T       & 50000.00 &        0.48 &           0.50 &     0.00 &  0.00 &  0.00 &  1.00 &      1.00 \\\\\n",
+      "\\hline\n",
+      "\\end{tabular}\n",
       "0    26137\n",
       "1    23863\n",
       "Name: decision_T, dtype: int64\n"
@@ -1575,6 +1639,7 @@
     "# Basic stats of the created data set.\n",
     "display(df.describe().T)\n",
     "\n",
+    "\n",
     "print(df.decision_T.value_counts())\n",
     "\n",
     "tab = df.groupby(['result_Y', 'decision_T']).size()\n",
@@ -1803,14 +1868,11 @@
    },
    "outputs": [
     {
-     "ename": "NameError",
-     "evalue": "name 'LogisticRegression' is not defined",
-     "output_type": "error",
-     "traceback": [
-      "\u001b[1;31m---------------------------------------------------------------------------\u001b[0m",
-      "\u001b[1;31mNameError\u001b[0m                                 Traceback (most recent call last)",
-      "\u001b[1;32m<ipython-input-19-e3446881b865>\u001b[0m in \u001b[0;36m<module>\u001b[1;34m\u001b[0m\n\u001b[0;32m      4\u001b[0m \u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0;32m      5\u001b[0m \u001b[1;31m# 2\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[1;32m----> 6\u001b[1;33m \u001b[0mlr_causal_result\u001b[0m \u001b[1;33m=\u001b[0m \u001b[0mLogisticRegression\u001b[0m\u001b[1;33m(\u001b[0m\u001b[0msolver\u001b[0m\u001b[1;33m=\u001b[0m\u001b[1;34m'lbfgs'\u001b[0m\u001b[1;33m)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0m\u001b[0;32m      7\u001b[0m \u001b[1;33m\u001b[0m\u001b[0m\n\u001b[0;32m      8\u001b[0m \u001b[1;31m# fit, reshape X to be of shape (n_samples, n_features)\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[1;33m\u001b[0m\u001b[0m\n",
-      "\u001b[1;31mNameError\u001b[0m: name 'LogisticRegression' is not defined"
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[0.13017179 0.1265672  0.12309921 0.12101056 0.11946303 0.1163152\n",
+      " 0.11309497 0.10995003]\n"
      ]
     }
    ],
@@ -1875,20 +1937,19 @@
     "\n",
     "Below we try to replicate the results obtained by Lakkaraju and compare their model's performance to the one of ours.\n",
     "\n",
-    "### Predictive models\n",
+    "### Synthetic data\n",
+    "\n",
+    "#### Predictive models\n",
     "\n",
     "Lakkaraju says that they used logistic regression to predict recidivism. We train the model using only *observed observations*, i.e. defendants that were granted bail and are in the train set. We then predict the probability of recidivism for all observations in the test data and attach it to our data set."
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 20,
    "metadata": {},
    "outputs": [],
    "source": [
-    "# import the class\n",
-    "from sklearn.linear_model import LogisticRegression\n",
-    "\n",
     "# instantiate the model (using the default parameters)\n",
     "logreg_machine = LogisticRegression(solver='lbfgs')\n",
     "\n",
@@ -1902,7 +1963,6 @@
     "\n",
     "test = test.assign(B_prob_0_machine=label_probabilities_machine[:, 0])\n",
     "\n",
-    "from sklearn import tree\n",
     "\n",
     "clf = tree.DecisionTreeClassifier()\n",
     "clf = clf.fit(train_labeled.X.values.reshape(-1, 1), train_labeled.result_Y)\n",
@@ -1916,12 +1976,12 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### Causal model"
+    "#### Causal model"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 21,
    "metadata": {},
    "outputs": [],
    "source": [
@@ -1932,16 +1992,45 @@
    "cell_type": "markdown",
    "metadata": {},
    "source": [
-    "### Visual comparison"
+    "#### Visual comparison"
    ]
   },
   {
    "cell_type": "code",
-   "execution_count": null,
+   "execution_count": 22,
    "metadata": {
     "scrolled": false
    },
-   "outputs": [],
+   "outputs": [
+    {
+     "data": {
+      "image/png": "\n",
+      "text/plain": [
+       "<Figure size 1008x576 with 1 Axes>"
+      ]
+     },
+     "metadata": {
+      "needs_background": "light"
+     },
+     "output_type": "display_data"
+    },
+    {
+     "name": "stdout",
+     "output_type": "stream",
+     "text": [
+      "[[0.00455433 0.         0.00457928 0.0325309 ]\n",
+      " [0.01821731 0.00044435 0.02232398 0.08002602]\n",
+      " [0.04359141 0.00479042 0.04865484 0.1223162 ]\n",
+      " [0.07221861 0.01473839 0.08414425 0.15354587]\n",
+      " [0.11581002 0.05490052 0.12821981 0.18998048]\n",
+      " [0.16525699 0.12254799 0.18488838 0.22511386]\n",
+      " [0.2192583  0.19818755 0.24556382 0.26740403]\n",
+      " [0.28106701 0.30799411 0.32398397 0.32856213]]\n",
+      "[0.13017179 0.1265672  0.12309921 0.12101056 0.11946303 0.1163152\n",
+      " 0.11309497 0.10995003]\n"
+     ]
+    }
+   ],
    "source": [
     "failure_rates = np.zeros((8, 4))\n",
     "\n",
@@ -1998,6 +2087,15 @@
    "source": [
     "Failure rates still too high. Order of curves now correct. Causal model calculates the wrong thing? "
    ]
+  },
+  {
+   "cell_type": "markdown",
+   "metadata": {},
+   "source": [
+    "### COMPAS data\n",
+    "\n",
+    "etc  etc"
+   ]
   }
  ],
  "metadata": {
diff --git a/analysis_and_scripts/Cox with interaction term and independent variables.ipynb b/analysis_and_scripts/Cox with interaction term and independent variables.ipynb
index 5023f029cd517355e9d5f1613add9d7b20577dec..0356d9ed09c2b25d6bc37bf91fbf3b7c0dcc88d5 100644
--- a/analysis_and_scripts/Cox with interaction term and independent variables.ipynb	
+++ b/analysis_and_scripts/Cox with interaction term and independent variables.ipynb	
@@ -1,5 +1,15 @@
 {
  "cells": [
+  {
+   "cell_type": "markdown",
+   "metadata": {
+    "toc": true
+   },
+   "source": [
+    "<h1>Table of Contents<span class=\"tocSkip\"></span></h1>\n",
+    "<div class=\"toc\"><ul class=\"toc-item\"><li><span><a href=\"#Cox-with-interaction-term\" data-toc-modified-id=\"Cox-with-interaction-term-1\"><span class=\"toc-item-num\">1&nbsp;&nbsp;</span>Cox with interaction term</a></span></li><li><span><a href=\"#Logistic-regression-without-two-year-recidivism-term\" data-toc-modified-id=\"Logistic-regression-without-two-year-recidivism-term-2\"><span class=\"toc-item-num\">2&nbsp;&nbsp;</span>Logistic regression without two year recidivism term</a></span></li><li><span><a href=\"#Unsmoothed-ROC-Curves\" data-toc-modified-id=\"Unsmoothed-ROC-Curves-3\"><span class=\"toc-item-num\">3&nbsp;&nbsp;</span>Unsmoothed ROC Curves</a></span></li></ul></div>"
+   ]
+  },
   {
    "cell_type": "code",
    "execution_count": 1,
@@ -24,9 +34,7 @@
   {
    "cell_type": "code",
    "execution_count": 2,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -159,9 +167,7 @@
   {
    "cell_type": "code",
    "execution_count": 3,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -199,9 +205,7 @@
   {
    "cell_type": "code",
    "execution_count": 4,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -273,9 +277,7 @@
   {
    "cell_type": "code",
    "execution_count": 5,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -296,9 +298,7 @@
   {
    "cell_type": "code",
    "execution_count": 6,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -326,9 +326,7 @@
   {
    "cell_type": "code",
    "execution_count": 7,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [],
    "source": [
     "%%R -w 900 -h 900 -u px\n",
@@ -351,9 +349,7 @@
   {
    "cell_type": "code",
    "execution_count": 8,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -391,9 +387,7 @@
   {
    "cell_type": "code",
    "execution_count": 9,
-   "metadata": {
-    "collapsed": false
-   },
+   "metadata": {},
    "outputs": [
     {
      "data": {
@@ -452,9 +446,51 @@
    "name": "python",
    "nbconvert_exporter": "python",
    "pygments_lexer": "ipython3",
-   "version": "3.5.2"
+   "version": "3.6.7"
+  },
+  "toc": {
+   "base_numbering": 1,
+   "nav_menu": {},
+   "number_sections": true,
+   "sideBar": true,
+   "skip_h1_title": true,
+   "title_cell": "Table of Contents",
+   "title_sidebar": "Contents",
+   "toc_cell": true,
+   "toc_position": {},
+   "toc_section_display": true,
+   "toc_window_display": true
+  },
+  "varInspector": {
+   "cols": {
+    "lenName": 16,
+    "lenType": 16,
+    "lenVar": 40
+   },
+   "kernels_config": {
+    "python": {
+     "delete_cmd_postfix": "",
+     "delete_cmd_prefix": "del ",
+     "library": "var_list.py",
+     "varRefreshCmd": "print(var_dic_list())"
+    },
+    "r": {
+     "delete_cmd_postfix": ") ",
+     "delete_cmd_prefix": "rm(",
+     "library": "var_list.r",
+     "varRefreshCmd": "cat(var_dic_list()) "
+    }
+   },
+   "types_to_exclude": [
+    "module",
+    "function",
+    "builtin_function_or_method",
+    "instance",
+    "_Feature"
+   ],
+   "window_display": false
   }
  },
  "nbformat": 4,
- "nbformat_minor": 0
+ "nbformat_minor": 1
 }
diff --git a/viitteet.bib b/viitteet.bib
index ca6527f094606c87d0e03d23ed6232e5bdc4415a..094a6f3667fa4f88eace8ac476843e2f628d378e 100644
--- a/viitteet.bib
+++ b/viitteet.bib
@@ -109,3 +109,14 @@
   note     = "Samannimisen kurssin kurssimateriaali",
   language={finnish}
 } 
+
+@book{miksi,
+  title = {Miksi : syyn ja seurauksen uusi tiede},
+  author = {Judea Pearl and Dana Mackenzie},
+  address = {Helsinki},
+  publisher = {Terra Cognita},
+  year = {2018},
+  isbn={978-952-5697-93-3},
+  note={Suomennos Kimmo Pietil{\"a}inen},
+  language={finnish}
+}