JOHDATUS TEKOÄLYYN TEEMU ROOS

Samankaltaiset tiedostot
JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN LUENTO 4.

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

JOHDATUS TEKOÄLYYN TEEMU ROOS

P(X = x T (X ) = t, θ) = p(x = x T (X ) = t) ei riipu tuntemattomasta θ:sta. Silloin uskottavuusfunktio faktorisoituu

Johdatus tn-laskentaan perjantai

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

1. TILASTOLLINEN HAHMONTUNNISTUS

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

a. (2 p) Selitä Turingin koe. (Huom. ei Turingin kone.) Minkälainen tekoäly on saavutettu, kun Turingin koe ratkaistaan?

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Todennäköisyyden ominaisuuksia

Johdatus tekoälyyn

Johdatus tekoälyyn

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

MAT Todennäköisyyslaskenta Tentti / Kimmo Vattulainen

Kokeessa piti vastata viiteen (5) tehtävään kuudesta (6). Jokaisen tehtävän maksimipistemäärä on 8.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

X X. Johdatus tekoälyyn. v=1 X O. Kevät 2016 T. Roos. v=1 v= 1 8) 9) 10) X X O X O O. v=1 13) 14) X X X O O X O O X O. v=1 v=1 v= 1.

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

031021P Tilastomatematiikka (5 op)

1. Kuusisivuista noppaa heitetään, kunnes saadaan silmäluku 5 tai 6. Olkoon X niiden heittojen lukumäärä, joilla tuli 1, 2, 3 tai 4.

Tilastollinen päättely, 10 op, 4 ov

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

TEEMU ROOS (KALVOT MUOKATTU PATRIK HOYERIN LUENTOMATERIAALISTA)

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

TODENNÄKÖISYYSLASKUN KERTAUS Peruskäsitteitä

4.0.2 Kuinka hyvä ennuste on?

Tilastotieteen aihehakemisto

TILASTOLLINEN OPPIMINEN

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

DBN Mitä sillä tekee? Dynaamisten Bayes-verkkojen määrittely aikasarja-analyysissä Janne Toivola

30A02000 Tilastotieteen perusteet

Gripenberg. MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi Tentti ja välikoeuusinta

Inversio-ongelmien laskennallinen peruskurssi Luento 7

P (X B) = f X (x)dx. xf X (x)dx. g(x)f X (x)dx.

P (A)P (B A). P (B) P (A B) = P (A = 0)P (B = 1 A = 0) P (B = 1) P (A = 1)P (B = 1 A = 1) P (B = 1)

Ilkka Mellin (2008) 1/5

1. laskuharjoituskierros, vko 4, ratkaisut

Laskuharjoitus 5. Mitkä ovat kuvan 1 kanavien kapasiteetit? Kuva 1: Kaksi kanavaa. p/(1 p) ) bittiä lähetystä kohti. Voidaan

6. laskuharjoitusten vastaukset (viikot 10 11)

Todennäköisyyslaskun kertaus. Vilkkumaa / Kuusinen 1

Mallintamisesta. Mallintamisesta

Sovellettu todennäköisyyslaskenta B

Ilkka Mellin Todennäköisyyslaskenta Osa 2: Satunnaismuuttujat ja todennäköisyysjakaumat Moniulotteiset satunnaismuuttujat ja jakaumat

T Luonnollisten kielten tilastollinen käsittely

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

l (φ; y) = l(θ(φ); y) Toinen derivaatta saadaan tulon derivaatan laskusäännöllä Uudelleenparametroidun mallin Fisherin informaatio on

Viikko 2: Ensimmäiset ennustajat Matti Kääriäinen

Juuri 10 Tehtävien ratkaisut Kustannusosakeyhtiö Otava päivitetty

3.1 Kaksiulotteinen satunnaisvektori ja sen jakauma

Muuttujien riippumattomuus

Mallipohjainen klusterointi

Luento KERTAUSTA Kaksiulotteinen jakauma Pisteparvi, Toyota Avensis -farmariautoja

JOHDATUS TEKOÄLYYN TEEMU ROOS

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

HY, MTO / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIa, syksy 2018 Harjoitus 3 Ratkaisuehdotuksia.

Käytetään satunnaismuuttujaa samoin kuin tilastotieteen puolella:

Miten hyvin mallit kuvaavat todellisuutta? Tarvitaan havaintoja.

1 Bayesin teoreeman käyttö luokittelijana

8.1 Ehdolliset jakaumat

JOHDATUS TEKOÄLYYN TEEMU ROOS

Mat Sovellettu todennäköisyyslasku. Aiheet: Todennäköisyyslaskennan peruskäsitteet Todennäköisyyslaskennan peruslaskusäännöt Avainsanat:

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Jos nyt on saatu havaintoarvot Ü ½ Ü Ò niin suurimman uskottavuuden

Mat Tilastollisen analyysin perusteet, kevät 2007

Bayesilainen päätöksenteko / Bayesian decision theory

Moniulotteiset satunnaismuuttujat ja jakaumat

Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 4 Ratkaisuehdotuksia. Tehtäväsarja I

Todennäköisyyslaskennan ja tilastotieteen peruskurssi Esimerkkikokoelma 3

MS-A0502 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

1. Matkalla todennäköisyyteen

Miten voidaan arvioida virheellisten komponenttien osuutta tuotannossa? Miten voidaan arvioida valmistajan kynttilöiden keskimääräistä palamisaikaa?

805306A Johdatus monimuuttujamenetelmiin, 5 op

Tässä luvussa mietimme, kuinka paljon aineistossa on tarpeellista tietoa Sivuamme kysymyksiä:

SGN-2500 Johdatus hahmontunnistukseen 2007 Luennot 4 ja 5

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

χ = Mat Sovellettu todennäköisyyslasku 11. harjoitukset/ratkaisut

Mat Sovellettu todennäköisyyslasku A

Kurssilla esitetään lyhyt katsaus niihin todennäköisyyden ja satunnaisprosessien peruskäsitteisiin ja -ominaisuuksiin, joita tarvitaan digitaalisten

T Luonnollisen kielen tilastollinen käsittely Vastaukset 3, ti , 8:30-10:00 Kollokaatiot, Versio 1.1

Määritelmä 3.1 (Ehdollinen todennäköisyys) Olkoot A ja B otosavaruuden Ω tapahtumia. Jos P(A) > 0, niin tapahtuman B ehdollinen todennäköisyys

1. TODENNÄKÖISYYSJAKAUMIEN ESTIMOINTI

Johdatus todennäköisyyslaskentaan Moniulotteiset satunnaismuuttujat ja todennäköisyysjakaumat. TKK (c) Ilkka Mellin (2005) 1

Bayes-mallinnus siltana teorian ja empiirisen evidenssin välillä

FoA5 Tilastollisen analyysin perusteet puheentutkimuksessa. 6. luento. Pertti Palo

Väliestimointi (jatkoa) Heliövaara 1

Mat Sovellettu todennäköisyyslasku A. Moniulotteiset jakaumat. Avainsanat:

Reaalilukuvälit, leikkaus ja unioni (1/2)

Tehtävät. 1. Ratkaistava epäyhtälöt. a) 2(4 x) < 12, b) 5(x 2 4x + 3) < 0, c) 3 2x 4 > 6. 1/10. Sukunimi (painokirjaimin)

Mallin arviointi ja valinta. Ennustevirhe otoksen sisällä, parametrimäärän valinta, AIC, BIC ja MDL

c) A = pariton, B = ainakin 4. Nyt = silmäluku on5 Koska esim. P( P(A) P(B) =, eivät tapahtumat A ja B ole riippumattomia.

sin(x2 + y 2 ) x 2 + y 2

Osa 1: Todennäköisyys ja sen laskusäännöt

Transkriptio:

JOHDATUS TEKOÄLYYN TEEMU ROOS

PINGVIINI(tweety) :- true. Wulffmorgenthaler HS 14.9.2012

TODENNÄKÖISYYS (TN) EHDOLLINEN TN: P(B A) B:N TODENNÄKÖISYYS, KUN TIEDETÄÄN, ETTÄ A B:N EHDOLLINEN TN ANNETTUNA A P(B A) = P(A, B) / P(A), KUN P(A) > 0 P(A, B) = P(A) _P(B A)

TODENNÄKÖISYYS (TN) 1. P(A, B) = P(A) P(B A) = P(B) P(A B) // KETJUSÄÄNTÖ 2. P(A,B,C) = P(A, B) P(C A, B) = P(A) P(B A) P(C A, B) // KETJUSÄÄNTÖ 3. P(A) = P(A, B) + P(A, B) // MARGINALISOINTI 4. P(A B) = P(A, B) / P(B) // EHDOLLINEN TN. 5. A B P(A B) = P(A) // RIIPPUMATTOMUUS 6. A B C P(A B, C) = P(A C) // EHDOLLINEN RIIPPUMATTOMUUS 7. P(B A) = P(B) P(A B) / P(A) // BAYESIN KAAVA

TODENNÄKÖISYYS (TN) SATUNNAISMUUTTUJA (SM), ESIM. NOPAN SILMÄLUKU, ON MUUTTUJA, JONKA ARVO MÄÄRÄYTYY ALKEIS- TAPAHTUMAN PERUSTEELLA SM X ON ALKEISTAPAHTUMAN FUNKTIO X : Ω X(Ω). X(Ω) ON X:N ARVOJOUKKO: X(ω) X(Ω) KAIKILLA ω Ω ESIM. KAHDEN NOPAN HEITOSSA ALKEISTAPAHTUMIEN JOUKKO ON Ω = {(m,n) m,n {1,2,3,4,5,6}} SILMÄLUKUJEN SUMMA: ω = (m,n) X(ω) = m+n X(Ω) = {2,3,4,5,6,7,8,9,10,11,12}

TODENNÄKÖISYYS (TN) MUUTTUJAN NIMET ISOLLA ARVOT PIENELLÄ SATUNNAISMUUTTUJIEN AVULLA VOIDAAN MÄÄRITELLÄ UUSIA TAPAHTUMIA: A = X=x B = X<4 C = X=x,Y<5 D = X>Y ESIM. KAHDEN NOPAN HEITOSSA ALKEISTAPAHTUMIEN JOUKKO ON Ω = {(m,n) m,n {1,2,3,4,5,6}} SILMÄLUKUJEN SUMMA: ω = (m,n) X(ω) = m+n X(Ω) = {2,3,4,5,6,7,8,9,10,11,12}

TODENNÄKÖISYYS (TN) SATUNNAISMUUTTUJIEN AVULLA VOIDAAN MÄÄRITELLÄ UUSIA TAPAHTUMIA: A = X=x B = X<4 C = X=x,Y<5 D = X>Y MUUTTUJILLA ON JAKAUMA: P X = (P(X=2),P(X=3),P(X=4),...,P(X=12)) =(1/36, 2/36, 3/36, 4/36, 5/36, 6/36, 5/36, 4/36, 3/36, 2/36, 1/36) ESIM. KAHDEN NOPAN HEITOSSA ALKEISTAPAHTUMIEN JOUKKO ON Ω = {(m,n) m,n {1,2,3,4,5,6}} SILMÄLUKUJEN SUMMA: ω = (m,n) X(ω) = m+n X(Ω) = {2,3,4,5,6,7,8,9,10,11,12}

MUUTTUJAT VS TAPAHTUMAT TAPAHTUMIEN LASKUSÄÄNNÖT, KUTEN KETJUSÄÄNTÖ, PÄTEVÄT MYÖS MUUTTUJIEN AVULLA MÄÄRITELTYIHIN TAPAHTUMIIN ESIM. P(X=x, Y=y) = P(X=x) P(Y=y X=x) x,y USEIN LYHENNETÄÄN P(x,y) = P(x) P(y x) x,y

BAYES?

BAYES? P(B A) = P(B) P(A B) / P(A) P(tila havainto) = P(tila) P(havainto tila) / P(havainto)

BAYES? P(B A) = P(B) P(A B) / P(A) P(tila havainto) = P(tila) P(havainto tila) / P(havainto)

BAYES? P(B A) = P(B) P(A B) / P(A) P(tila havainto) = P(tila) P(havainto tila) / P(havainto)

BAYES? P(B A) = P(B) P(A B) / P(A) P(tila havainto) = P(tila) P(havainto tila) / P(havainto) POSTERIORI PRIORI USKOTTAVUUS ÄRSYTTÄVÄ NIMITTÄJÄ

BAYES? P(B A) = P(B) P(A B) / P(A) P(tila havainto) = P(tila) P(havainto tila) / P(havainto) P(tila havainto) = P(tila) P(havainto tila) C

BAYES? P(B A) = P(B) P(A B) / P(A) P(tila havainto) = P(tila) P(havainto tila) / P(havainto) P(tila havainto) = P(tila) P(havainto tila) C

BAYES? P(B A) = P(B) P(A B) / P(A) P(tila havainto) = P(tila) P(havainto tila) / P(havainto) P(tila havainto) = P(tila) P(havainto tila) C P(tila h1,h2) = P(tila h1) P(h2 tila,h1) C P(tila h1,h2,h3) = P(tila h1,h2) P(h3 tila,h1,h2) C ERITYISEN KÄTEVÄÄ, JOS havainnot RIIPPUMATTOMIA TOISISTAAN ANNETTUNA tila: P(h2 tila,h1) = P(h2 tila), P(h3 tila,h1,h2) = P(h3 tila), jne.

BAYES? P(B A) = P(B) P(A B) / P(A) P(tila havainto) = P(tila) P(havainto tila) / P(havainto) P(tila havainto) = P(tila) P(havainto tila) C P(tila h1,h2) = P(tila h1) P(h2 tila,h1) C P(tila h1,h2,h3) = P(tila h1,h2) P(h3 tila,h1,h2) C = P(tila) P(h1 tila) P(h2 tila) P(h3 tila) C ERITYISEN KÄTEVÄÄ, JOS havainnot RIIPPUMATTOMIA TOISISTAAN ANNETTUNA tila: P(h2 tila,h1) = P(h2 tila), P(h3 tila,h1,h2) = P(h3 tila), jne.

BAYES? P(tila havainto) = P(tila) P(havainto tila) / P(havainto) Tila {sairas,terve} Havainto {pos,neg} // potilas sairas tai terve // testi positiivinen tai negatiivinen P(sairas) = 0.001 P(terve) = _0.999_ P(pos sairas) = 0.9 P(pos terve) = 0.01 P(neg sairas) = _0.1_ P(neg terve) = _0.99_ P(sairas pos) = ~8 %

SEURAAVAKSI TODENNÄKÖISYYSMALLINNUS SPAM-SUODATIN BAYES-VERKOT AKKU SPAM/HAM RADIO SYTYTYS BENSA KÄYNISTYY LIIKKUU SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7

KUINKA RIKASTUA

NAIVI BAYES FROM: "MARGARETTA NITA" <MARGUERITESEBRINA@WMLE.COM> SUBJECT: SPECIAL OFFER : VIAGRA ON SALE AT $1.38 X-BOGOSITY: YES, TESTS=BOGOFILTER, SPAMICITY=0.99993752, VERSION=2011-08-29 DATE: MON, 26 SEP 2011 21:52:26 +0300 X-CLASSIFICATION: JUNK - AD HOC SPAM DETECTED (CODE = 73) SPECIAL OFFER : VIAGRA ON SALE AT $1.38 COMPARE THE BEST ONLINE PHARMACIES TO BUY VIAGRA. ORDER VIAGRA ONLINE WITH HUGE DISCOUNT. MULTIPLE BENEFITS INCLUDE FREE SHIPPING, REORDER DISCOUNTS, BONUS PILLS HTTP://RXPHARMACYCVS.RU

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 ROSKAPOSTISUODATIN: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1, LUOKITTELE VIESTI HAMIKSI

NAIVI BAYES SPAM/HAM SANA 1 P(SANA i =viagra ham) = 0.0001 P(SANA i =viagra spam) = 0.002 TN, ETTÄ YKSITTÄINEN SANA = viagra.

NAIVI BAYES SPAM/HAM SANA 1 P(SANA i = $ ham) = 0.0002 P(SANA i = $ spam) = 0.005

NAIVI BAYES SPAM/HAM EHDOLLINEN RIIPPUMATTOMUUS SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7

NAIVI BAYES MUUTTUJAT: 1. LUOKKA: spam/ham 2. SANA 1 3. SANA 2 4.... JAKAUMAT: P(LUOKKA=spam) = 0.5 P(SANA i =viagra spam)=0.002 P(SANA i =viagra ham)=0.0001 P(SANA i =$ spam)=0.005 P(SANA i =$ ham)=0.0002 P(SANA i =is spam)=0.002 P(SANA i =is ham)=0.002 P(SANA i =algorithm spam)=0.0001 P(SANA i =algorithm ham)=0.002 JNE...

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) BAYESIN KAAVA

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) P(SANA 1 =viagra) = P(spam) P(SANA 1 =viagra spam) + P(ham) P(SANA 1 =viagra ham)

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) 3. P(spam SANA 1 =viagra, SANA 2 =is) P(spam) P(SANA 1 =viagra, SANA 2 =is spam) = -------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is) 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm)

NAIVI BAYES PÄÄTTELY: 1. P(spam) = 0.5 P(spam) P(SANA 1 =viagra spam) 2. P(spam SANA 1 =viagra) =-------------------------------------------------- P(SANA 1 =viagra) 3. P(spam SANA 1 =viagra, SANA 2 =is) P(spam) P(SANA 1 =viagra, SANA 2 =is spam) = -------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is) KAKSI NIKSIÄ 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) = P(spam, SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) + P(ham, SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(evidenssi) = P(spam, evidenssi) // MARGINALISOINTI + P(ham, evidenssi)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(evidenssi) = P(spam, evidenssi) // MARGINALISOINTI + P(ham, evidenssi) P(spam)P(evidenssi spam) P(spam evidenssi) =---------------------------------------------------------- P(spam, evidenssi)+p(ham, evidenssi) P(ham)P(evidenssi ham) P(ham evidenssi) =---------------------------------------------------------- P(spam, evidenssi)+p(ham, evidenssi)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(evidenssi) = P(spam, evidenssi) // MARGINALISOINTI + P(ham, evidenssi) P(spam)P(evidenssi spam) P(spam evidenssi) =---------------------------------------------------------- P(spam, evidenssi)+p(ham, evidenssi) P(ham)P(evidenssi ham) P(ham evidenssi) =---------------------------------------------------------- P(spam, evidenssi)+p(ham, evidenssi)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(evidenssi) = P(spam, evidenssi) // MARGINALISOINTI + P(ham, evidenssi) P(spam evidenssi) P(ham evidenssi) = P(spam)P(evidenssi spam) P(ham)P(evidenssi ham)

NAIVI BAYES #1 PÄÄTTELY: 4. P(spam SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(spam) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) =--------------------------------------------------------------------------------------- P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm) P(evidenssi) P(S E) P(S)P(E S) = P(spam, evidenssi) // MARGINALISOINTI ------------- = -------------------- + P(ham, evidenssi) P( S E) P( S)P(E S) P(spam evidenssi) P(ham evidenssi) = P(spam)P(evidenssi spam) P(ham)P(evidenssi ham)

NAIVI BAYES #2 PÄÄTTELY: P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) = P(SANA 1 =viagra spam) // KETJUSÄÄNTÖ P(SANA 2 =is SANA 1 =viagra,spam) P(SANA 3 =algorithm SANA 1 =viagra,sana 2 =is,spam)

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) = P(SANA 1 =viagra spam) // KETJUSÄÄNTÖ P(SANA 2 =is SANA 1 =viagra,spam) P(SANA 3 =algorithm SANA 1 =viagra,sana 2 =is,spam) // RIIPPUMATTOMUUS

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) = P(SANA 1 =viagra spam) // KETJUSÄÄNTÖ P(SANA 2 =is spam) P(SANA 3 =algorithm spam)

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm spam) = P(SANA 1 =viagra spam) P(S E) // KETJUSÄÄNTÖ P(S)P(E S) P(SANA 2 =is spam) ------------- = -------------------- P(SANA 3 =algorithm spam) P( S E) P( S)P(E S) P(SANA 1 =viagra, SANA 2 =is, SANA 3 =algorithm ham) = P(SANA 1 =viagra ham) // KETJUSÄÄNTÖ P(SANA 2 =is ham) P(SANA 3 =algorithm ham)

SPAM/HAM NAIVI BAYES #2 SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PÄÄTTELY: P(spam evidenssi)/p(ham evidenssi) = P(spam) / P(ham) P(SANA 1 =viagra spam) / P(SANA 1 =viagra ham) P(SANA 2 =is spam) / P(SANA 2 =is ham) P(SANA 3 =algorithm spam) / P(SANA 3 =algorithm ham)...... OSAMÄÄRÄ... > 1 => LUOKITTELE: SPAM < 1 => LUOKITTELE: HAM >1 =1 <1

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 YHTEENVETO TOISTAISEKSI: TARVITAAN: - PRIORIJAKAUMA P(spam) = 0. - LUOKKAEHDOLLISET JAKAUMAT P(SANA i =viagra spam)=0. P(SANA i =viagra ham)=0. P(SANA i =is spam) = 0. P(SANA i =is ham)=0. P(SANA i =algorithm spam) = 0. P(SANA i =algorithm ham)=0. OLETETAAN ETTÄ P(SANA i SANA j, spam) = P(SANA i spam) (EHDOLLINEN RIIPPUMATTOMUUS) OLENNAISTA ON OSAMÄÄRÄ (OTETAAN NÄIDEN TULO) P(SANA i =viagra spam) ------------------------------------------ P(SANA i =viagra ham)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) PÄÄTTELY: P(spam EVIDENSSI)/P(ham EVIDENSSI) = P(spam) / P(ham) P(SANA 1 =viagra spam) / P(SANA 1 =viagra ha P(SANA 2 =is spam) / P(SANA 2 =is ham) P(SANA 3 =algorithm spam) / P(SANA 3 =algorit

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) PÄÄTTELY: P(spam EVIDENSSI)/P(ham EVIDENSSI) = P(spam) / P(ham) P(SANA 1 =viagra spam) / P(SANA 1 =viagra ha P(SANA 2 =is spam) / P(SANA 2 =is ham) P(SANA 3 =algorithm spam) / P(SANA 3 =algorit

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1, LUOKITTELE VIESTI HAMIKSI JOS SPAMICITY(Viesti, P) =1, EN TIEDÄ

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) JOS SPAMICITY(Viesti, P) >1+α, LUOKITTELE VIESTI SPAMIKSI JOS SPAMICITY(Viesti, P) <1-β, LUOKITTELE VIESTI HAMIKSI MUUTEN, EN TIEDÄ Epäsymmetrinen kustannusfunktio: Asiallisen viestin luokittelu spamiksi pahempi virhe kuin toisin päin

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): LOG(A*B) = LOG(A) + LOG(B) Odds = P.Spam / P.noSpam for each Sana in Viesti Odds = Odds * P.Sana_Spam(Sana) /P.Sana_noSpam(Sana) return(odds) KÄYTÄNNÖN ONGELMA: ALI- JA YLIVUODOT Odds ARVOSTA TULEE HELPOSTI LIIAN PIENI (LÄHELLÄ NOLLAA) TAI LIIAN SUURI. RATKAISU: KÄYTÄ log(odds)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PSEUDOKOODINA: SPAMICITY(Viesti, P): LOG(A*B) = LOG(A) + LOG(B) logodds = log(p.spam / P.noSpam) for each Sana in Viesti logodds = logodds + log(p.sana_spam(sana) / P.Sana_noSpam(Sana)) return(exp(logodds)) KÄYTÄNNÖN ONGELMA: ALI- JA YLIVUODOT Odds ARVOSTA TULEE HELPOSTI LIIAN PIENI (LÄHELLÄ NOLLAA) TAI LIIAN SUURI. RATKAISU: KÄYTÄ log(odds)

SPAM/HAM NAIVI BAYES SANA 1 SANA 2 SANA 3 SANA 4 SANA 6 SANA 7 PARAMETRIEN OPPIMISESTA VAIKEA KEKSIÄ PÄÄSTÄ EHDOLLISIA TN:IÄ. HUONOT ARVOT HUONONTAVAT FILTTERIN TOIMINTAA PAREMPI RATKAISU: 1. KERÄÄ ISO KASA SPAM-VIESTEJÄ 2. KERÄÄ ISO KASA HAM-VIESTEJÄ 3. ARVIOI P(SANA i = ) = 0. LASKEMALLA DATASTA (VRT. LASKUHARJ.) VAROTTAVA NOLLATODENNÄKÖISYYKSIÄ (JOS KASA EI TARPEEKSI ISO, JOTKUT SANAT EIVÄT VAIN SATU ESIINTYMÄÄN SIINÄ.)

ESIM.

ESIM.

ESIM. SPAM HAM 1 MONEY... 5 VIAGRA... 10 IS... 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM... 62 MONEY... 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

ESIM. SPAM HAM 1 MONEY... 5 VIAGRA... 10 IS... 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM... 62 MONEY... 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

ESIM. SPAM HAM 1 MONEY... 5 VIAGRA... 10 IS... 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM... 62 MONEY... 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

ESIM. SPAM HAM 1 MONEY... 5 VIAGRA... 10 IS... 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 21 ALGORITHM... 62 MONEY... 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 P(SANA i =MONEY SPAM) 0.0004 0.01 % 0.02 % 0.78 % 0.88 % -------------------------------------- 0.80 % = ------------ = 1.05 1.918 % > 1 0.84 % P(SANA 0.84 i =MONEY SPAM) 0.0002 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

ESIM. SPAM HAM 1 MONEY... 5 VIAGRA... 10 IS... 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 21 ALGORITHM... 62 MONEY... 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 P(SANA i =MONEY SPAM) 0.0004 0.01 % 0.02 % 0.78 % 0.88 % -------------------------------------- 0.80 % = ------------ = 1.05 1.918 % > 1 0.84 % 1.11 % P(SANA 0.84 i =MONEY SPAM) 0.0002 % 1.11 % 0.88 % 1.13 % 1.05 % 1.16 % P(SANA 1.09 i =IS SPAM) 0.0042 % 1.22 % ------------------------------- 1.30 % = ------------ = 0.3622 1.37 < % 1 P(SANA1.80 % i =IS SPAM) 0.0116 2.01 % 1.92 % 3.24 %

ESIM. SPAM HAM 1 MONEY... 5 VIAGRA... 10 IS... 19 REPLICA 20 EMAIL 20 YOU 21 DATABASE 25 EMAILS 26 OF 31 TO 43 AND 48 THE TOTAL 2386 0.04 % 0.21 % 0.42 % 0.80 % 0.84 % 0.84 % 0.88 % 1.05 % 1.09 % 1.30 % 1.80 % 2.01 % 21 ALGORITHM... 62 MONEY... 2199 FOR 2492 THAT 2990 YOU 3141 IN 3160 I 3218 AND 3283 IS 3472 OF 3874 A 5442 TO 9196 THE TOTAL 283736 0.01 % 0.02 % 0.78 % 0.88 % 1.05 % 1.11 % 1.11 % 1.13 % 1.16 % 1.22 % 1.37 % 1.92 % 3.24 %

YHTEENVETO YHTEENVETO NAIVI BAYES-SPAMFILTTERISTÄ: TARVITAAN: - PRIORIJAKAUMA P(SPAM) = 0. - LUOKKAEHDOLLISET JAKAUMAT P(SANA i =VIAGRA SPAM)=0. P(SANA i =VIAGRA SPAM)=0. P(SANA i =IS SPAM) = 0. P(SANA i =IS SPAM)=0. P(SANA i =ALGORITHM SPAM) = 0. P(SANA i =ALG. SPAM)=0. OLETETAAN ETTÄ P(SANA i SANA j,spam) = P(SANA i SPAM) (EHDOLLINEN RIIPPUMATTOMUUS)

YHTEENVETO (JATKOA...): KUSTANNUSFUNKTIO EPÄSYMMETRINEN: PAREMPI SÄÄSTÄÄ MUUTAMA SPAM KUIN HUKATA OIKEA VIESTI (HAM) JAKAUMAT PARAS ESTIMOIDA DATASTA