Informaatioteoria. Lasse Holmström Matemaattisten tieteiden laitos Oulun yliopisto. Kevät 2012. 1 f f. f 1 1 1 f

Samankaltaiset tiedostot

Informaatioteoria. Lasse Holmström Sovelletun matematiikan ja tilastotieteen yksikkö Oulun yliopisto. Kevät f f. f f

Shannonin ensimmäinen lause

Koodausteoria, Kesä 2014

Tehtäväsarja I Tehtävät 1-5 perustuvat monisteen kappaleisiin ja tehtävä 6 kappaleeseen 2.8.

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Koodausteoria, Kesä 2014

1 + b t (i, j). Olkoon b t (i, j) todennäköisyys, että B t (i, j) = 1. Siis operaation access(j) odotusarvoinen kustannus ajanhetkellä t olisi.

= 5! 2 2!3! = = 10. Edelleen tästä joukosta voidaan valita kolme särmää yhteensä = 10! 3 3!7! = = 120

4.1. Olkoon X mielivaltainen positiivinen satunnaismuuttuja, jonka odotusarvo on

HY, MTL / Matemaattisten tieteiden kandiohjelma Todennäköisyyslaskenta IIb, syksy 2017 Harjoitus 1 Ratkaisuehdotuksia

Ongelma 1: Onko datassa tai informaatiossa päällekkäisyyttä?

Cantorin joukon suoristuvuus tasossa

k S P[ X µ kσ] 1 k 2.

2 exp( 2u), kun u > 0 f U (u) = v = 3 + u 3v + uv = u. f V (v) dv = f U (u) du du f V (v) = f U (u) dv = f U (h(v)) h (v) = f U 1 v (1 v) 2

30A02000 Tilastotieteen perusteet

MS-A0402 Diskreetin matematiikan perusteet

Odotusarvo. Odotusarvon ominaisuuksia Satunnaismuuttujien ominaisuuksia 61

esimerkkejä erilaisista lohkokoodeista

Vastaus 1. Lasketaan joukkojen alkiot, ja todetaan, että niitä on 3 molemmissa.

Inversio-ongelmien laskennallinen peruskurssi Luento 7

Konvergenssilauseita

Miten perustella, että joukossa A = {a, b, c} on yhtä monta alkiota kuin joukossa B = {d, e, f }?

Koodausteoria, Kesä 2014

2.1. Tehtävänä on osoittaa induktiolla, että kaikille n N pätee n = 1 n(n + 1). (1)

INFORMAATIOTEORIA & KOODAUS TÄRKEIMPIEN ASIOIDEN KERTAUS A Tietoliikennetekniikka II Osa 28 Kari Kärkkäinen Syksy 2015

MS-A0501 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

Approbatur 3, demo 1, ratkaisut A sanoo: Vähintään yksi meistä on retku. Tehtävänä on päätellä, mitä tyyppiä A ja B ovat.

Ratkaisu: a) Kahden joukon yhdisteseen poimitaan kaikki alkiot jotka ovat jommassakummassa joukossa (eikä mitään muuta).

Tarkastelemme ensin konkreettista esimerkkiä ja johdamme sitten yleisen säännön, joilla voidaan tietyissä tapauksissa todeta kielen ei-säännöllisyys.

Kuinka määritellään 2 3?

Martingaalit ja informaatioprosessit

Sovellettu todennäköisyyslaskenta B

Jatkuvat satunnaismuuttujat

Reaalifunktioista 1 / 17. Reaalifunktioista

1. Osoita, että joukon X osajoukoille A ja B on voimassa toinen ns. de Morganin laki (A B) = A B.

IV. TASAINEN SUPPENEMINEN. f(x) = lim. jokaista ε > 0 ja x A kohti n ε,x N s.e. n n

5/11 6/11 Vaihe 1. 6/10 4/10 6/10 4/10 Vaihe 2. 5/11 6/11 4/11 7/11 6/11 5/11 5/11 6/11 Vaihe 3

Viivakoodin viiteopas

(b) Tarkista integroimalla, että kyseessä on todella tiheysfunktio.

1 Lukujen jaollisuudesta

Mat Sovellettu todennäköisyyslasku A

verkkojen G ja H välinen isomorfismi. Nyt kuvaus f on bijektio, joka säilyttää kyseisissä verkoissa esiintyvät särmät, joten pari

Matematiikan ja tilastotieteen laitos Reaalianalyysi I Harjoitus Malliratkaisut (Sauli Lindberg)

Matematiikan tukikurssi

Laskuharjoitus 5. Mitkä ovat kuvan 1 kanavien kapasiteetit? Kuva 1: Kaksi kanavaa. p/(1 p) ) bittiä lähetystä kohti. Voidaan

isomeerejä yhteensä yhdeksän kappaletta.

Koodausteoria, Kesä 2014

Johdatus matemaattiseen päättelyyn

MS-A0402 Diskreetin matematiikan perusteet Esimerkkejä ym., osa I

Moniulotteisia todennäköisyysjakaumia

MS-A0503 Todennäköisyyslaskennan ja tilastotieteen peruskurssi

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

Äärellisesti generoitujen Abelin ryhmien peruslause

MS-A0402 Diskreetin matematiikan perusteet Esimerkkejä ym., osa I

Matematiikan peruskurssi 2

f(n) = Ω(g(n)) jos ja vain jos g(n) = O(f(n))

Äärellisten mallien teoria

1 Määrittelyjä ja aputuloksia

Koodausteoria, Kesä 2014

Injektio. Funktiota sanotaan injektioksi, mikäli lähtöjoukon eri alkiot kuvautuvat maalijoukon eri alkioille. Esim.

Alkulukujen harmoninen sarja

7. Olemassaolo ja yksikäsitteisyys Galois n kunta GF(q) = F q, jossa on q alkiota, määriteltiin jäännösluokkarenkaaksi

D ( ) E( ) E( ) 2.917

Bayesin pelit. Kalle Siukola. MS-E2142 Optimointiopin seminaari: Peliteoria ja tekoäly

3.6 Su-estimaattorien asymptotiikka

Todennäköisyyden ominaisuuksia

1. Esitä rekursiivinen määritelmä lukujonolle

FUNKTIONAALIANALYYSIN PERUSKURSSI Johdanto

(iv) Ratkaisu 1. Sovelletaan Eukleideen algoritmia osoittajaan ja nimittäjään. (i) 7 = , 7 6 = = =

Rekursiolause. Laskennan teorian opintopiiri. Sebastian Björkqvist. 23. helmikuuta Tiivistelmä

Todennäköisyyslaskenta IIa, syyslokakuu 2019 / Hytönen 2. laskuharjoitus, ratkaisuehdotukset

Oletetaan, että funktio f on määritelty jollakin välillä ]x 0 δ, x 0 + δ[. Sen derivaatta pisteessä x 0 on

Joukot. Georg Cantor ( )

7 Vapaus. 7.1 Vapauden määritelmä

Todistusmenetelmiä Miksi pitää todistaa?

V ar(m n ) = V ar(x i ).

Johdatus matemaattiseen päättelyyn

Tehtävä 1. Arvioi mitkä seuraavista väitteistä pitävät paikkansa. Vihje: voit aloittaa kokeilemalla sopivia lukuarvoja.

3. laskuharjoituskierros, vko 6, ratkaisut

4. laskuharjoituskierros, vko 7, ratkaisut

3.7 Todennäköisyysjakaumia

Tilastollinen testaus. Vilkkumaa / Kuusinen 1

Johdatus matematiikkaan

8. Muita stokastisia malleja 8.1 Epölineaariset mallit ARCH ja GARCH

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Toispuoleiset raja-arvot

Nimitys Symboli Merkitys Negaatio ei Konjuktio ja Disjunktio tai Implikaatio jos..., niin... Ekvivalenssi... jos ja vain jos...

Äärellisten mallien teoria

Keskinäisinformaatiosta

Johdatus todennäköisyyslaskentaan Momenttiemäfunktio ja karakteristinen funktio. TKK (c) Ilkka Mellin (2005) 1

Todennäköisyys (englanniksi probability)

DIFFERENTIAALI- JA INTEGRAALILASKENTA I.1. Ritva Hurri-Syrjänen/Syksy 1999/Luennot 6. FUNKTION JATKUVUUS

Digitaalitekniikan matematiikka Luku 13 Sivu 1 (10) Virheen havaitseminen ja korjaus

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 4: Derivaatta

MS-A0102 Differentiaali- ja integraalilaskenta 1

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

Miten osoitetaan joukot samoiksi?

Luonnollisten lukujen ja kokonaislukujen määritteleminen

Mat Sovellettu todennäköisyyslasku A

802328A LUKUTEORIAN PERUSTEET OSA III BASICS OF NUMBER THEORY PART III. Tapani Matala-aho MATEMATIIKKA/LUTK/OULUN YLIOPISTO

Transkriptio:

Informaatioteoria Lasse Holmström Matemaattisten tieteiden laitos Oulun yliopisto Kevät 202 0 f f 0 X Y f f

Sisältö Johdanto. Historiaa................................ Informaatioteorian synty...................2 Informaatioteorian vaiheita vuodesta 948....... 3.2 Peruskysymyksiä......................... 6.2. Binäärinen symmetrinen kanava (BSK)......... 7.2.2 Toistokoodit........................ 9.2.3 Virheenpaljastavat ja -korjaavat koodit......... 3 2 Informaatio ja sen mittaaminen 20 2. Tapahtuman sisältämä informaatio............... 20 2.2 Satunnaismuuttujat ja informaatio............... 25 2.3 Keskinäisinformaatio....................... 39 i

2.4 Fanon epäyhtälö......................... 45 3 Tyypillisyys 48 3. AEP................................ 48 3.2 Koodaus kompressiossa...................... 56 3.3 Yleisemmät informaatiolähteet.................. 62 4 Häiriöttömän lähteen koodaus, kompressio 70 4. Koodeja.............................. 70 4.2 Kraftin epäyhtälö......................... 78 4.3 Shannonin ensimmäinen lause.................. 82 4.4 Optimaalinen koodaus...................... 87 5 Koodaus tiedonsiirrossa 93 5. Kapasiteetti............................ 93 5.2 Esimerkkejä kanavista...................... 98 5.2. Häviötön kanava..................... 98 5.2.2 Deterministinen kanava.................. 99 5.2.3 Häiriötön kanava..................... 00 5.2.4 Hyödytön kanava..................... 00 ii

5.2.5 Symmetrinen kanava................... 0 5.3 Kapasiteetin laskeminen..................... 02 5.4 Muistiton diskreetti kanava................... 0 5.5 Koodaus ja dekoodaus...................... 3 5.6 Yhteistyypillisyys......................... 6 5.7 Shannonin toinen lause...................... 22 6 Jatkuvat satunnaismuuttujat ja informaatio 32 6. Differentiaalientropia....................... 32 6.2 AEP................................ 45 6.3 Multinormaalijakauma...................... 48 7 Diskreettiaikainen Gaussin kanava 54 7. Kanavamalli............................ 54 7.2 Koodaus ja dekoodaus...................... 58 7.3 Shannonin toinen lause diskreettiaikaiselle Gaussin kanavalle. 64 8 Jatkuva-aikainen Gaussin kanava 72 8. Hilbertin avaruuksista...................... 72 8.2 Karhusen-Loèven kehitelmä................... 79 iii

8.3 Shannonin toinen lause jatkuva-aikaiselle Gaussin kanavalle.. 85 iv

Luku Johdanto. Historiaa.. Informaatioteorian synty Nykymuotoisen informaatioteorian perustaja on Claude Shannon (96-200). Shannon oli Yhdysvaltalainen matemaatikko, sähköinsinööri ja keksijä. Shannonin informaatioteorian perusteita käsittelevä raportti A Mathematical Theory of Communication ilmestyi vuonna 948 Bell Systems Technical Journalissa. Tämän raportin tuloksiin perustuva Shannonin ja Warren Weaverin kirja ilmestyi vuonna 949 ja siitä on saatavissa vuonna 998 julkaistu uusintapainos [6]. Shannonia pidetään ns. digitaalisen vallankumuoksen aloittajana. Shannon ymmärsi, että kaikkea informaatiota voidaan kommunikoida bitteinä ja hän johti tiedonsiirron tehokkuuden rajat. Shannonin läpimurtotyö käynnisti myös koodausteorian kehittelyn. Tehokkaat koodausmenetelmät ovat nykyisin keskeisen tärkeitä mm. mobiililaitteissa, CD- ja DVD-soittmimissa, erilaisissa

Kuva.: Claude Elwood Shannon (96-200). muistilaitteissa, internetin toiminnassa jne. Informaation olemusta oli ennen Shannonia tutkittu myös tilastollisen fysiikan piirissä (mm. Ludwig Boltzmann ja John von Neumann). Leo Szilard lanseerasi bitin käsitteen informaation mittauksessa. Termi bit tosin on peräisin matemaatikko John Tukeyltä (mm. Tukeyn lemma, Explorative Data Analysis (EDA),...). Shannonin tutkimussaralla oli edeltäjiä myös itse Bellin tutkimuslaboratoriossa, mm. Harry Nyquist ja Ralph (Vynton Leon) Hartley. Bellin tutkimuslaboratoriot ovat informaatioteorian lisäksi monen keskeisen keksinnön koti: laboratorioilla lasketaan olevan yli 26 000 patenttia ja 40 000 keksintöä mm. stereofoninen ääni, äänielokuva, telefax, UNIX käyttöjärjestelmä, sellaiset ohjelmointikielet kuin C ja C++ jne. Puhelimen keksijän Abraham Bellin mukaan nimetty tutkimuslaboratorio perustettiin vuonna 925 ja nykyään Bellin laboratorioissa työskentelee yli 9000 henkilöä useissa maissa. 2

Laboratorion työntekijöiden joukossa on ollut mm. nobelistia. Shannon itse toimi 5 vuotta Bellillä. Vuonna 956 hänestä tuli MIT:n (Massachusetts Institute of Technology) professori. MIT oli ensimmäisiä yliopistoja, jossa informaatioteoriaa alettiin säännöllisesti opettaa. Toisen maailmansodan aikaisilla sotaponnisteluilla oli tärkeä merkitys informaatioteorian ja sen sovellusten siivittäjänä. Sotilastutkimusta tukemaan koottiin poikkitieteellinen ryhmä eri alojen huippututkijoita ratkomaan informaatioon ja sen käsittelyyn liittyviä peruskysymyksiä (koneet, biologia). Tähän ryhmään kuuluivat mm. Claude Shannon, Norbert Wiener, Warren McCulloch, Walter Pitts, Alan Turing ja John von Neumann. Myös elektroniikan ja viestintätekniikan voimakas kehitys sodan aikana ja luotettavan ja turvallisen kommunikaation tarve suuntasi kiinnostusta informaatioteoreettisiin kysymyksiin...2 Informaatioteorian vaiheita vuodesta 948 Shannonin informaatioteorian läpimurtojulkaisua (948) seurasi Norbert Wienerin esittämä teoria vuonna 949. Seuraavaa vuosikymmentä luonnehti voimakas kiinnostuksen kasvu informaatioteoriaa kohtaan: Järjestettiin lukuisia yliopistoseminaareja, kursseja ja konferensseja. IRE (Institute of Radio Engineers) ryhtyi julkaisemaan IRE Transactions on Information Theory lehteä vuonna 955. Vuonna 963 IRE:stä tuli tunnettu ja monella tutkimusalueella nykyisin toimiva IEEE (Institute of Electrical and Electronics Engineers). Informaatioteorian keskeiseksi yhteistyöverkostoksi perustettiin PGIT (Professional Group on Information Theory), joka toimi alan tärkeänä koordinoivana sisäpiirinä. 3

Keskeisiä nimiä olivat mm. Peter Elias, Norbert Wiener, Robert Fano, David Huffman, Richard Hamming ja Edgar Gilbert (kummatkin virheitä korjaavien koodien uranuurtajia). Matemaattista informaatioteoriaa edustivat Aleksandr Khintšin, Amiel Feinstein ja Jacob Wolfowitz (mm. IMF:n pääjohtajana jonkin aikaa toimineen Paul Wolfowitzin isä). Kuten usein käy voimakkaasti kehittyvien alojen kohdalla, niin myös informaatioteorian suosion räjähdysmäinen kasvu johti ylikuumenemiseen ja hypeen. Vuoden 952 informaatioteorian konferenssissa melkein puolet papereista olivat psykologiaa ja neurofysiologiaa ja vuoden 956 konferenssissa edustettuina olevien alojen kirjo oli sitten jo todella suuri: anatomia, antropologia,..., lingvistiikka, matematiikka,..., politiikan teoria, tilastotiede. Syynä informaatioteorian ideoiden ylikäyttöön mitä erilaisimmilla aloilla oli usein se, että informaatioteorian esiintyminen määrärahahakemuksissa arveltiin (ilmeisesti osittain perustellusti) lisäävän hankkeen uskottavuutta ja siten rahoitusmahdollisuuksia. Tässä tilanteessa PGIT katsoi välttämättömäksi informaatioteorian puhdistamisen erilaisista lieveilmiöistä. Tämän operaation käynnisti Shannonin itsensä laatima kirjoitus vuonna 956 ja järjestyksen katsotaan palanneen vuoteen 958 mennessä. 950-luvulla elettiin intensiivistä kylmän sodan aikaa ja rahoitusta informaatioteorian tutkimukseen saatiin erityisesti Yhdysvaltojen asevoimilta. Kolme päätutkimussuuntaa tällöin olivat Hajaspektriteknologia. 980-luvun puoleen väliin asti tämä tutkimus oli sotilaallista ja siten salaista. Nykyinen CDMA-tekniikka on saanut alkunsa tästä tutkimuksesta. Kompressio, informaation pakkaaminen. Tämä oli itseasiassa tutkimuksen alkuvuosein pääasiallinen kiinnostuksen kohde kun tiedon siirtoa ei vielä pidetty niin keskeisenä ongelmana. 4

Koodaus tiedon siirtoa varten häiriöisessä kanavassa. Shannonin lause kertoi tällöin mihin tehokkuuteen tiedon siirrossa teoriassa voidaan päästä. Koodausta tiedon siirrossa ei aluksi pidetty kiinnostavana, koska voitiin ajatella aina lisättävän lähetystehoa häiriöiden voittamiseksi. Tilanteen muutti Neuvostoliiton Sputnik vuonna 957: Yhdysvaltojen ja Neuvostoliiton kilpajuoksu avaruuteen alkoi. Lähetystehoa oli kallista tai jopa mahdotonta lisätä avaruudessa, koska jokainen avaruuten lähettävä gramma maksoi todella paljon. Tehokkaasta koodauksesta oli saatavissa ratkaisevaa kustannushyötyä ja Shannonin Gaussin kanavan malli sopi hienosti kuvaamaan satelliitin ja maa-aseman välistä viestintää. 960-luvulla kiinnostus koodaukseen kasvoi nopeasti. Tältä ajalta voidaan mainita esimerkiksi Irving Reed ja Gustave Solomon. Koodausta käytettiin ensimmäistä kertaa virallisesti 969 Yhdysvaltain Mariner VI Mars-luotaimessa. Se lähetti mm. värikuvia Marsin kiertoradalta. Viestinnässä käytettiin jo 954 kehitettyä, virheitä korjaavaa Reed-Müller koodia. Tosin koodausta epävirallisesti käytti avaruudessa itseasiassa ensimmäisenä vuonna 968 Pioneer IX, Yhdysvaltain aurinkoa kiertävä fysikaalisia perusmittauksia tekevä satelliitti. 960-luvun lopussa kasvoi kuitenkin epävarmuus koodausmenetelmien kehittelyn käytännön merkityksestä. Algoritmit olivat kalliita implementoida ja vain avaruustutkimuksella oli siihen varaa. Informaatioteorian tutkimusryhmät alkoivatkin hajota tutkijoiden siirtyessä muihin lupaavimpiin projekteihin. Floridan St. Petersburgissa vuonna 97 pidetty Future Directions konferenssi päätyi hyvin pessimistisiin tunnelmiin koodausteorian tulevaisuuden suhteen. Vallalle oli noussut tunne siitä, että oli parempi itse asiassa lyödä niin sanotusti hanskat naulaan. Siinä missä Sputnik oli aikaisemmin muuttanut kaiken, saman teki kuitenkin kertaheitolla Intelin ensimmäinen mikroprosessori vuonna 97. Nyt uusi halvempi ja tehokkaampi teknologia mahdollisti uusien ja parhaimpien koodausalgoritmien käytön. Kuvaan tuli- 5

vat mukaan myös kaupalliset, ei-sotilaalliset ja avaruustekniikkaan suoraan liittymättömät sovellukset, modeemi ja telefax ensimmäisten joukossa. Tänä päivänä kehittyvä teknologia on informaatioteorian kehitystä ja hyödyntämistä ylläpitävä voima. Esimerkiksi Gallagerin 960 väitöskirjassaan esittämä koodi (low-density parity-check codes) on tullut vasta nyt käyttöön! Jatkuvia uusia haasteita ja sovellusmahdollisuuksia tarjoavat mobiili tiedonsiirto, erilaiset muistitekniikat (RAM, kiintolevyt), CD-, DVD-, ja MP3-soittimet, tietokoneverkot, internet jne. Mikä sitten on ollut Shannonin teorian merkitys koodausteknologian kehitykselle? Voidaan sanoa, että se määritti tiedonsiirron tehokkuudelle rajat, joita ei voinut ylittää. Kun rajat olivat tiedossa, syntyi motivaatio pyrkiä niitä kohti ja joka vaiheessa tiedettiin kuinka paljon parantamisen varaa vielä oli. Parhailla nykyisillä koodeilla päästään jo Shannonin rajalle tietyissä kanavissa (Gaussin kanava)..2 Peruskysymyksiä Tarkastellaan tiedonsiirtoa seuraavan yksinkertaisen mallin mukaisesti: informaatiolähde kanava vastaanottaja Konkreettisia esimerkkejä tiedonsiirrosta kanavien läpi on esitetty kuvassa.2. Kanavassa, jonka läpi informaatiota siirretään on useinmiten häiriötä ( kohinaa ). Tällöin keskeinen kysymys on se miten vähentää häiriöiden aiheuttamia virheitä. 6

modeemi puhelinlinja modeemi satelliitti radioaallot vastaanottoasema työmuisti levymuisti työmuisti Kuva.2: Eräitä esimerkkejä tiedonsiirrosta kanavien läpi..2. Binäärinen symmetrinen kanava (BSK) Kuvassa.3 on esitetty ns. binäärinen symmetrinen kanava. Syötteinä ja tulosteina ovat bitit 0 ja. 0 0 syöte x tuloste y Kuva.3: Binäärinen symmetrinen kanava Olkoon tiedon siirrossa tapahtuvan virheen todennäköisyys (ns. kohinataso) 0 < f < : virheettömän bitin siirtymisen todennäköisyys on P{y = 0 x = 0} = P{y = x = } = f, ja virheen todennäköisyys on P{y = 0 x = } = P{y = x = 0} = f. Tässä P{y = 0 x = 0} = P{y = 0 ja x = 0} P{x = 0} jne. 7

Kuva.4: Binäärinen symmetrinen kanava kohinatasolla f = 0. (esimerkki lähteestä [5]). Kuvassa.4 on esimerkki binäärisestä symmetrisestä kanavasta, jossa syötteenä on 00 00 digitaalinen kuva. Vasemman puoleisen kuvan pikselit on syötetty yksi kerrallaan toisistaan riippumatta binääriseen symmetriseen kanavaan, jonka kohinataso on f = 0.. Ajatellaan toisena esimerkkinä tietokoneen kiintolevyä, jolle luetaan ja kirjoitetaan GB päivässä 0 vuoden ajan ja ajatellaan BSK-mallin kuvaavan bittien siirtymistä lukemisessa ja kirjoittamisessa. Mikä tällöin on kohtuullinen f? Kohtuullista on selvästikin odottaa kiintolevyltä lähes virheetöntä toimintaa. Luku/kirjoitusoperaatioita on yhteensä 0 9 8 0 365 3 0 3 = n kappaletta. Olkoon f = 0 5, jolloin P{ virheetön toiminta } ( f) n nf 0.97. Kysymys kuuluu: miten näin pieneen virhetodennäköisyyteen f päästään? Voidaan ensinnäkin ajatella tehtävän parannuksia itse fyysiseen laitteeseen. Tämä voi kuitenkin johtaa kustannusten jyrkkään nousuun. Vaihtoehtona 8

informaatiolähde vastaanottaja lähetetty viesti s ŝ vastaanotettu viesti kooderi dekooderi lähetetty signaali t häiriöinen r vastaanotettu signaali kanava Kuva.5: Tiedonsiirto koodamalla ja dekoodaamalla viesti. on koodata/dekoodata bittejä sopivasti jolloin vain tarvittava laskentatyö lisääntyy (ks. kuva.5). Informaatioteoria kertoo tämän koodaukseen/dekoodaukseen perustuvan tiedonsiirtotavan mahdollisuudet ja rajat. Koodausteoriassa kehitetään käytäntöön sopivia koodereita ja dekoodereita..2.2 Toistokoodit Eräs yksinkertainen koodausmenetelmä on ns. toistokoodi. Toistokoodissa R m kukin bitti toistetaan m kertaa. Esimerkki.. Toistotkoodi R 3. Koodaus tapahtuu siis seuraavan kaavion mukaisesti: 9

0 kooderi 000 Olkoon nyt lähetety viesti s = 0000, jolloin kooderi tekee siitä lähetettävän signaalin t = 000 000 000 000. Olkoon edelleen häiriöinen kanava muotoa r = t + n (mod 2), missä n on häiriö. Esimerkiksi t 000 000 000 000 n 000 00 000 000 0 000 000 r 000 00 000 00 000 Dekooderi tekee enemmistöpäätöksen kolmen ryhmissä, jolloin vastaanotettu viesti on ŝ = 0 0 0 0 0. virhe virhe korjattu ei korjattu Voidaan osoittaa (harjoitustehtävä), että tämä dekooderi on tietyin edellytyksin optimaalinen. Harjoitustehtävänä osoitetaan myös, että kohinatasolla 0 < f < /2 toimivassa BSK:ssa edellisen esimerkin dekooderin virheen todennäköisyys on 0

Kuva.6: Binäärinen symmetrinen kanava kohinatasolla f = 0., kun käytetään toistokoodia R 3. Bittivirheen todennäköisyys on nyt noin 0.03 (esimerkki lähteestä [5]). pienempi kuin f, kun 0 < f < /2. Kuitenkin tiedonsiirtonopeus on vain /3 alkuperäisestä, R = 3 (Rate) (bittiä/kanavan käyttö). Jos esimerkiksi kiintolevyn nopeus on Gbit/s, on se toistokoodin R 3 jälkeen Gbit/s. 3 Tarkastellaan sitten yleistä toistokoodia R m, missä m = 2n + on pariton. Olkoon kanava binäärinen symmetrinen kanava, 0 < f < /2, ja oletetaan, että bitit siirtyvät kanavan läpi toisistaan riippumatta. Kooderi on nyt siis s 0 t kooderi 00 0 } {{ } 2n+

Olkoon p b = P{ virhe bitissä } = P{ vähintään n + koodibittiä vaihtuu kanavassa }. Vaihtuvien bittien lukumäärään jakauma on silloin Bin(2n +, f), jolloin siis ( ) 2n + P{ k bittiä vaihtuu } = f k ( f) 2n+ k k ja siten p b = 2n+ k=n+ ( ) 2n + f k ( f) 2n+ k. k Olkoon S 2n+ vaihtuvien bittien lukumäärä. Silloin heikon suurten lukujen lain (ns. Bernoullin lause) mukaan S 2n+ 2n + f stokastisesti, eli kaikilla ε > 0, { } lim P S 2n+ n 2n + f ε = 0. Bernoullin lauseen sisältöhän on se, että toistokokeessa esiintyvän tapahtuman suhteellinen esiintymisfrekvenssi lähenee tapahtuman todennäköisyyttä toistokokeiden määrän kasvaessa. Nyt { S2n+ p b = P {S 2n+ n + } = P 2n + n + } 2n + { S2n+ = P 2n + f + n + } 2n + f. Tässä n + 2n + f n 2 f > 0. Siis: jos 0 < ε < n+ f ja n on niin suuri, että f > ε, pätee heikon 2 2n+ suurten lukujen lain mukaan { } { } S2n+ p b P 2n + f + ε S 2n+ P 2n + f ε 0, 2

Kuva.7: Bittivirheen p b riippuvuus tiedonsiirtonopeudesta R eräille toistokoodeille binäärinessä symmetrisessä kanavassa kohinatasolla f = 0.. Oikean puoleisessa paneelissa on logaritminen skaala (kuva lähteestä [5]). kun n. Siten bittivirhe p b saadaan mielivaltaisen pieneksi, kun n eli m toistokoodissa R m. Mutta samalla tiedonsiirtonopeudelle saadaan R = 0, 2n + kun n. Siksi p b 0 vain, jos samalla R 0. Kuvassa.7 on esitetty bittivirheen p b riippuvuus tiedonsiirtonopeudesta R eräille toistokoodeille..2.3 Virheenpaljastavat ja -korjaavat koodit Parempiin koodeihin päästään koodaamalla yksittäisten bittien sijaan kokonaisia bittilohkoja. Yksinkertainen virheenpaljastava koodi saadaan lisäämäl- 3

lä lohkoon pariteetin tarkastusbitti. Lohkon s...s n pariteetti on n s i mod 2 eli 0, jos ykkösien lukumäärä on parillinen pariteetti =, jos ykkösien lukumäärä on pariton. Esimerkki.2. Tarkastellaan seuraavia tapauksia: 000 pariteetti (pariton) 0000 pariteetti 0 (parillinen) Koodaus tapahtuu seuraavasti: s t 000 000 0000 00000 Lopputuloksen pariteetti on aina 0. Nyt pystytään havaitsemaan, jos kanavassa on tapahtunut pariton määrä virheitä. Esimerkki.3. Jos r = 0000, tiedetään, että virhe tai virheitä on tapahtunut, mutta ei tiedetä missä. Hammingin koodi pystyy korjaamaan yhden virheellisen bitin. Hammingin (7, 4)-koodi on: 4

Kuva.8: Hammingin (7,4)-koodi. s t(s) r s s 2 s 3 s 4 kooderi t t 2 t 3 t 4 t 5 t 6 t 7 kanava r r 2 r 3 r 4 r 5 r 6 r 7 Tässä t i = s i, kun i =, 2, 3, 4, t 5, t 6, t 7 asetetaan siten, että lohkoilla s s 2 s 3 t 5, s 2 s 3 s 4 t 6 ja s s 3 s 4 t 7 on parillinen pariteetti. Saadaan 2 4 = 6 koodisanaa, joiden pituus on seitsemän. Esimerkiksi 000 000. Koodi on esitetty kuvassa.8. Tässä koodissa koodisanat eroavat vähintään kolmessa bitissä. Mikä mahtaa olla optimaalinen dekooderi? Tämän selvittämiseksi lasketaan t:n ja r:n Hammingin etäisyys, d H (t,r) = 7 t i r i = {i t i r i }, Missä { } tarkoittaa joukon alkioiden lukumäärää. Kun kyseessä on binäärinen symmetrinen kanava, jolle 0 < f < /2 ja kaikki viestit s {0, } 4 ovat yhtä todennäköisiä, optimaalinen dekooderi on valita sellainen ŝ, että d H (t(ŝ),r) = min s {0,} 4 d H (t(s),r). 5

Kuva.9: Hammingin (7,4)-koodin käyttö binäärisessä symmetrisessä kanavassa, jonka kohinataso on f = 0.. Bittivirhe p b on nyt noin 0.07 (esimerkki lähteestä [5]). (Optimaalisuuden todistus on harjoitustehtävänä). Koodisanojen t(s) etäisyydet 3, joten yhden bitin virhe korjaantuu! Käytännössä dekoodausta ei tarvitse tehdä minimoimalla Hammingin etäisyyttä, vaan laskennallisesti tehokkaampikin tapa löytyy (lineaarialgebra kunnassa Z 2 :ssa, koodausteoria,...). Nyt P{ virhe } = P{ŝ s} ja bittivirheen todennäköisyys määritellään kaavalla p b = 4 4 P {ŝ i s i }, missä s = s s 2 s 3 s 4 ja ŝ = ŝ ŝ 2 ŝ 3 ŝ 4. Kuvassa.9 on esimerkki Hammingin (7,4)-koodin käytöstä binäärisessä symmetrisessä kanavassa, jonka kohinataso on f = 0.. On helppo nähdä, että binäärisessä symmetrisessä kanavassa P{ŝ s} = O(f 2 ) eli samaa suuruusluokkaa kuin toistokoodissa R 3 (vrt. harjoitustehtävät). Mutta nopeus on nyt parempi: R = 4 7 > 3. 6

Kuva.0: Bittivirheen p b riippuvuus tiedonsiirtonopeudesta R eräille toistokoodeille, Hammingin (7,4)-koodille ja BCH-koodeille (Bose-Chaudhuri- Hocquenhem). Kyseessä on binäärinen symmetrinen kanava kohinatasolla f = 0.. Oikean puoleisessa paneelissa on logaritminen skaala (kuva lähteestä [5]). Kuvasssa.0 on vielä lisää esimerkkejä eri koodien suorituskyvystä. Kuitenkin tiedonsiirron nopeus edelleen näyttää melko huonolta! Voidaankin kysyä, että mitkä (R, p b )-yhdistelmät ovat ylipäänsä (edes periaatteessa) mahdollisia? Ennen vuotta 948 uskottiin tilanteen olevan kuvan. kaltainen, eli virheetön tiedon siirto ei ole mahdollista. Shannon osoitti kuitenkin vuonna 948 tilanteen olevankin itse asiassa kuvan.2 kaltainen. Tässä kuvassa C on kanavan kapasiteetti. Kun R < C, on siis mahdollista saavuttaa mielivaltaisen pieni bittivirhe p b. Tilannetta on vielä havainnollisettu eräiden konkreettisten koodien osalta kuvassa.3. Shannonin keskeinen tulos vuodelta 948 on Informaatioteorian peruslause. Tämä lause kertoo tiedonsiirron mahdollisuudet (R < C) ja rajat (R > C) ja se motivoi seuraavien vuosikymmenien koodausteorian kehitystä. Voidaan väittää, että informaatioteoria itse asiassa rakentuu tämän lauseen ja sen seurausten ympärille. 7

p b mahdollista ei mahdollista Kuva.: Käsitys bittivirheen p b ja tiedosiirtonopeuden R riippuvuudesta ennen Shannonin teoriaa. R p b mahdollista ei mahdollista C R Kuva.2: Bittivirheen p b ja tiedonsiirtonopeudenr riippuvuus Shannonin teorian mukaan. Tässä C on kanavan kapasiteetti. 8

Kuva.3: Shannonin teorian antama raja bittivirheen ja tiedonsiirtonopeuden mahdollisille yhdistelmille (yhteinäinen käyrä) ja eräiden koodien suorituskyky binääriselle symmetriselle kanavalle kohinatasolla f = 0.. Oikean puoleisessa paneelissa on logaritminen skaala (kuva lähteestä [5]). 9

Luku 2 Informaatio ja sen mittaaminen 2. Tapahtuman sisältämä informaatio Perusidea tapahtuman sisältämän informaatioon määrittelemisessä on, että epävarma tai odottamaton tapahtuma on informatiivinen. Tapahtuman epävarmuutta mitataan poistuneella epävarmuudella, kun tapahtuman tiedetään sattuneen. Kun epävarma tapahtuma sattuu, siihen liittynyt suuri epävarmuus poistuu ja näin on saatu paljon informaatiota. Jos taas melko varma tapahtuma sattuu, vain vähän epävarmuutta poistuu ja näin on saatu vain vähän informaatiota. Esimerkki 2.. Tarkastellaan 00 palloa, jotka on numeroitu,2,...,00. Pallot,...,0 ovat valkoisia ja pallot,...,00 ovat mustia. Nostetaan yksi pallo umpimähkään. Olkoon A = valkoinen ja B = musta, jolloin P(A) = 0 ja P(B) = 9 0. Jos tapahtuma A sattuu, tiedetään, että kyseessä on pallo,...,0. Jos taas 20

tapahtuma B sattuu, tiedetään, että kyseessä on pallo,...,00. Selvästi tapahtuma A vähentää epävarmuutta enemmän kuin tapahtuma B, eli tapahtuma A on informatiivisempi. Tapahtuman A jälkeen tiedetään siis enemmän kuin tapahtuman B jälkeen. Tapahtuma A on epävarmempi, sillä P(A) < P(B). Miten mitata jonkun tapahtuman epävarmuutta tai informatiivisuutta täsmällisesti? Epävarmuus selvästi liittyy tapahtuman todennäköisyyteen. Olkoon siis A tapahtuma ja P(A) = p > 0. Pyritään määrittelemään sellainen funktio h, että h(p) = tapahtuman A epävarmuus, informaatiosisältö. Olkoon A B (riippumattomat), P(A) = p ja P(B) = p 2. Silloin P{ A ja B } = P(A B) = P(A)P(B) = p p 2, joten leikkauksen A ja B epävarmuus on h(p p 2 ). Luonteva vaatimus tällöin on, että h(p p 2 ) h(p ) = h(p 2 ). Toinen luonteva vaatimus on, että p h(p) on aidosti vähenevä ja jatkuva. Lause 2.. Olkoon h : ]0, ] R ja (i) h(p p 2 ) = h(p ) + h(p 2 ), p, p 2 ]0, ], (ii) h on aidosti vähenevä ja jatkuva. Silloin h(p) = C log b p, missä b > ja C > 0 riippuu vakiosta b. Huomautus. p C log b p selvästi toteuttaa ehdot (i) ja (ii). 2

Todistus. Olkoon ( g(n) = h, n N +. n) Ehdon (i) nojalla h ( ) ( = h nm n ) = h m ( ) ( ) + h n m eli g(nm) = g(n) + g(m), n, m N +. (2.) Oletetaan, että n < m. Ehdon (ii) nojalla saadaan g(n) < g(m), n, m N +. Osoitetaan, että g(n) = C log b n, (2.2) jollain C > 0 ja b >. Osoitetaan ensin induktiolla, että g(n k ) = k g(n), n, k N +. (2.3) Väite on selvä, kun k =. Oletetaan, että väite pätee arvolla k. Silloin g(n k+ ) = g(n n k ) (2.) = g(n) + g(n k ) ind.ol = g(n) + kg(n) = (k + )g(n). Edelleen, joten g() = g( ) = g() + g(), g() = 0. (2.4) Olkoon n N, n >, kiinteä ja r N +. Valitaan (ks. kuva 2.) sellainen k = k(r) N, että n k 2 r < n k+. (2.5) 22

PSfrag 2 r n n 2 n k n k+ Kuva 2.: Indeksin k valinta lauseen 2. todistuksessa. log b 2 log b n g(2) g(n) k r r k+ r Kuva 2.2: Lauseen 2. todistuksen havainnollistus. Nyt g on aidosti kasvava, joten Tuloksen (2.3) nojalla saadaan eli g(n k ) g(2 r ) < g(n k+ ). kg(n) rg(2) < (k + )g(n), k r g(2) g(n) < k +. (2.6) r Huomaa, että g on aidosti kasvava, joten g(n) > g() = 0. Edelleen b >, joten log b on aidosti kasvava. Kaavasta (2.5) saadaan siten josta edelleen k log b n r log b 2 < (k + ) log b n, k r log b 2 log b n < k +. r Huomioidaan tulos (2.6), jolloin (ks. kuva 2.2) log b 2 log b n g(2) g(n) < r. Luku r on mielivaltainen, joten 23

eli log b 2 log b n = g(2) g(n), g(n) = g(2) log b 2 log b n, mikä pätee myös, kun n =. Siten ehdossa (2.2) voidaan ottaa C = g(2) log b 2. Olkoon sitten p = r Q, r, s > 0. Nyt s ( ) ( r h = h s s ) r josta edelleen saadaan ( r h = h s) ( ) h s ( (i) r = h + h s) ( ), r ( ) = g(s) g(r) r = C log b s C log b r = C log b r s. (2.7) Lauseen väite pätee siis rationaalisilla p. Lauseen väite mielevaltaiselle p ]0, ] seuraa nyt funktioiden h ja log b jatkuvuudesta: kun p k p, p k ]0, ] Q, saadaan h(p) = lim h(p k ) (2.7) = lim [ C log b p k ] = C log b p. k k Jatkossa otetaan b = 2 ja merkitään log 2 = log. Tämä valinta vaikuttaa vain vakioon C, koska jos a, b >, niin log a p = log a b log b p. Otamme myös jatkossa C =, mikä vaikuttaa vain mitta-asteikkoon. Kun p =, niin h(p) = C log = C log 2 = C. Näin valinta C = tarkoittaa, 2 2 että symmetrisen lantin heiton antama informaatio on yksikköä. Näin tapahtuman A, P(A) = p > 0, epävarmuus tai informaatiosisältö määritellään kaavalla h(p) = log p. Epävarmuuden tai informaatiosisällön yksikkö on bitti. 24

2.2 Satunnaismuuttujat ja informaatio Olkoon (Ω, F, P) todennäköisyysavaruus. Siis, Ω on alkeistapausten joukko eli perusjoukko F on tapahtumien joukko (Ω:n osajoukkojen σ-algebra) P on todennäköisyys eli P on kuvaus F [0, ] Esimerkki 2.2. Tarkastellaan nopan heittoa. Alkeistapausten joukko on nyt Ω = {, 2, 3, 4, 5, 6} ja tapausten joukkona F on Ω:n kaikki osajoukot. Kun A Ω, määritellään P(A) = A 6, missä A =joukon A alkioiden lukumäärä. Jatkossa käsitellään satunnaismuuttujia (sm), joiden arvojoukko on äärellinen, eli satunnaismuuttujat voivat saada vain äärellisen monta eri arvoa. Tällainen satunnaismuuttuja on kuvaus X : Ω X, missä X on äärellinen joukko ja X:lle pätee {X = x} = {ω Ω X(ω) = x} F kaikilla x X. Merkitään p(x) = P{X = x}, x X, missä p(x):t ovat satunnaismuuttujan X pistetodennäköisyyksiä. Merkitsemme tavallisesti myös p(x):llä itse pistetodennäköisyysfunktiota (ptnf) p : X [0, ]. Myös merkintää X p(x) käytetään toisinaan. 25

Edelleen, jos Y : Ω Y on toinen satunnaismuuttja, merkitään tavallisesti p(y):llä satunnaismuuttujan Y pistetodennäköisyysfunktiota. Tässä hieman huolimattomassa merkintätavassa siis vain argumentin nimi (x tai y) kertoo sen, että kyseessä on yleensä eri funktiot p(x) ja p(y). X voi periaatteessa olla mikä äärellinen joukko hyvänsä: {0, }, {a, b, c, d}, {,, }. Toisaalta, nimeämällä alkiot uudestaan, voitaisiin yhtä hyvin olettaa, että X = {,...,m}, jos X = m. Kuvassa 2.3 on erään Linux-oppaan perusteella laadittu taulukko englannin kielen kirjainten esiintymistodennäköisyyksistä. Nämä ovat siis sellaisen satunnaismuuttujan arvojen todennäköisyydet, joka kuvaa umpimähkään valittua kirjainta kyseisestä oppaasta. Tapahtuman {X = x} epävarmuus tai informaatiosisältö on edellisen luvun mukaan log ( P{X = x} ) = log p(x). Määritelmä 2.2. Satunnaimuuttujan X entropia on H(X) = p(x) log p(x). x X Huomautus. Sovitaan, että 0 log 0 = 0 (koska lim t log t = 0). t 0 + Huomautus. H(X) on itseasiassa odotusarvo H(X) = E log p(x) = E ( log p(x) ). Tässä log p(x) on satunnaismuuttuja ω log p ( X(ω) ) = log ( P{X = X(ω)} ). Siten H(X) on satunnaismuuttujan X arvojen keskimääräinen epävarmuus tai informaatiosisältö. 26

Kuva 2.3: Eräs arvio englannin kielen kirjainten esiintymistodennäköisyyksistä. Oikean puoleinen sarake havainnollistaa todennäköisyyksiä vielä graafisesti (esimerkki lähteestä [5]) 27

Huomautus. Vain todennäköisyydet p(x) ovat tässä tärkeitä ja satunnaismuuttujan X varsinaiset arvot ovat täysin epäoleellisia. Huomautus. Vaikka funktion h(p) ja sitä kautta entropian H(X) määritelmä pyrittiin perustelemaan intuitiivisesti, on asetettujen määritelmien todellinen motivaatio se, että ne johtavat hyvään ja hyödylliseen tiedonsiirron teoriaan, jota voi menestyksellä soveltaa mm. koodien konstruktioon. Lause 2.3. H(X) 0 ja H(X) = 0 jos ja vain jos X on vakio (todennäköisyydellä ). Todistus. Kaikilla x X on 0 p(x), joten p(x) log p(x) 0. Siten H(X) = p(x) log p(x) 0. x X Edelleen, jos H(X) = 0 on p(x) log p(x) = 0 kaikilla x X, eli p(x) = 0 tai kaikilla x X. Mutta p(x) =, joten tällöin p(x) = täsmälleen yhdellä x X x X, jolle siis pätee p(x) = P{X = x} =. Kääntäen, jos X on vakio (todennäköisyydellä ), on yksi luvuista p(x) arvoltaan ja muut 0, jolloin H(X) = 0. Siis: Satunnaismuuttujassa X ei ole epävarmuutta H(X) = 0 X on vakio. Esimerkki 2.3. Olkoon X = {0, },, todennäköisyydellä p X = 0, todennäköisyydellä p. Silloin H(X) = p log p ( p) log( p) H(p). Kuvassa 2.4 on esitetty tämän funktion kuvaaja. Havaitaan, että kun p = 0 tai p =, ei satunnaismuuttujassa X ole lainkaan epävarmuutta: H(0) = H() = 0. Tällöin X on vakio (todennäköisyydellä 28

0.9 0.8 0.7 H(p) 0.6 0.5 0.4 0.3 0.2 0. 0 0 0. 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 p Kuva 2.4: Funktio H(p). ). Suurin epävarmuus saadaan arvolla p = /2, jolloin H(/2) =. Tämä vastaa symmetrisen lantin heittoa. Saatu informaation heiton tuloksesta on bitti. Jos X = m ja p,...,p m ovat arvojen x X todennäköisyydet, merkitään jatkossa joskus myös H(X) = H(p,...,p m ). Entropian voi ajatella liittyvän myös satunnaismuuttujan X arvon määräämiseen binäärisillä ei/kyllä vastauksilla. Esimerkki 2.4. X saa arvot a, b, c, d ja e todennäköisyyksillä 0.3, 0.2, 0.2, 0.5 ja 0.5. Kuvassa 2.5 on X:ää vastaava binääripuu, missä ei = 0 ja kyllä =. 29

X = a tai b? 0 X = c? X = a? 0 0 X = d? 0 c b a e d Kuva 2.5: Satunnaismuuttujaa X vastaava binääripuu. Keskimääräinen kysymysten lukumäärä X:n arvo selvittämisesksi on 0.3 2 + 0.2 2 + 0.2 2 + 0.5 3 + 0.5 3 = 2.3. Binääripuusta saadaan koodaus a b 0 c 0 d 00 e 000 Keskimääräinen koodin pituus L = 2.3 bittiä, sama kuin keskimääräinen kysymysten lukumäärä. Toisaalta, H(X) = 0.3 log 0.3 0.2 log 0.2 0.2 log 0.2 0.5 log0.5 0.5 log0.5 2.27. 30

Ei ole itse asiassa sattumaa, että L = H(X) + ε, missä ε > 0. Myöhemmin tullaan osoittamaan, että tietyn tyyppisten binääristen koodien joukossa keskimäärin lyhimmälle koodille pätee H(X) L < H(X) +. Edelleen, koodaamalla jonoja (x,..., x n ), x i {a, b, c, d, e} yksittäisten alkioiden sijaan saadaan tietyissä tilanteissa keskimäärin lyhimmälle koodille L, että H(X) L n < H(X) + n, eli optimikoodin keskimääräinen pituus per symboli H(X). Näin olemme saaneet entropialle toisen tulkinnan: H(X) =keskimäärin pienin binääristen kysymysten lukumäärä satunnaismuuttujan X arvon selvittämiseksi. Tarkastellaan sitten satunnaismuuttajaparia (X, Y ). Satunnaismuuttujan X arvojoukko on X ja satunnaismuuttujan Y arvojoukko on Y. Parin (X, Y ) arvojoukko on siten X Y (myös äärellinen). Pistetodennäköisyydet ovat p(x, y) = P{X = x ja Y = y} ja merkitsemme (X, Y ) p(x, y). Kuvassa 2.6 on samasta tekstiaineistosta kuin kuvassa 2.3 lasketut kirjainparien pistetodennäköisyydet graafisesti havainnollistettuna. Määritelmä 2.4. Parin (X, Y ) yhteisentropia on satunnaismuuttujan (X, Y ) entropia, H(X, Y ) = p(x, y) log p(x, y). x X y Y Huomautus. Siis H(X, Y ) = E log p(x, Y ). Määritelmä 2.5. Satunnaismuuttujan Y entropia ehdolla X = x on H(Y X = x) = p(y x) log p(y x). y Y 3