LAP: Laskennan perusmallit

Transkriptio

1 LAP: Lskennn perusmllit Mtti Nykänen Tietojenkäsittelytieteen litos, Itä-Suomen yliopisto sähköposti: Lukuvuoden III periodi Sisältö 1 Kurssin sem opetuksess 1 2 Kurssin sem tietojenkäsittelytieteessä Histori Kurssin sisältö tästä eteenpäin Johdnto Lskennlliset ongelmt Päätösongelmt j formlit kielet Lskennllisten ongelmien rtkevuus Churchin Turingin teesi Pysähtymisongelmn rtkemttomuus Säännölliset kielet j äärelliset utomtit Äärellisen utomtin esitystpoj Äärellisen utomtin formli määrittely Säännöllinen kieli Äärellisen utomtin lskentvoimst Sovelluksist Automtin minimointi Epädeterministiset äärelliset utomtit Säännölliset lusekkeet j kielet Säännöllisten kielten sulkeumominisuudet Äärelliset utomtit j säännölliset kielet Säännöllisestä lusekkeest utomtti Automtist säännöllinen luseke Säännöllisten kielten rjoituksist Kontekstittomt kielet j pinoutomtit Kontekstittomien kielten sulkeumominisuuksist Säännölliset kielet j kontekstittomt kieliopit Äärellistä utomtti vstv linerinen kielipppi Linerist kielioppi vstv äärellinen utomtti Pinoutomtti Deterministiset j epädeterministiset pinoutomtit i

2 5.3.2 Pinoutomtit j kontekstittomt kielet Kielioppien jäsennysongelm Cocke-Younger-Ksmi-lgoritmi Tehokkmmt jäsennysmenetelmät LL(1)-kielioppi LR-kieliopeist Kontekstittomien kielten rjoituksist Lskennn filosofi Turingin kone Algoritmin määritelmä Rtkemttomuudest Lskennn vtivuusteorist Ongelmien vikeusluokitukset j plutukset Summ summrum 165 Viitteet Alfred V. Aho, Monic S. Lm, Rvi Sethi, nd Jeffrey D. Ullmn. Compilers: Principles, Techniques, nd Tools. Addison Wesley, second edition, Michel R. Grey nd Dvid S. Johnson. Computers nd Intrctility: A Guide to the Theory of NP-Completeness. Freemn, John E. Hopcroft, Rjeev Motwni, nd Jeffrey D. Ullmn. Introduction to Automt Theory, Lnguges nd Computtion. Addison Wesley, second edition, Grhm Hutton. Progrmming in Hskell. Cmridge University Press, John R. Levine, Tony Mson, nd Doug Brown. Lex & Ycc. O Reilly, second edition, Hrry R. Lewis nd Christos H. Ppdimitriou. Elements of the Theory of Computtion. Prentice-Hll, second edition, Chris Okski. Purely Functionl Dt Structures. Cmridge University Press, Michel Sipser. Introduction to the Theory of Computtion. Course Technology, second edition, Thoms A. Sudkmp. Lnguges nd Mchines: An Introduction to the Theory of Computer Science. Addison Wesley, second edition, Simon Thompson. Hskell: the Crft of Functionl Progrmming. Addison Wesley, third edition, ii

3 1 Kurssin sem opetuksess Tietojenkäsittelytieteen pääineopiskelijoille pkollinen ineopintokurssi (3 op). Esitietovtimukset: Johdtus tietojenkäsittelytieteeseen (JTT): Lskennn, lgoritmin j tietokoneen käsitteet. Diskreetit rkenteet (DSR): Sovelletn joitkin diskreetin mtemtiikn peruskäsitteitä, kuten puit j verkkoj. Lisäksi molemmill kursseill lähestymistp j jtusmilm on mtemttinen (eikä esimerkiksi ohjelmointitekninen). Tietorkenteet 1 (TRA1): Käytetään joitkin siellä selostettuj perustietorkenteit, kuten pinoj j puit. Lisäksi viittn joihinkin siellä esiteltyihin käsitteisiin, kuten symptoottiseen ikvtivuuteen. Kiinnostuneille lisää vlinnisill syventävien opintojen jtkokursseill: Algoritmien suunnittelu j nlyysi (ASA): Tätä kurssi ljemmt perustiedot ns. P? = NP-ongelmst sekä teoreettisest että lgoritmisuunnittelun näkökulmst. Lskennn teori (LAT): Syvällisemmin tästä ongelmst j muistkin tällä kurssill esitellyistä sioist. Tämä P =? NP-ongelm onkin tunnetuin esimerkki lskennn vtivuusteorin käsittelemistä ongelmist. Yksi (mutt ei läheskään ino!) tp luke se on: P = selliset lskentongelmt, joiden vstukset voi lske tvllisell tietokoneell tehokksti NP = voisi jos koneeseen lisättäisiin mginen konekäsky vlitse hyppäätkö nyt riville X viko riville Y jok jotenkin in osisi vlit juuri oikein. Silloin kysymys on: Voisiko tvllinen tietokone in löytää itsekin oiken vlinnn nopesti? Yleisesti uskotn, että ei voisi: Uskotn, että on sellisi ongelmi j tilnteit, joiss on väistämättä hidst löytää se oike vlint. Tämä P? = NP-ongelm on kuitenkin osoittutunut teoriss hyvin vikeksi rtkist se on yhä voin, j on stu tuloksi inkn menetelmällä X sitä ei voi rtkist erilisille lähestymistvoille X. käytännössä merkittäväksi, kosk monet käytännön ongelmt ovt osoittutuneet ns. NP-koviksi, eli sellisiksi että jos yksikin niistä voitisiin rtkist tehokksti (eli se kuuluisi luokkn P) niin sen vull ne kikki muutkin voitisiin rtkist tehokksti. 1

4 Cly Mthemtics Institute onkin vlinnut sen yhdeksi seitsemästä Millenniumongelmstn, j nt sen rtkisust plkinnoksi USD! ( clymth.org/millennium/) Jo tietojenkäsittelijän yleissivistykseen kuuluu tunte peruskäsitteet kuten lskentongelm jne., j tämän kurssin tvoitteen onkin tutustutt niihin. Oppimterili Nämä luentomuistiinpnot ovt wikissä: tkt-wiki Kurssien kotisivuj - Course homepges LAP - Lskennn perusmllit ( , 3op). Ne pohjutuvt Kimmo Fredrikssonin luentoihin keväältä Pelkät muistiinpnot eivät välttämättä riitä itseopiskeluun, vn voivt vti tuekseen joko luentojen ti jonkun oppikirjn seurmist. Esimerkiksi kirjn Hopcroft, John E., Motwni, Rjeev j Ullmn, Jeffrey D.: Introduction to Automt Theory, Lnguges nd Computtion, 2. pinos (Addison Wesley, 2001) luvut 1 8.2, j 10 kttvt vltosn kurssin sioist (näitä luentoj yksityiskohtisemmin). Näistä sioist on julkistu moni muitkin oppikirjoj, kuten esimerkiksi Lewis nd Ppdimitriou (1981), Sipser (2005) j Sudkmp (1997), joit voi myös käyttää. 2 Kurssin sem tietojenkäsittelytieteessä Erään määritelmän mukn tietojenkäsittely tutkii 1. milliset tietojenkäsittelytehtävät on mhdollist utomtisoid j 2. miten tämä utomtisointi tulisi suoritt. Peruskurssien (j useimpien muidenkin kurssien) lähestymistp on yleensä konstruktiivinen, eli koht 2. Esimerkiksi TRA: Kehitetään nnetun lskentongelmn tehokksti rtkisev lgoritmi j sen trvitsemt tietorkenteet. Tällä kurssill pinolue onkin kohdss 1. Osoittutuu, että on olemss erilisi tehtäviä: 1. Tehtäviä, joit ei edes peritteess voi utomtisoid minkäänlist lgoritmi ei voi oll olemss. 2. Tehtäviä, jotk kyllä voi utomtisoid, mutt vin tehottomsti tehokst lgoritmi ei voi oll olemss. 3. Tehtäviä, jotk voi utomtisoid j tehokksti tehokskin lgoritmi on keksitty, edellä tehtäväluokk P. 4. Tehtäviä, joist emme vielä tiedä ovtko ne tyyppiä 2 viko 3 erityisesti edellä NP. 2

5 2.1 Histori Lskentongelmn käsitteen muotoilu sekä ongelmien erottelu utomtisoitumttomiin (eli tyyppiin 1) j utomtisoituviin tehtiin 1930-luvull. Siis jo ennen tietokoneit! (Ensimmäiset yleiskäyttöiset tietokoneet rkennettiin pin II milmnsodn jälkeen.) Motivtion oli mtemtiikn filosofin j formlin logiikn kehitys: Hluttiin erott toisistn selliset mtemttiset j loogiset ongelmt, jotk vtivt ito luovuutt, sellisist joihin riitti pelkkä lskeminen siis nt trkk formli määritelmä rkikielen käsitteelle mekninen lskent. Näin syntyi lskettvuuden teori yhdeksi keskeiseksi osksi mtemttist logiikk. Tällä kurssill esitetään mekniselle lskennlle trkk formli määritelmä käyttäen ns. Turingin koneit tietokonepioneeri Aln M. Turingin vuonn 1936 esittämää strkti mtemttist mlli hypoteettiselle lskulitteelle. Smn ikn oli muitkin loogikkojen ehdotuksi meknisen lskennn määritelmäksi, esimerkiksi: Kurt Gödel kehitti 1930-luvun lust lken rekursiivisten funktioiden teori osn kuuluisn (ensimmäisen) epätäydellisyysluseens todistust. Iden oli induktio: funktion seurv rvo f(n+1) voidn määritellä edellisen rvon f(n) vull, joss n N. Alonzo Church esitti vuonn 1936 omn λ-lskentns. Iden oli lskent lusekkeen sievennyksenä. Nämä ts olivt tärkeitä ohjelmoinnin j ohjelmointikielten kehitykselle. Tällä kurssill niitä ei käsitellä, mutt kurssill Johdtus funktionliseen ohjelmoitiin (FOH) sivutn λ-lskent. Miksi vlittiin Turingin litelähtöinen lähestymistp meknisen lskennn määritelmäksi eikä Gödelin ti Churchin ohjelmointilähtöistä? Eksplisiittinen lite jok kulke rksutt kuin kello on konkreettisempi käsite kuin induktio ti sievennys joiden voisi epäillä sittenkin vtivn sitä ito luovuutt... Lskentn kuluv ik j til on helpompi määritellä litteen kuin siinä pyörivän ohjelmn kutt. Tietokoneiden yleistymisen myötä lettiin huomt, että tämä mekninen lskent jkutui edelleen vivlloiseen (eli tyypin 2) j vivttomn (eli tyypin 3) mekniseen lskentn. Yksi tp selventää tätä jko on tutki vielä yksinkertisempi lskulitteit kuin Turingin kone. Tätä utomttien teori on kehitetty 1960-luvult lähtien. Tällä kurssill tutustummekin sen keskeisiin käsitteisiin kuten äärellisiin j pinoutomtteihin. 3

6 Toinen tp on sett resurssirjoj Turingin koneille. Tätä lskennn vtivuusteori on kehitetty 1970-luvult lähtien. Sen keskeinen ongelm on juuri edellä minittu P? = NP. Vtivuusteori kuitenkin jätetään vltosin kursseille ASA j LAT. 2.2 Kurssin sisältö tästä eteenpäin 1. Johdnto: Yleisktsus lskennn teorin, lskennn vtivuusteorin j lskennn mlleihin. Kurssill käytettävien käsitteiden j nottioiden määritelmiä. 2. Säännölliset kielet: äärelliset utomtit j säännölliset lusekkeet. Äärelliset utomtit ovt mhdollisimmn yksinkertisi lskulitteit. Säännölliset kielet ts ovt sellisi merkkijonojoukkoj, joihin kuuluminen voidn rtkist näillä litteill. Säännölliset lusekkeet ts ovt nottio, joll niitä voidn kuvt lyhyesti. Kun esimerkiksi kirjoitt Linuxin komentoriville ls *.jr niin käytät säännöllistä lusekett *.jr kuvilemn säännöllisen kielen kikki selliset ASCII-merkkijonot, jotk päättyvät merkkijonoon.jr j kone list sinulle kikki ne tämän hkemiston tiedostonimet, jotk tämän kielen tunnistv utomtti hyväksyy sen jäseniksi. Käytännössä niihin törmää esimerkiksi merkkijonolgoritmeiss sekä hjutettujen järjestelmien mllintmisess. 3. Kontekstittomt kielet j kieliopit sekä pinoutomtit. Vstvsti pinoutomtit ovt hiemn mutkikkmpi lskulitteit j kontekstittomt kielet niitä, joit ne voivt tunnist. Ne ovt käytännössä tärkeitä rkenteisen syötteen käsittelyssä. Esimerkiksi HTML, XML sekä rkenteisell ohjelmointikielellä kirjoitettu lähdekoodi ovt rkenteisi syötteitä, kosk niissä on mielivltisen mutkikkit sisäkkäisyyksiä, joist syötettä lukevn ohjelmn pitää ott selvää. Esimerkiksi HTML-syötettä lukevn ohjelmn pitää löytää korostuksen loittvlle tgille <em> juuri oike sitä vstv lopettv tg </em>, j niiden välissä voi oll muit senkltisi tgprej, jotk pitää smoin pritt. Kontekstittomt kieliopit ts ovt näiden kielten kuvilutp, vstvsti kuin säännölliset lusekkeet ovt säännöllisille kielille. 4. Johdnto lskennn teorin, eli lskettvuuden teorin j lskennn vtivuusteorin peruskäsitteisiin. Lskennllisesti vtiviin ti jop kokonn rtkemttomiin ongelmiin törmää esimerkiksi tekoälyssä sekä ohjelmien j järjestelmien formliss verifioinniss. 4

7 3 Johdnto Lskennn teori (theory of computtion) käsittelee sitä, miten ongelm luokitelln rtkevuuden, vikeuden j tehokuuden perusteell ennen kuin se rtkistn. Se jetn perinteisesti khteen os-lueeseen: Lskettvuuden teori (theory of computility) tutkii, mitä tietokoneell ylipäänsä voidn rtkist j kuink vike nnettu ongelm on. Ongelmien vikeus määritellään melko krkell tsoll sen perusteell, kuink monimutkist lskennn mlli rtkisuss trvitn. Lisäksi lskettvuuden teori nt hyviä eväitä itse rtkisun ltimiseen. (LAP, LAT) Lskennn vtivuusteori (theory of computtionl complexity) tutkii, kuink tehokksti ongelm voidn rtkist. Lskennn vtivuusteori muistutt lgoritmien nlyysi, mutt siinä ei määritellä yksittäisen rtkisulgoritmin ik- ti tilvtivuutt, vn itse ongelmn phimmn tpuksen ik- j tilvtivuusluokk. Lskennn vtivuusteori nt myös hyvät eväät ongelmien pluttmiseksi toisiin, jo tunnettuihin ongelmiin. (LAT, ASA) Tällä kurssill käsitellään jonkin verrn lskennn teorin ensimmäistä os-luett eli lskettvuuden teori. Aihepiirinä ovt lskennlliset ongelmt j niiden rtkisun mekniset mllit, joit kutsutn lskennn mlleiksi. Käsittelemme kht eri lskennn mlli äärellisiä utomttej j pinoutomttej sekä tutkimme, mitä kullkin mllill voidn rtkist. Kurssin loppupuolell esitellään lyhyesti myös Turingin koneet (joist enemmän kurssill LAT). Lskettvuuden teorist Lskennn mekninen mlli, utomtisointi, trkoitt tämän kurssin knnlt lgoritmin esittämistä. Intuitiivisesti lgoritmi kuv tietojenkäsittelyprosessin niin täsmällisesti, että se voidn tämän kuvuksen perusteell suoritt meknisesti (ilmn luov jttelu ). Meknisen lskennn trkemmksi määrittelemiseksi, eli lgoritmikäsitteen mtemttiseksi formlisoimiseksi, on kksi lähestymistp: 1. Lähdetään liikkeelle tyhjästä j mietitään, mitä voidn pitää meknisen lskentn. 2. Otetn lähtökohdksi nykyiset tietokoneet, jotk selvästi suorittvt meknist lskemist, j pelkistetään pois epäolennisuudet. Kosk mekninen lskent on keskeistä mtemtiikn perusteiden trksteluss, mtemtikot j loogikot miettivät si pljon 1930-luvull. He sovelsivt luonnollisesti lähestymistp 1 kosk tietokoneit ei silloin vielä ollut. 5

8 Jos ts hlutn sovelt tuloksi käytännön tietojenkäsittelyyn, lähestymistp 2 tuntuisi lupvmmlt. Tämä on oleellisesti se tp, jot käytettiin esimerkiksi kurssill TRA, kun siellä lskettiin symptoottisi resurssitrpeit eli O-rvioit. Onneksi osoittutuu, että lähestymistvt 1 j 2 johtvt smn lgoritmikäsitteen formlisointiin. Siis mtemttist logiikk j tietokoneit koskevill peritteellisill rjoituksill on syvällinen yhteys. Lskettvuuden teori trkstelee näitä rjoituksi, eli sitä millisille ongelmille on olemss rtkisulgoritmi. Automttiteori Kun on stu vlmiiksi strkti mlli tietokoneelle, voidn kysyä, mikä muuttuu, jos mllist jätetään jokin piirre pois. Rjoitettujen mllien trksteleminen utt ymmärtämään yleisempiä mllej. Äärellinen utomtti on hyvin yksinkertinen (strkti) lskentlite, joll kuitenkin voi tehdä mielenkiintoisi sioit. Teoreettisen mielenkiinnon lisäksi se on hyödyllinen käytännössä ohjelmointi- j mllinnustekniikkn. Kontekstittomt kieliopit ovt hiemn äärellisiä utomttej ilmisuvoimisempi meknismi, joll on tärkeitä sovelluksi esimerkiksi ohjelmointikielten määrittelemisessä j kääntämisessä j luonnollisen kielen mllintmisess. 3.1 Lskennlliset ongelmt Lskennllinen ongelm = mikä thns tehtävä, jok voidn mllint rtkistvksi digitlisell tietokoneell. (Kuv 1.) Lskennllisi ongelmi: kokonislukujen kertolsku kirjstokortiston kkostminen yrityksen plknlskent yliopistollisen kurssin kurssitietojen ylläpito nnetun kokonislukulist järjestäminen... Ongelmn rtkisev ohjelm on sen yksi esitystp. Mihin sijoittuu ongelm Onko oikein huijt tentissä? Jos mielestäsi tentissä huijminen on kikiss olosuhteiss väärin, niin silloin ongelm on trivilisti lskennllinen j tehokksti rtkistviss: Tietenkin voidn kirjoitt ohjelm, jok ei lue syötettään, vn tulost heti Ei!. 6

9 ONGELMA LASKENNALLINEN ONGELMA EI LASKENNALLINEN ONGELMA RATKEAVA ONGELMA RATKEAMATON ONGELMA TEHOKKAASTI RATKAISTAVISSA TEHOKASTA RATKAISUA EI OLE MISSÄ NÄIDEN VÄLINEN RAJA KULKEE? OSITTAIN RATKEAVA TÄYSIN RATKEAMATON (useit eri steit) Kuv 1: Ongelmien hyvin krke luokittelu Jos ts mielestäsi tentissä huijminen voi oll oikein joisskin lieventävissä olosuhteiss niin silloin on mietittävä jtkokysymystä Voiko nämä olosuhteet kuvill tyhjentävästi snllisesti? Jos mielestäsi näiden olosuhteiden kikki relevntit spektit voi kuvill vikkp jollkin sopivll logiikll, niin silloin ongelm on lskennllinen: Jos olosuhteet ovt kuten tämä kv φ kuvilee, niin onko silloin oikein huijt tentissä viko ei? Tämä φ on se syöte, jok luetn, j jonk perusteell rtkistn onko vstus Kyllä! viko Ei!. Ongelm on rtkev, jos tämä käytetty logiikk on riittävän yksinkertinen; muuten rtkemton. Esimerkiksi luselogiikk on rtkev, predikttilogiikk rtkemton. Vikk ongelm olisikin rtkev, se tuskin on tehokksti rtkistviss; looginen päättely on yleensä työlästä tietokoneellekin. Esimerkiksi luselooginen päättely on NP-täydellistä eli luultvsti työlästä. Jos ts olet sitä mieltä, että todellisuus on niin monimutkinen j hienosyinen, ettei voi kuvill loogisesti kikki niitä spektej, jotk voisivt vikutt tälliseen morliseen päätöksentekoon, niin silloin ongelm ei ole lskennllinen: Silloin meillä ei ole riittävän ilmisuvoimist kieltä joll voisimme kuvill olosuhteet riittävän kttvsti j trksti syötekvksi φ. Ongelmn esitys 7

10 Syötteet Tulosteet π (1,1) (1,3)... (2,2) (2,4)... (1,2) (2,3) jne Kuv 2: Kertolskuongelmn syötteet j tulosteet. Lskennllinen ongelm = kuvus äärellisesti esitettävien tpusten joukost äärellisesti esitettävien vstusten joukkoon Ongelmll on potentilisesti ääretön joukko tpuksi ( syötteitä ). Ongelmn rtkisu on lgoritmi, jok liittää kuhunkin tpukseen sen oiken vstuksen ( tulosteen ). Jokisen yksittäisen tpuksen j sen vstuksen on oltv äärellisesti esitettäviä (muutenhn lskent ei päättyisi). Esimerkki 1. Kokonislukujen kertolskuongelmss (kuv 2) tpukset ovt kikki mhdolliset kokonislukuprit (p, q) (merkkijonoiksi koodttun) vstus nnetulle tpukselle on kyseisen lukuprin tulo p q (merkkijonoksi koodttun) rtkisu on mikä thns yleinen kertolskulgoritmi (esimerkiksi se lkkin lskeminen jonk kouluss opimme). Äärellinen esitys Kikki tietokoneen käsittelemä tieto on viime kädessä voitv koodt ittijonoiksi. On luontev slli koodukseen käytettävän myös muit merkkejä kuin itit 0 j 1 (kosk nämä muut merkit voidn tietenkin trvittess edelleen esittää ittijonoin). Määritelmä: äärellinen esitys = äärellisen pituinen merkkijono (eli jono merkkejä) josskin äärellisessä kkostoss. 8

11 Merkkijonoihin liittyviä peruskäsitteitä j merkintöjä Akkosto on äärellinen, epätyhjä joukko lkeismerkkejä eli symoleit. Esimerkiksi inäärikkosto B = {0, 1} j ltinlinen kkosto {A, B, C,..., Z}. Akkosto voidn määritellä ihn miten hlutn, esim: {HiiriVsenNppi, HiiriOikeNppi, HiiriKeskiNppi, HiiriRullYlös, HiiriRullAls}. Merkkijono on äärellinen järjestetty jono jonkin kkoston merkkejä. Esim j 000 ovt inäärikkoston B merkkijonoj, j LAP j XYZZY ovt ltinlisen kkoston merkkijonoj. Merkintä Σ trkoitt kikkien niiden merkkijonojen joukko, jotk voidn muodost nnetun kkoston Σ eli merkkien merkeistä. Siis B = {ε, 0, 1, 00, 01, 10, 11, 000,... }. Tyhjä merkkijono ε ei sisällä yhtään merkkiä. (Huom! Eri si kuin välilyönti ). Merkkijonon x pituus x on siihen sisältyvien merkkien määrä. Esim = XYZZY = 5 j ε = 0. Ktentio on merkkijonojen kirjoittmist peräkkäin, esimerkiksi: jos x = 00 j y = 11, niin xy = 0011 j yx = 1100; kikill x on xε = εx = x; kikill x j y on xy = x + y. Toisto eli merkkijonon ktentio itsensä knss voidn merkitä potenssin: 3 = ( 2 ) 3 = () 3 =. Itse siss merkintä (...) voidnkin luke toisto mielivltisen (mutt äärellisen) mont kert. Käänteismerkkijono x R Esim. (c) R = c. on merkkijono x kirjoitettun tkperin. 3.2 Päätösongelmt j formlit kielet Yleisesti lskennllinen ongelm π on kuvus eli funktio π : Σ Γ joss Σ j Γ ovt kkostoj: syötekkosto Σ on se joll kysymys, j tuloskkosto Γ on se joll vstus kirjoitetn. 9

12 Σ A π A 0 1 Kuv 3: Kielen A Σ päätös- eli tunnistusongelm π A. Päätösongelmt ovt lskennllisten ongelmien liluokk, joss kunkin ongelmn tpuksen vstus on kyllä ti ei. Formlisti päätösongelm on muoto π : Σ B. Intuitio: Yksinkertistetn mutkikst yleiskäsitettä tietokoneohjelm selliseksi, jok lukee syötteenä smns tekstitiedosto 2. käsittelee sitä (eräjon, siis omin päin keskustelemtt käyttäjän knss tms.) 3. tulost lopuksi vstuksenn kyllä ti ei. Esimerkiksi päätösongelm onko nnettu kymmenjärjestelmän luku lkuluku? voidn esittää syötekkoston Σ = {0, 1, 2,..., 9} kuvuksen π : Σ B { 1 jos x on lkuluku, π(x) = 0 jos ei. Yleisesti, jokist päätösongelm π : Σ {0, 1} vst merkkijonojoukko A π = {x Σ : π(x) = 1} eli niiden ongelmn tpusten joukko, joihin vstus on kyllä. Kääntäen, jokist merkkijonojoukko A Σ vst päätösongelm (kuv 3) { 1, jos x A; π A : Σ {0, 1}, π A (x) = 0, jos x / A. Tätä π A kutsutn joukon A krkteristiseksi funktioksi kosk se kertoo kuuluuko nnettu x Σ joukkoon A viko ei. 10

13 Akkoston Σ (formli) kieli = mikä thns merkkijonojoukko A Σ Siis lyhyesti: olemme kiinnostuneit siitä, kuuluuko jokin nnettu merkkijono nnettuun merkkijonojoukkoon. Eli kuuluuko nnettu sn nnettuun kieleen. Kielen A Σ tunnistusongelm = merkkijonojoukkoon A liittyvä päätösongelm π A : Tässä on merkkijono x Σ. Onko x A viko ei? Jtkoss käsittelemme vin päätösongelmi. Huom että tämä ei peritteess ole rjoitus, kosk monimutkisemmt kysymykset voi in pilkko joukoksi kyllä-ei -kysymyksiä... Esimerkiksi monimutkisempi kysymys Mikä on lukujen x j y tulo? voidn pilkko kysymyksiin Onko lukujen x j y tulo = z viko ei? Esimerkki 2. Olkoon A kkoston {+,, 0, 1, 2,..., 9} kieli, jok koostuu yksinkertisist kokonislukuvkioist (esim. Jv-kielessä). Siis 0 A, A j 32 A, mutt A. Tämä kieli A on esimerkki säännöllisestä kielestä. Esimerkki 3. Olkoon B kkoston {+,,, (, ), 0, 1, 2,..., 9} kieli, jok koostuu lillisist kokonislukulusekkeist. Esim B j ( ) 4 5 B, mutt (1 + 2)) B j 3+ B. Tämä kieli B on esimerkki kontekstittomst kielestä. Esimerkki 4. Muodostukoon ASCII-kkoston kieli C niistä Jv-kielisistä ohjelmist, jotk tyhjällä syötetiedostoll joutuvt ikuiseen silmukkn. Kieli C on esimerkki rtkemttomst kielestä. Sitä siis ei void tunnist millään tietokoneohjelmll. Esimerkki 5. Kieli { k : k N } on säännöllinen; kieli { k k : k N } on kontekstiton; kieli { k k c k : k N } on kontekstillinen. Ongelmn vikeuden rviointi päätösongelmill Minkä thns lskennllisen ongelmn vikeuden voi rvioid vstvn päätösongelmn vull (kuv 4). Jos päätösongelm (komponentti M 3 ) on rtkev niin ongelmkin on rtkev rtkemton niin ongelmkin on rtkemton helppo (josskin mielessä) niin ongelmkin on helppo (smss mielessä) jne. Erityisesti, jos kieli A kuuluu säännöllisiin kieliin, niin sen tunnistusongelm π A voidn rtkist helposti rkentmll sen rtkisev äärellinen utomtti; kontekstittomiin niin rkentmll pinoutomtti; rekursiivisiin niin rkentmll Turingin kone. 11

14 input x M 1 M 3 Aset Onko y = 0 π(x) = y on M 4 Tulost rtkisu y ei Generoi seurv y M 2 Kuv 4: Lskentongelm päätösongelmn. Jos kieli A ei kuulu edes rekursiivisiin kieliin, niin sen π A ei ole rtkev linkn. Silloin se voi oll joko osittin rtkev eli voidn tehdä Turingin kone jok os vstt kyllä mutt ei -vstuksen sijst voi myös jäädä ikuiseen silmukkn, ti sitten vieläkin vikempi jolloin se ei enää ole tietojenkäsittelyn vn esimerkiksi mtemttisen logiikn ongelm. Esimerkki 6. Trkstelln kokonislukujen kertolskuongelm: Mitä on pq, missä p, q Z? Merkitään kokonisluvun x merkkijonoesitystä string(x). Nyt u = string(p) v = string(q) w = string(r). Lisäksi käytetään erottimin merkkejä j =. Ongelm Päätösongelm Kuvus Lske pq Onko pq = r? Syöte u v u v = w Tuloste w 0 ti 1 Päätösongelm vstv formli kieli A on joukko merkkijonoj u v = w, joille pätee pq = r: A = {u v = w : pq = r}. Nyt kertolskuongelmn vikeus = kielen A vikeusluokk. Kertolskuongelmn rtkisu päätösongelmll siis generoi (järjestyksessä) kikki mhdolliset rtkisut, j kokeilee milloin sdn vstus 1. (Tämän voisi tehdä toisinkin... ) Kielten vikeusluokt Chomskyn kielihierrki (kuv 5) määrittelee seurvt kielten vikeusluokt: Tyyppi 3: säännölliset kielet (erikoistpuksenn äärelliset kielet). Tyyppi 2: kontekstittomt kielet (ti yhteysvpt ti yhteydettömät ). 12

15 rtkemttomt ongelmt tyyppi 0: rjoittmttomt kielet rekursiivisesti lueteltvt kielet tunnistus: universli Turingin kone (pysähtyy "kyllä" tpuksess) rekursiiviset kielet tunnistus: Turingin kone + riittävän mittinen työnuh (pysähtyy in), RAM kone, ohjelmointikielet tyyppi 1: kontekstiset kielet tunnistus: Turingin kone + kohtuullisen (eli polynomisen) mittinen työnuh tyyppi 2: kontekstittomt kielet tunnistus: pinoutomtti tyyppi 3: säännölliset kielet tunnistus: äärellinen utomtti vkiomäärä muisti äärelliset kielet Kuv 5: Chomskyn kielihierrki. Tyyppi 1: kontekstilliset kielet (ti kontekstiset ti yhteyksiset ). Tyyppi 0: rjoittmttomt kielet = rekursiiviset rekursiivisesti lueteltvt (ti numeroituvt ) kielet. Nom Chomsky on erittäin merkittävä kielitieteilijä, j hänen hierrkissn on vstv näkökulm: esimerkiksi kontekstittomill kielillä on suor yhteys tietynlisiin formleihin kielioppeihin j kontekstillisillä kielillä sellisiin kielioppeihin, joiss huomioidn myös luseyhteys. Esimerkki 7. Joillekin yksinkertisille ohjelmointikielille (kuten Pscl) pätee Leksiklisesti oikeiden ( muodostuu oikeist snoist ) ohjelmien joukko voidn tuott säännöllisillä kielillä ( oikelle linerinen kielioppi ). Syntktisesti oikeiden ( snt järkevässä järjestyksessä ) ohjelmien joukko voidn tuott kontekstittomill kielillä. Kontekstilliset j rekursiiviset kielet eivät kuulu kurssin lueeseen, mutt näillä voitisiin kuvt ohjelmn suorittm lskent... Toislt kikkien ohjelmien joukko jotk rtkisevt jonkin ongelmn ei voi kuvt kieliopill. 13

16 Lskennlliset ongelmt Kikki inäärijonot Σ={0,1} Päätösongelmt Lilliset konekieliohjelmt Rtkevt päätösongelmt Päätösongelmien rtkisuohjelmt Kuv 6: Lskennlliset ongelmt vs. ohjelmt. Rjoittmttomt kielet koostuvt rekursiivisist kielistä, joiden tunnistusongelm on rtkev rekursiivisesti lueteltvist kielistä, joiden tunnistusongelm on osittin rtkev. Sellisell kielellä on ohjelm, jok tulost sen merkkijonot äärettömänä luettelon x 0, x 1, x 2, Lskennllisten ongelmien rtkevuus Läheskään kikki lskennllisi(kn) ongelmi ei void rtkist tietokoneell yksinkertisesti jo siksi, että ongelmi on ylinumeroituvn mont ( yhtä mont kuin relilukuj R ) mutt rtkisuohjelmi vin numeroituvn mont ( yhtä mont kuin luonnollisi lukuj N ). Perustelu Tietokoneohjelmt ovt merkkijonoj. 2. Minkä thns kkoston merkkijonojen joukko on numeroituvsti ääretön (luse 1). 3. Ongelmn rtkisevi tietokoneohjelmi on korkeintn numeroituv määrä. 4. Lskennllisi ongelmi on vähintään yhtä pljon kuin päätösongelmi. 5. Minkä thns kkoston päätösongelmien joukko on ylinumeroituv (luse 2). 6. Lskennllisi ongelmi on ylinumeroituvn mont. 7. Jokiselle lskennlliselle ongelmlle ei millään riitä sen rtkisev tietokoneohjelm. 14

17 Akkoston merkkijonoj on numeroituv määrä Luse 1. Minkä thns kkoston Σ merkkijonojen joukko Σ on numeroituvsti ääretön. Todistus: Olkoon Σ = { 1, 2,..., n }. Kiinnitetään merkeille jokin kkosjärjestys, esim. 1 < 2 < < n. Joukon Σ merkkijonot voidn järjestää seurvsti (knoniseen järjestykseen): 1. Ensin luetelln 0:n mittiset merkkijonot (= ε), sitten 1:n (= 1, 2,..., n ), sitten 2:n (= 1 1, 1 2, 1 3,..., 1 n, 2 1, 2 2, 2 3,... ) jne. 2. Kunkin pituusryhmän sisällä merkkijonot luetelln kkosjärjestyksessä. Jokiseen luonnolliseen lukuun n voidn siis liittää Σ :n merkkijono j päinvstoin, joten Σ on numeroituv. Vdittu ijektio f : N Σ luseess 1 on: 0 ɛ n n n n n 1 n 2n n 2 n. n 2 + n n n n 2 + n n 2 + n Päätösongelmi on ylinumeroituv määrä Luse 2. Minkä thns kkoston Σ päätösongelmien joukko on ylinumeroituv. Todistus: Merkitään kkoston Σ kikkien päätösongelmien kokoelm Π = {π : π on kuvus Σ {0, 1}}. Tehdään vstväite: Oletetn, että Π onkin numeroituv, eli että on olemss numerointi Π = {π 0, π 1, π 2,...}. Olkoot Σ :n merkkijonot knonisess järjestyksessä lueteltuin x 0, x 1, x 2,

18 Muodostetn uusi päätösongelm ˆπ: ˆπ : Σ {0, 1}, ˆπ(x i ) = { 1, jos πi (x i ) = 0; 0, jos π i (x i ) = 1. Kosk oletuksen mukn ˆπ Π (kosk Π on kikkien päätösongelmien joukko), niin ˆπ = π k jollkin k N. Tällöin { 1, jos πk (x ˆπ(x k ) = k ) = ˆπ(x k ) = 0; 0, jos π k (x k ) = ˆπ(x k ) = 1. Tämä on ristiriit. Siis vstoletus, että joukko Π on numeroituv, on väärä. Todistus 2 kuvn: Ajtelln (ääretöntä) tulukko ongelmist π 0, π 1, π 2,... j merkkijonoist x 0, x 1, x 2,.... Ongelm ˆπ poikke kikist muist ongelmist π i tulukon digonlill, vikk i ksvisi äärettömään: ˆπ π 0 π 1 π 2 π 3 x x 1 0 x x Suomeksi: ˆπ ei voi esiintyä tulukon millään srkkeell, joten päätösongelmi (j yleisemmin lskennllisi ongelmi) on ylinumeroituv määrä. (Eli ˆπ ero jokisest srkkeest inkin yhdessä koht.) Tämä todistustekniikk on ns. Cntorin digonlirgumentti joll hän todisti, että relilukuj 0 x < 1 on idosti enemmän kuin luonnollisi lukuj. Käytännössä tämä merkitsee sitä, että kikist lskentongelmist voidn esimerkiksi Jv-ohjelmill rtkist vin häviävän pieni os: ylinumeroituvn joukon numeroituv osjoukko. Sm pätee kikill ohjelmointikielillä, sillä kikki riittävän vhvt ohjelmointikielet määrittävät täsmälleen smn rtkevien ongelmien luokn (ns. Churchin Turingin teesi). (Jotkut ovt spekuloineet kvnttikoneiden olevn idosti vhvempi, mutt tätä ei ole todistettu... ) Useimmt lskennlliset ongelmt ovt siis soluuttisesti rtkemttomi. Vlitettvsti rtkemttomt ongelmt käsittävät myös moni mielenkiintoisi / käytännöllisiä ongelmi, erityisesti pysähtymisongelmn: jos on nnettu ohjelm P j sen syöte w, niin pysähtyykö ohjelmn P lskent syötteellä w vi jääkö se ikuiseen silmukkn? (Tämä ongelm on kuitenkin osittin rtkev... ) 16

19 3.3.1 Churchin Turingin teesi Churchin Turingin teesi väittää seurv: Epäformlin käsitteen funktio f on meknisesti lskettviss oike formli vstine on f on lskettviss Turingin koneell. Siis että on olemss Turingin kone M f rvon f(x) j pysähtyy. jok syötteellä x tulost sitä vstvn Tämä on teesi eikä tulos: sitä ei voi todist, kosk sehän väittää että nyt olemme löytäneet juuri sen oiken määritelmän tälle rkikielen käsitteelle. Teesin tueksi voi esittää seurv: : Turingin koneet ovt niin yksinkertisi litteit, että jos f on lskettviss koneell M f, niin silloin f on selvästi meknisesti lskettviss. : Muutkin esitetyt yleisesti hyväksytyt vihtoehtoiset määritelmät voidn toteutt myös Turingin koneill. Helppo suunt on näyttää, että nnettu Turingin kone M voidn toteutt jollkin tämän vihtoehtoisen määritelmän mukisell ohjelmn P M. Vike suunt on näyttää, että nnettu tämän vihtoehtoisen määritelmän mukinen ohjelm Q voidn toteutt myös jollkin Turingin koneell M Q eli kääntäjä. Tällisi muit vihtoehtoisi mllej ovt esimerkiksi edellä minitut Gödelin j Churchin omt ehdotukset RAM-koneet, jotk ovt idelisoitu mlli nykyikiselle digitliselle tietokoneelle jop kksilskurikoneet, joiss on vin kksi muuttuj x, y N sekä opertiot ksvt/vähennä muuttujn rvo yhdellä j testi if muuttujn rvo on = 0 then... John Conwyn Life -peli, jne Pysähtymisongelmn rtkemttomuus Olemme edellä nähneet, että vltos päätösongelmist on rtkemttomi lskemll, että niitä on pljon enemmän kuin rtkisulgoritmej. Osoitetn nyt yksi konkreettinen päätösongelm rtkemttomksi eli että rtkemttomuus on joidenkin oikeidenkin ongelmien piirre, eikä pelkkä mtemttinen ilmiö. Kiinnitetään lskentmlliksemme vikkp C-ohjelmointikieli. Church Turingin teesin nojll sm pätee myös muillkin yhtä ilmisuvoimisill lskentmlleill. Pysähtymisongelmn C-kielinen tulkint on: Ei ole olemss totlist (in pysähtyvää) C-ohjelm, jok rtkisisi, pysähtyykö nnettu C-ohjelm P nnetull syötteellä w. 17

20 Tehdään vstoletus, että voitisiinkin kirjoitt totlinen C-funktio ool h(chr p[],chr w[]) jonk syöteprmetrit ovt p: merkkijono, jok sisältää tutkittvn C-kielisen ohjelmn P lähdekoodin w: merkkijono, jok sisältää tutkittvn syötteen w j jonk tulos on true jos ohjelmn p suoritus syötteellä w pysähtyisi flse jos se jäisi ikuiseen silmukkn. Vstoletust käyttäen voitisiin kirjoitt toinen C-funktio void g(chr p[]){ if (h(p,p)) while (true); } jok siis pysähtyy täsmälleen silloin, kun C-lähdekoodi p ei pysähtyisi sdessn syötteenään omn itsensä. Olkoon q tämän funktion g lähdekoodi merkkijonon. Mitä tphtuu kutsuss g(q)? Sdn hluttu ristiriit: g(q) pysähtyy h(q,q) plutt flse g(q) ei pysähdykään! Niinpä tehty vstoletus ei pädekään. Tässä todistuksess istutetn ns. vlehtelijn prdoksi Tämä luse on vlhett! totuuden sijst lskennn pysähtymiseen. Sm ide käytti jo Kurt Gödel kuuluisiss epätäydellisyysluseissn istuttmll se totuuden sijst todistuvuuteen: Tällä väitteellä ei ole todistust! Formlismist (Tietojenkäsittely)tieteessä on rvokst, että lskent sdn esitetyksi täsmällisessä mtemttisess muodoss. Jtkoss hlumme esittää väitteitä muoto: Kikki äärelliset utomtit toteuttvt ehdon p j konstruktioit Mistä thns ehdon r toteuttvst utomtist voidn muodost utomtti, jok toteutt ehdon s. Onnistuu kyllä tiettyyn rjn skk piirtämällä kuvi j heiluttmll käsiä (kuten tällä kurssill vrmn pljolti tulln tekemään... ), mutt uskottvuuden j ymmärrettävyyden rjt tulevt melko pin vstn. Mtemttinen formlismi on työklu, jot on hyvä opetell käyttämään... 18

21 4 Säännölliset kielet j äärelliset utomtit Äärellinen utomtti (englnniksi (Finite Stte Automton, FSA) ) on hyvin yksinkertinen lskennn mlli (eli strkti lskentlite). Säännölliset kielet (englnniksi [(regulr lnguges) ) on se luokk lskentongelmi, jonk näin yksinkertisell litteell pystyy rtkisemn. Näillä tekniikoill on sovelluksi esim. merkkijonolgoritmeiss. Tvoitteet: oppi mitä ovt äärelliset utomtit j säännölliset lusekkeet j mikä on niiden välinen suhde muodostmn yksinkertisi äärellisiä utomttej j säännöllisiä lusekkeit (englnniksi (regulr expressions) ) tekemään muunnoksi determinististen j epädeterminististen äärellisten utomttien j säännöllisten lusekkeiden välillä. osoittmn kieli joko säännölliseksi ti epäsäännölliseksi. Esimerkki 8. Khviutomtti, jok ei nn vihtorh, hyväksyy vin 50 sentin j yhden euron kolikoit j minimimksu on 2 euro. Millisi syötejonoj khviutomtti hyväksyy? Kelvollisi syötejonoj ovt esim. seurvt (yksikkönä snt): Ts. khviutomtti hyväksyy syötejonot, jotk ovt muoto 1 euro + 1 euro + [0 ti usempi 50 sentin ti 1 euron kolikoit] 1 euro + 50 senttiä + [1 ti usempi 50 sentin ti 1 euron kolikoit] 50 senttiä + 1 euro + [1 ti usempi 50 sentin ti 1 euron kolikoit] jne... Khviutomtin toimint voidn kuvt äärellisenä utomttin. Automtin syötteitä ovt 50 sentin j 1 euron kolikot j utomtti hyväksyy syötejonon, jos siihen sisältyvien rhojen summ on vähintään 2 euro Automtti voidn esittää tilsiirtymäkvion (kuv 7). TRA-kurssin terminologill se olisi suunnttu verkko jonk kret on pinotettu syötekkosill. Automtill on 19

22 50, q 0 q q , 100 q q 3 Kuv 7: Khviutomtti. q Til q q 0 Alkutil Hyväksyvä til Hylkäävä lopputil q q Tilsiirtymä δ(q, ) = q Kuv 8: Tilsiirtymäkvion merkinnät. tiloj (5 kpplett), jotk on esitetty ympyröinä j nimetty q 0,... q 4, siirtymiä jotk on esitetty tilojen välisinä krin; kkosto jonk symoleill siirtymät on merkitty; lkutil (til q 0 ) jok on merkitty tyhjästä tulevll krell; j hyväksyvä til (til q 4 ) jok on rengstettu. Tilojen nimet ovt vpvlintisi, utomtin toimintn ne eivät vikut. 4.1 Äärellisen utomtin esitystpoj Tilsiirtymäkvion eli kuvien 7 j 8 mukisen piirroksen. Tilsiirtymätulukkon joss 20

23 jokisell tilll on om rivinsä jokisell syötekkosell on om srkkeens tiln p srke c ilmoitt sen tiln (eli rivin) jonne siirrytään tilst p merkillä c. Kuvn 7 khviutomtin tilsiirtymätulukko on yhtälönä (1). 50 snt 1 euro q 0 q 1 q 2 q 1 q 2 q 3 q 2 q 3 q 4 q 3 q 4 q 4 q 4 q 4 q 4 (1) Esimerkki 9. Etumerkillisen kokonisluvun tunnistminen. Tilsiirtymäkvion (joss d = {0, 1,..., 9} ovt 10-järjestelmän lukumerkit): d +, d q 0 q 1 q 2 d Tilsiirtymätulukkon: d +, q 0 q 2 q 1 q 1 q 2 q 2 q 2 Tulukon puuttuvt kohdt vstvt virhetil Error. Tehtävä 1. C-kielessä 0-lkuiset luvut tulkitn oktliluvuiksi (jolloin merkkejä 8 j 9 ei sllit linkn), j lkuiset 10-kntisiksi luvuiksi. Muut esimerkin 9 utomtti siten, että nämä tpukset erotelln, eli että ne johtvt eri hyväksyviin tiloihin. Tehtävä 2. (Jtko tehtävään 1.) C-kielessä 0x-lkuiset luvut tulkitn heksdesimliluvuiksi. Ot tämäkin huomioon. Ohjelmn tässä C-ohjelmointikielellä: int q=0; int c; while ((c=fgetc(stdin))!= EOF) switch (q) { cse 0: if (c== + c== - ) q=1; else if (isdigit(c)) q=2; else q=3; rek; cse 1: if (isdigit(c)) q=2; else q=3; rek; 21

24 cse 2: if (isdigit(c)) else rek; cse 3: rek; } q=2; q=3; Esimerkki 10. C-kielen mukisen etumerkittömän liukulukuvkion tunnistv utomtti: d. E, e +, d 2 3. d e,e 4 d e,e 5 d 7 d d +, 6 d 4.2 Äärellisen utomtin formli määrittely Äärellinen utomtti M koostuu seurvist osist: ohjusyksiköstä joss on äärellinen määrä tiloj j jonk toimint ohj utomtin siirtymäfunktio δ syötenuhst jok on jettu yhden syötemerkin kokoisiin pikkoihin. nuhpäästä jok kullkin hetkellä osoitt yhtä syötenuhn merkkipikk. 22

25 i n p u t q 1 q 2 q 0 δ Automtin toimint Automtti käynnistetään erityisessä lkutilss q 0, siten että trksteltv syöte on kirjoitettun syötenuhlle j nuhpää osoitt sen ensimmäistä merkkiä. Yhdessä toimint-skeless utomtti lukee nuhpään kohdll olevn syötemerkin, päättää ohjusyksikön tiln j luetun merkin perusteell siirtymäfunktion mukisesti ohjusyksikön uudest tilst, j siirtää nuhpäätä yhden merkin eteenpäin. Automtti pysähtyy, kun viimeinen syötemerkki on käsitelty. Jos ohjusyksikön til tällöin kuuluu erityiseen (hyväksyvien) lopputilojen joukkoon, niin utomtti hyväksyy syötteen, muuten hylkää sen. Automtin tunnistm kieli on sen hyväksymien merkkijonojen joukko. Määritelmä 1. Äärellinen utomtti on viisikko M = (Q, Σ, δ, q 0, F ), missä Q on utomtin tilojen äärellinen joukko; Σ on utomtin syötekkosto; δ : Q Σ Q on utomtin siirtymäfunktio; q 0 Q on utomtin lkutil; F Q on utomtin hyväksyvien tilojen joukko. 23

26 Siirtymäfunktio δ on määritelmän 1 kiinnostvin os. Intuitiivisesti: Jos utomtti on nyt tilss q j seurvksi tulee merkki c niin silloin siirrytään tiln δ(q, c), eli siihen jonk siirtymäfunktio ilmoitt. Toisin snoen: Siirtymäfunktion rvo δ(q, c) = tilsiirtymätulukon sisältö sen rivillä q j srkkeell c. Esimerkki 11. Kokonislukuutomtin (esimerkki 9) formli esitys on joss δ on kuten tulukoss; esim. M = ({q 0, q 1, q 2, error}, {0, 1,..., 9, +, }, δ, q 0, {q 2 }), jne. δ(q 0, 0) = δ(q 0, 1) = δ(q 0, 2) = = δ(q 0, 9) = q 2 δ(q 0, +) = δ(q 0, ) = q 1 δ(q 1, +) = δ(q 1, ) = error Automtin lskennn mtemttinen esitys Automtin tilnne on pri (q, w) Q Σ joss q = utomtin nykyinen til w = syötemerkkijonon vielä käsittelemätön loppuos. Erityisesti utomtin lkutilnne syötteellä x on pri (q 0, x) joss q 0 on utomtin lkutil. Tilnne (q, cw), joss c Σ on seurv syötemerkki, joht suorn tilnteeseen (δ(q, c), w). Tätä merkitään lyhyesti (q, cw) (δ(q, c), w). Tilnne (q, w) joht tilnteeseen (q, w ) jos on olemss välitilnnejono (jollkin n N). (q, w) (q 1, w 1 ) (q 2, w 2 ) (q 3, w 3 ) (q n, w n ) (q, w ) Tätä merkitään lyhyesti (q, w) (q, w ). Jos hlutn merkitä näkyviin minkä utomtin M tilnnejonoist on kyse, niin voidn käyttää lindeksiä: siis M j M. Automtti M hyväksyy syötemerkkijonon x Σ, jos j muuten hylkää sen. (q 0, x) (q f, ε) joss q f F Toisin snoen, utomtti M hyväksyy syötteen x, jos sen vstv lkutilnne (q 0, x) joht johonkin hyväksyvään lopputilnteeseen, kun koko x on luettu. 24

27 Vstv välitilnnejono (q 0, x) M (q, ε) kutsutn utomtin M lskennksi syötteellä x. Se on siis hyväksyvä lskent jos lopputil q F j hylkäävä jos q F. Vihtoehtoisesti voidn ljent siirtymäfunktion δ yksittäisiltä merkeiltä Σ kokonisille merkkijonoille w Σ (j niin teemmekin jtkoss): δ (q, w) = q silloin kun (q, w) (q, ε). (2) Siis δ (q, w) = se til johon päästään loittmll tilst q j lukemll merkkijono w loppuun skk. Erityisesti δ (q, ε) = q j δ (q, ) = δ(q, ), kun Σ. Automtti siis hyväksyy merkkijonon w, jos δ (q 0, w) F Tämä on helppo määritellä myös rekursiivisesti: { δ q jos w = ε (q, w) = δ (δ(q, ), v) jos w = v joss Σ Siitä sdn suorn rekursiivinen lgoritmi, jonk rekursio on niin yksinkertist (ns. häntärekursiot), että siitä sdn suorn pelkkä while-silmukk. 4.3 Säännöllinen kieli Automtti M tunnist kielen { } L(M) = x Σ : (q 0, x) (q f, ε) jollkin q f F M = {x Σ : δ (q 0, x) F } eli niiden merkkijonojen x joukon, jotk M hyväksyy. Snomme, että kieli A on säännöllinen, jos jokin äärellinen utomtti tunnist sen, ts. A = L(M) jollin M. Huom, että säännöllisyys on kielen, eli merkkijonojoukon ominisuus, ei yksittäisen merkkijonon. Ei ole mielekästä kysyä yksittäisestä merkkijonost, onko se säännöllinen. (Mistä thns merkkijonost w Σ voidn toki muodost yksilkioinen kieli {w} Σ, jok on selvästi säännöllinen.) Esimerkki 12. Lillisen merkkijonon käsittely kuvn 9 kokonislukuutomtill: (q 0, +1210) (q 1, 1210) (q 2, 210) (q 2, 10) (q 2, 0) (q 2, ε) Nyt jäätiin hyväksyvään lopputiln q 2 eli L(M). Littomn merkkijonon lskent onkin (q 0, ) (q 2, ) (q 2, + 10) (error, 10) eli päädyttiin virhetiln error eli L(M). 25

28 Äärelliseen utomttiin voidn helposti lisätä muutkin tulostust j toimintoj kuin pelkkä hyväksyminen ti hylkääminen. Nämä ovt pelkkiä sivuvikutuksi eivätkä ne vikut utomtin toimintn siihen, miten se vlitsee tilsiirtymänsä ti jos ne vikuttvt, niin silloin kyseessä ei enää olekn äärellinen utomtti, vn jokin muu sitä vhvempi lskennn mlli. Tälliset modifiktiot eivät tämän kurssin knnlt tuo mitään kovin oleellist uutt sin. Muiss yhteyksissä ne voivt kuitenkin oll hyvinkin hyödyllisiä. Esimerkki 13. Lisätään esimerkin 9 etumerkillisen kokonisluvun tunnistmiseen toiminto, jok lskee luvun rvon muuttujn vlue eli muunt syötemerkkijonon sitä vstvksi kokonisluvuksi. Huom: Jos utomtti hylkääkin syötteensä, niin silloin vlue ei trkoit mitään! int q=0; int c; int sign=1; int vlue=0; while ((c=fgetc(stdin))!= EOF) switch (q) { cse 0: if (c== + ) q=1; else if (c== - ) { q=1; sign=-1; } else if (isdigit(c)) { q=2; vlue=c- 0 ; } else q=3; rek; cse 1: if (isdigit(c)) { q=2; vlue=10*vlue+sign*(c- 0 ); } else q=3; rek; cse 2: if (isdigit(c)) { q=2; vlue=10*vlue+sign*(c- 0 ); } else q=3; rek; cse 3: rek; } Sivuhuomutus: Äärellisen utomtin tämän tpinen formlimpi ljennus on nimeltään äärellinen trnsdukteri (finite stte trnsducer). Tässä jokiseen tiln liittyy pitsi yhden syötemerkin lukeminen, niin myös yhden (ti usemmn) tulostemerkin kirjoittminen erilliselle tulostenuhlle (ti syötteen päälle). Ohjelmointikielten kääntämisessä ensimmäinen vihe on leksiklinen nlyysi eli selus. Trkoituksen on poimi j erotell ohjelmn lähdekoodist erityyppiset lkiot, kuten kokonislukuvkiot (rvoineen), vrtut snt (if, else, while, jne.), muuttujien nimet, jne. Siis esimerkiksi nähtyään merkit for tällinen selj lukee vielä yhden merkin c eteenpäin. Jos tämä c on jokin muuttujn nimessä sllittu merkki, niin se tietää kokovns nyt muuttujn nimeä muoto forc... ; muuten se tietääkin löytäneensä vrtun snn for j tämä c kuuluukin seurvn lkioon. Selj voidn toteutt (j usein toteutetn) yhtenä äärellisenä trnsdukterin, jok lukee lähdekooditiedosto merkki merkiltä j nähtyään jonkin kokonisen lkion tulost vstvn tiedon. 26

29 Selj ei kuitenkn (yleensä) koodt käsin, vn sen koodi voidn tuott utomttisesti ohjelmointikielen kuvuksest jollin sopivll työklull (esim. lex j sen GNU-versio flex), jok myös voi utomttisesti liittää hyväksyviin tiloihin käyttäjän määrittelemän toimintokoodin (tulostuksen yms.). fredriks@cs ~$ ct ex.lex %{ #include <stdio.h> %} %option noyywrp %% [0-9]+ { printf("kokonisluku: %s\n",yytext); } lp { printf("lap!\n"); } /* Tunnistetn "lp" */. { } /* Sivuutetn muu */ %% int min(void) { yylex(); return 0; } fredriks@cs ~$ flex ex.lex fredriks@cs ~$ gcc lex.yy.c -o foo fredriks@cs ~$./foo c123def456lpxxxxx Kokonisluku: 123 Kokonisluku: 456 LAP! Tehtävä 3. Tee prnneltu versio khviutomtist: utomtti hyväksyy vin tsrhn, mutt lisäksi siihen on lisätty nppi jok plutt kikki syötetyt kolikot (ntmtt khvi). Tehtävä 4. Ldi kkoston Σ = {, } äärellinen utomtti jok tunnist kielen {w : w sisältää täsmälleen kksi :t}. Tehtävä 5. Edellisen komplementti: ldi äärellinen utomtti jok tunnist kielen {w : w ei sisällä täsmälleen kht :t}. Tehtävä 6. Ldi utomtti kielelle: {w : w ei muodostu pelkästä :st ti :stä} Tehtävä 7. Ldi utomtti kielelle: {w : w ei sisällä jono } Tehtävä 8. Osoit että kieli {() n : n > 0} on säännöllinen. Tehtävä 9. Trkstelln kieltä, jok koostuu niistä merkkijonoist, joiss jokinen priton (eli ensimmäinen, kolms, viides,... ) merkki on. Osoit, että se on säännöllinen. Tehtävä 10. Ldi äärellinen utomtti, jok tunnist kielen L = {0 n 1 m n, m N} {1 n 0 m n, m N}. 4.4 Äärellisen utomtin lskentvoimst Kieli L 1 = {0 n 1 m : n, m N} on helppo tunnist äärellisellä utomtill, eli se on säännöllinen. 27

30 Äärellinen utomtti on hyvin rjoittunut lskennn mlli. Vikkp niinkin yksinkertinen kieli kuin L 2 = {0 n 1 n : n N} (eli merkkijonot joiss on ensin jono nolli j sitten smn verrn ykkösiä) ei olekn säännöllinen! (Tähän pltn.) Mikä on se perustv ero näiden kielten välillä, jok tekee toisest helpon j toisest mhdottomn tunnist äärellisellä utomtill? Intuitiivisesti, kielen L 1 = {0 n 1 m : n, m N} tunnistminen vtii vin vkiomäärän muisti. Kieli L 1 = merkkijonot joss on ensin pelkkiä nolli j sitten pelkkiä ykkösiä. Siis niiden lukumäärällä ei ole väliä, j riittää muist mikä oli edellinen merkki (til). Toislt, kielen L 2 = {0 n 1 n : n N} tunnistmiseen ei riitäkään vkiomäärä muisti. L 2 = merkkijonot joss on ensin jokin määrä n nolli j sitten yhtä mont ykköstä. Tässä tämä yhteinen n voi oll kuink suuri thns sehän riippuu syötteen pituudest. Äärellinen utomtti -prk unoht montko noll se on nähnyt, kun n on riittävän suuri. Formlisoimme tämän myöhemmin niin snottun pumppuslemmn. Toislt, ominisuutt vkiomäärä muisti käyttävät kikki utomttimme, esim. khviutomttimme esimerkissä 8 muist syötetyn kokonisrhsummn, jos se on < 200 senttiä. Muuten se muist vin että syötetty summ on 200 senttiä. Eli se muist vin äärellisen mont eri vihtoehto. Esimerkki 14. Äärellinen utomtti jok tunnist kielen toiseksi viimeinen merkki on noll : 0?? ? ?

31 Automtti muist kksi viimeistä lukemns ittiä. Tilt on nimetty näiden ittien mukn, eli tilss 01 viimeisin luettu itti oli 1 j sitä edellinen oli 0. Tiln nimessä? ts trkoitt sellist ittiä ei vielä ole luettu. Akkostot Akkosto Σ voidn määritellä melkein miten vin. Sovellus rtkisee luontevimmn tvn. Esim. Γ = {omen,päärynä,ppelsiini} ti Σ = {[ ], [ ], [ ], [ ],..., [ ]}. Toisin snoen, Σ sisältää kikki kolmen lkion pituiset inäärivektorit, Σ = 2 3 = 8. Akkoston Σ syötteitä voidn kutsu kolmiurisiksi. Esimerkiksi 4-merkkisessä syötteessä [ ] [ ] [ ] [ voidn jtell olevn kolme vierekkäistä ur: ylin ur joll on 0100, keskimmäinen ur joll on 0001, j lin ur joll on Automtti lukee näitä uri smn thtiin rinnkkin, sillähän on vin yksi lukupää. Tehtävä 11. Jono kkoston Σ symolej määrittelee kolme riviä ykkösiä j nolli. Tulkitn nämä inäärilukuin, joiss eniten merkitsevä itti on oikell. Olkoon L = {w Σ : lin rivi on khden ylemmän rivin summ} ] Esimerkiksi eli [ ] [ ] [ ] L mutt [ ] [ ] L Osoit että tämä kieli L on säännöllinen. Rtkisu: = 4 mutt Kieli on säännöllinen, jos on olemss äärellinen utomtti jok tunnist sen. Siis yksi tp todist kieli säännölliseksi on esittää sen tunnistv äärellinen utomtti. Sellinen on olemss tälle kielelle, esimerkiksi: 29

32 A D B 0 1 C A = {[ D = {[ ] ], [ 1 0 1, [ ] ], [ 0 1 1, [ ]} ]} B = {[ C = {[ ]} ]}. Tiln nimi = muistiitin (crry it) rvo. Siirtymä lskee muistiitin + ylimmän urn itin + keskiurn itin summn, jonk vähemmän merkitsevä itti nt limmn urn itin, j enemmän merkitsevä itti seurvn muistiitin eli tiln. Tehtävä 12. Olkoon Σ = {[ 0 0 ], [ 0 1 ], [ 1 0 ], [ 1 1 Jono kkoston Σ symolej määrittelee kksi ur ykkösiä j nolli. Tulkitn nämä inäärilukuin, joiss eniten merkitsevä itti on oikell. Olkoon ]}. L = {w Σ : lin rivi on kolme kert ylin rivi} Esimerkiksi [ 1 1 ] [ 0 1 ] [ 1 1 ] [ 1 0 ] [ 0 0 ] [ 0 1 ] L j [ 1 1 ] [ 0 1 ] L eli Osoit että tämä kieli L on säännöllinen. Rtkisu: = 39 j 1 3 = Smn tpn kuin edellinen tehtävä. Eron on se, että nyt muistiittejä voi oll kksi. 30

33 0 3 = 0, 1 3 = 3 (inäärilukun 11), eli tulokseen tulee 1, j muistiin litetn 1. Jos muistiss on 1, j lsketn 0 3, tulokseksi tulee 1 (muistist), jos ts 1 3, tulos on 4 (inäärilukun 001) joten tulositti on 0 j muistiin jää 01, jne... Tämän (j edellisen) tehtävän rtkisu tunnist kuuluuko syöte kieleen. Jos hluisi oikesti tehdä kertolskukoneen (ti yhteenlskukoneen), niin rtkisu voidn helposti muutt trnsdukteriksi, jonk syötteenä luettisiin vin ylintä (j keskimmäistä) ur, j tulosteen kirjoitettisiin lint ur. Jos ei käytettäisikään ur-kkosto, vn kkoston olisikin Σ = {0, 1, +, =}, niin kieli L = {x + y = z : x, y j z ovt inäärilukuj j luku z on lukujen x j y summ} ei olekn säännöllinen: jos x j y ovt trpeeksi suuri lukuj, niin äärellinen utomtti ehtisi unoht ne lukiessn luku z. Sm pätee kertolskulle. 4.5 Sovelluksist Äärelliset utomtit sellisenn ovt hyödyllisiä merkkijonojen käsittelyssä, mistä myöhemmin lisää... Lisäämällä tilsiirtymiin stunnisuutt sdn Mrkovin ketjut eli stunnisprosessit, joill on äärellinen muisti. Perusversioss Mrkovin ketjuihin ei tosin liity mitään syötettä. Mrkovin piilomllit (hidden Mrkov models) ovt lähempänä tässä esitettyjä äärellisiä utomttej. Tilsiirtymäjärjestelmiä käytetään (etenkin hjutettujen järjestelmien) spesifioinniss j verifioinniss. Sovellus: viestinvälitysprotokollt Erilisi protokolli voidn kuvt äärellisinä utomttein ti tilkonein. Trkstelln yksikertist vuorottelevn itin protokoll, joss lähettäjäprosessi S j vstnottjprosessi R kommunikoivt. S lähettää pkettej d 0, d 1, d 2,.... Pketti voi hukku mtkll (kuten kuvss d 1 ). R kuitt sdun pketin (viestillään ) j S lähettää seurvn pketin lähetetään vst kun on snut edellisestä kuittuksen. Jos kuittust ei kuulu sovituss jss, niin pketti lähetään uudestn: 31

34 timeout S d 0 d 1 d 1 d 2 R Ongelm: Jos kuittus hukkuu, niin R voi sd duplikttiviestin: S timeout d 0 d 1 d 1 d 2 R Rtkisu: Numeroidn viestit j kuittukset: timeout S d 0, 0 d 1, 1 d 1, 1 d 2, 2 R, 0, 1, 1, 2 Mutt silloinhn pitäisi lähettää yhä suurempi j suurempi numeroit 0, 1, 2... Prnnus: Riittää käyttää kht numero (0 j 1 eli prillinen/priton viestin numero ): S timeout d 0, 0 d 1, 1 d 1, 1 d 2, 2 R, 0, 1, 1, 2 S j R voidn mllint tilsiirtymäjärjestelminä: 32

35 lähettäjä S vstnottj R, 1, 1 d, 1 timeout timeout d, 0 d, 1 d, 1 d, 0 d, 1 d, 0, 0, 0 d, 0 Jos S ei skn joiss symoli, niin se lukeekin sen sijn timeout-symolin. 4.6 Automtin minimointi 1. Mikä on utomtin , tunnistm kieli? , 2. Mikä on utomtin 33

36 , tunnistm kieli? , 3. Mikä on utomtin , tunnistm kieli? 4. Virhetiloj kuten 3 ei (yleensä) ole tpn piirtää: 34

37 , Lopputulost vstv säännöllinen luseke on ( ). Niihin pltn myöhemmin., ,,,, 0 1, 4 Ekvivlenssi: Jos kksi utomtti M j M tunnistvt smn kielen (kuten yllä; minkä?) niin ne ovt keskenään ekvivlenttej eli yhtäpitäviä voimme käyttää kump thns. Minimlisuus: Automtti M on minimlinen jos siinä on mhdollisimmn vähän tiloj jos jokisell sen knss ekvivlentill utomtill M on inkin yhtä mont til. Redundnssi: Automtti on redundntti ellei se ole minimlinen silloin siinä on redundnttej eli ylimääräisiä kopioit smoist tiloist (yllä prittomt/prilliset). Miksi minimoid? Automttej muodostvt lgoritmit eivät in tuot minimlist utomtti. On helpompi nähdä mikä on minimlisen utomtin tunnistm kieli. On turh tllett ylimääräisiä tiloj. Minimlisen utomtin käsittely on tehokkmp. 35

38 Apukäsitteitä Muistetn siirtymäfunktion δ ljennus yksittäisiltä merkeiltä Σ kokonisille merkkijonoille w Σ yhtälöstä (2). Automtin M tilt q j q ovt keskenään ekvivlentit, merkitään q q, jos kikill merkkijonoill x Σ on δ (q, x) F jos j vin jos δ (q, x) F (3) eli jos loittmll tilst q hyväksytään täsmälleen smt merkkijonot kuin loittmll tilst q. Huom: Tämä siis ei ole sm si kuin q = q eli näiden tilojen smuus, kosk hyväksyvien tilojen ei trvitse oll smt, eli kosk voi oll δ (q, x) δ (q, x). Tilt q j q ovt keskenään k-ekvivlentit jollkin k N, merkitään q k q, jos niiden ekvivlenssiehto (3) pätee kikill merkkijonoill x Σ joill x k. Eli jos syötteen pituus on korkeintn k merkkiä niin tiloj q j q ei voi vielä erott toisistn. Selvästi q 0 q jos j vin jos joko ne molemmt ovt hyväksyviä tiloj ti kumpikn ei ole tyhjällä merkkijonoll x = ε. q q jos j vin jos q k q kikill k N kiken mittisill merkkijonoill x. Minimoinnin ide: 1. Aloitetn nnetun utomtin M tilojen krkeimmst luokittelust ekvivlenssiluokkiin, eli 0-ekvivlenssist. 2. Trkennetn tilojen luokittelu k-ekvivlenssiluokki (k+1)-ekvivlenssiluokkiin. 3. Lopetetn kun on svutettu täysi ekvivlenssi. Äärellisen utomtin minimointilgoritmi Syöte: äärellinen utomtti M = (Q, Σ, δ, q 0, F ). 1. (Turhien tilojen poisto) Poist syötteestä M kikki tilt, joit ei void svutt sen lkutilst q 0 millään syötemerkkijonoll. 2. (0-ekvivlenssi) Osit syötteen M jäljelle jääneet tilt khteen luokkn: hyväksyviin vs. muihin tiloihin. 3. (k-ekvivlenssist (k + 1)-ekvivlenssiin) 1 k 0 2 while josskin luokss on eri tvoin käyttäytyviä tiloj 3 do j ne pienemmiksi luokiksi siten, että kunkin uuden luokn kikki tilt käyttäytyvät smoin 4 k k

39 Huom: Yhden luokn jkminen voi joht siihen, että jokin toinenkin luokk pitää jk, vikkei siltä ensin vikuttnutkn. Siksi while. 4. Tuloksen on utomtti M jonk tilt ovt vielä jäljellä olevt luokt Q siirtymäfunktio niiden välillä sdn seurvsti: Tuloksess on siirtymä Q Q täsmälleen silloin kun syötteessä oli siirtymä q q joss q Q j q Q Q sisältää eri tvoin käyttäytyviä tiloj jos tällä säännöllä tulisi keskenään ristiriitiset siirtymät Q Q j Q Q joill Q Q (joist toinen voi oll myös näkymätön virhetil). Tällist Q kutsutn epädeterministiseksi kosk siinä ei ole determinoitu eli määrätty kumpn tiloist Q ti Q pitäisi siirtyä syötemerkillä. Epädeterminismiin pltn trkemmin myöhemmin luvuss 4.7. lkutil on se luokk joss syötteen lkutil on hyväksyvät tilt ovt ne luokt joihin kuuluu jokin syötteen hyväksyvä til. Algoritmi pysähtyy kosk syötteessä oli äärellinen määrä tiloj, j whilesilmukn jokisell kierroksell jkutuu inkin yksi luokk. (Siis kierroksi kertyy korkeintn smn verrn kuin syötteessä oli tiloj.) Tulos on syotteen knss ekvivlentti utomtti, joss on minimimäärä tiloj. Tulos on oleellisesti (eli tilojen nimentää lukuunotmtt) yksikäsitteinen (todistus sivuutetn). Esimerkki 15. Olkoon M = (Q, Σ, δ, q 0, F ) joss tilojen joukko Q = {1, 2, 3, 4, 5, 6}, syötekkosto Σ = {, }, lkutil q 0 = 1, lopputilojen joukko F = {4, 5} j siirtymäfunktio δ:

40 Askel 1: Turhien tilojen poisto. ennen jälkeen Askel 2: Jottele syötteen M (jäljelle jääneet) tilt 0-ekvivlenssiluokkiin, eli hyväksyviin j hylkääviin tiloihin. Merkitään ekvivlenssiluokki roomlisin numeroin. 2 4 I: 1 2, I 3, I 2 4, II 2, I 3 2, I 3, I II: 4 3, I 5, II 5 1, I 4, II Automtti M lk kehittyä tästä lähtotilnteest: 38

41 I II I: 1 2, I 3, I 2 4, II 2, I 3 2, I 3, I II: 4 3, I 5, II 5 1, I 4, II, Til I on epädeterministinen, kosk merkillä voidn siirtyä tiln I ti II. Askel 3: k-ekvivlenssist (k + 1)-ekvivlenssiin. I Jos M ei sisällä enää yhtään epädeterminististä til, niin lgoritmi päättyy j tulost sen vstuksenn. Nyt kuitenkin sen luokk I pitää jk, kosk syötteen M tilt 1 j 3 käyttäytyvät keskenään smoin: kummllkin syötemerkillä pltn luokkn I, mutt til 2 käyttäytyy toisin kuin ne: syötemerkillä siirrytäänkin tiln II eikä I. Siis tilt 1 j 3 pysyvät luokss I, kun ts tilst 2 tulee uusi luokk II, j vnh luokk II nimetään uudelleen luokksi III: II I: 1 2, II 3, I 3 2, II 3, I II: 2 4, III 2, II III: 4 3, I 5, III 5 1, I 4, III I II III Askel 4: Nyt jokinen luokk I, II j III on deterministinen, joten tulos M on vlmis. Tehtävä 13. Muodost kuvn 9 determinististä äärellistä utomtti vstv minimiutomtti. Tehtävä 14. Muodost kuvn 10 determinististä äärellistä utomtti vstv minimiutomtti. 4.7 Epädeterministiset äärelliset utomtit Epädeterminismi trkoitt, ettei koskn trvitse myöntää olevns väärässä. Anon. Epädeterministisellä utomtill siirtymäfunktio δ liittää nykyisen tiln j syötemerkin priin (q, x) äärellisen joukon mhdollisi seurvi tiloj. 39

42 A B D C E Kuv 9: Tehtävän 13 utomtti Kuv 10: Tehtävän 14 utomtti. 40

43 Epädeterministinen utomtti hyväksyy merkkijonon x jos sille on olemss jokin hyväksyvä lskent. Siis se hylkää merkkijonon x vin jos kikki sen lskennt ovt hylkääviä. Ihn loogisesti: kosk niin kääntäen x hyväksytään sille on jokin hyväksyvä lskent x hylätään ei niin, että sille olisi jokin hyväksyvä lskent sen kikki lskennt hylkäävät. Esimerkiksi epädeterministinen utomtti q 0 q 1 q 2 q 3 hyväksyy syötemerkkijonon, kosk sillä on hyväksyvä lskent (q 0, ) (q 0, ) (q 0, ) (q 0, ) (q 1, ) (q 2, ) (q 3, ε). Sillä on myös hylkääviä lskentoj kuten (q 0, ) (q 0, ) (q 0, ) (q 0, ) (q 0, ) (q 0, ) (q 0, ε) mutt niitä ei siis otet huomioon. Determinismi vs. epädeterminismi Deterministisessä utomtiss siirtymä trkoitt, että nykyisestä tilst mennään in kohdetiln sen δ(q, ). Epädeterministisessä utomtiss siirtymä r δ(q, ) trkoittkin, että tilst q syötemerkillä on mhdollist mennä tiln r. Mutt voi oll muitkin mhdollisuuksi s δ(q, ). Deterministinen utomtti hyväksyy, jos se ino mhdollinen lopputilnne on hyväksyvä. Epädeterministinen utomtti hyväksyy, jos on mhdollist päätyä hyväksyvään lopputilnteeseen. Eli jos on jokin tp vlit in sopivsti nykyiselle tillle q i seurv til q i+1 δ(q i, i ) siten, että syötteen n loputtu olln josskin hyväksyvässä tilss q n. 41

44 Mutt epädeterminismi näyttää epäilyttävän epämekniselt: miten nykyisessä tilss q i voitisiin ost tehdä juuri oike vlint näkemättä syötteen loppuos i+1 i+2 i+3... n? Sillä onkin erilisi tulkintoj, kuten: Spesifiktion. Epädeterminismi kuvilee minkäliset merkkijonot pitäisi hyväksyä mutt ei kerro trksti miten niiden hyväksyntä etenisi skel skeleelt. Etsintänä. Epädeterminismi on opertio etsi reitti tästä tilnteest johonkin hyväksyvään lopputilnteeseen. Se ts voitisiin meknisoid vikkp TRA-kurssin keinoin syvyyssuuntisen etsintänä kikkien tilnteiden verkost: DFS(q, x) : 1 if merkkijono x = ε 2 then return onko til q hyväksyvä viko hylkäävä 3 else olkoon x = y joss Σ j y Σ 4 for ech r δ(q, ) 5 do if DFS(r, y) 6 then return true 7 return flse Epädeterministinen utomtti hyväksyy syötteensä jos DFS(sen lkutil, syöte) vst true. Ilmisen neuvon. Epädeterministisen utomtin voidn jtell svn jokisess vlinttilnteessn Mihinköhän seurvist mhdollisist tiloistni δ(q, ) minun knnttisi siirtyä? jostkin ulkopuolelt vstuksen Siirry tiln r, luot minuun! Tärkeä tulos Silloin utomtin itsensä tehtäväksi jää vin vrment että sen smt neuvot olivt oikein. Ti jos jtelln etsintää, niin utomtti ei itse joudu tekemään rskst työtä, vn työn tekee neuvonntj j utomtti s työn tulokset ilmiseksi. Tämän tulkint tulee erityisen kiinnostvksi silloin kun trkstelln utomttej vhvempi lskentmllej mutt rjoitetn niille nnettvien resurssien määrää esimerkiksi P? = NP-ongelm s silloin tulkinnn jos jokin vstus voidn vrment nopesti, niin olisiko se voitu lskekin ilmn neuvoj nopesti?. 1. Deterministiset ( Deterministic Finite Automt, DFA) j epädeterministiset (Nondeterministic Finite Automt, NFA) utomtit tunnistvt täsmälleen smt kielet. (Kielenhuolto: Sn utomtti on lunperin kreikk. Siksi sen yksikkömuoto on englnniss utomton (jok trkoitt suomeksi itseliikkuv ) kun ts sen monikkomuoto on utomt. Tämä sääntö on kuitenkin nykyään lknut horju.) 2. Epädeterministiset utomtit tunnistvt täsmälleen säännölliset kielet 3. deterministiset utomtit tunnistvt täsmälleen säännölliset kielet. 42

45 ε Kuv 11: Epädeterministinen utomtti joss on siirtymä tyhjällä merkkijonoll. Eli DFA j NFA ovt ilmisuvoimltn yhtä vhvoj lskennn mllej niillä voidn hyväksyä smt kielet. Epädeterminismiä käyttämällä kielen esitystä voidn kuitenkin usein selkeyttää j yksinkertist spesifiktiotulkint. Epädeterministisen utomtin voidn jtell seurvn kikki mhdollisi lskentojn rinnkkin: Deterministinen lskent Epädeterministinen lskent.. hyväksy ti hylkää.... hylkää hyväksy Eli deterministinen lskent on yksi polku, mutt epädeterministiset lskennt muodostvkin kokonisen lskentpuun jonk hrt vstvt eri vlintkohti. Epädeterministisessä utomtiss sllitn myös ε-siirtymiä kuten kuvss 11. Tällisen ε-siirtymän kuten 1 ε 2 tulkint on, että sitä pitkin pääsee tilst 1 tiln 2 lukemtt yhtään syötemerkkiä. 43

46 0 Esimerkkinä kuvn 11 utomtti j syöte. Vknuolet kuvvt ε-siirtymiä, joiss ei siis luet syötettä. Viimeisellä rivillä esiintyy (khteenkin kertn) hyväksyvä til 3, joten utomtti hyväksyy syötteen Seurv NFA hyväksyy merkkijonot, joiss on osjonon ensin j sen jälkeen c ti c. Huom konstruktion modulrisuus: ε-siirtymien vull utomtti voidn muodost helposti osrtktkisuist (Tosin juuri tämän kielen tunnistv DFA olisi helppo muodost suornkin... ),,c,,c ε " moduuli" "mitä thns moduuli" ε ε "c moduuli" c ε,,c ε c ε "c moduuli" Määritelmä 2. Epädeterministinen äärellinen utomtti on viisikko M = (Q, Σ, δ, q 0, F ) joss Q on äärellinen tilojen joukko, Σ on äärellinen syötekkosto, δ : Q Σ P(Q) on joukkorvoinen siirtymäfunktio siis sen rvot δ(q, ) Q ovt tiljoukon Q osjoukkoj q 0 Q on lkutil j F Q hyväksyvien tilojen joukko. 44

47 Muist: Mtemtiikss merkintä P(S) (jotkut merkitsevät myös 2 S, me emme) trkoitt joukon S potenssijoukko {X : X S} eli kikkien niiden joukkojen X joukko, jotk voidn muodost joukon S lkioist. Esimerkiksi P({,, }) = {, { }, { }, { }, {, }, {, }, {, }, {,, }}. Esimerkki 16. q 0 q 1 q 2 q 3 q 0 {q 0, q 1 } {q 0 } q 1 {q 2 } q 2 {q 3 } q 3 {q 3 } {q 3 } Nyt virhetilnne on helposti ilmistviss tyhjän seurjtiljoukon vull. Siirtymätulukoss voidn jättää joukkosulut poiskin: siis joukko {q 0, q 1 } voidn merkitä myös suorn sen lkioiden listn q 0, q 1. Tilnne (q, w) voi joht suorn tilnteeseen (q, w ), jot merkitään smoin kuin ennen eli (q, w) (q, w ), jos w = w j q δ(q, ). Silloin (q, w ) on (q, w) mhdollinen välitön M seurj. Muutoin määritelmät epädeterministisille utomteille ovt smt kuin iemmin. Tärkeän tuloksemme DFA NFA perustelu : Selvästikin deterministiset utomtit ovt epädeterminististen erikoistpus joss in δ(q, ) 1. Siten kikki edellisillä tunnistettvt kielet ovt tunnistettviss myös jälkimmäisillä. : Mutt myös kääntäen (j tämä on se yllättävämpi j vikempi suunt): Jokiselle epädeterministiselle lgoritmille M on olemss smn kielen tunnistv deterministinen utomtti M. Tämä osoitetn myöhemmin kehittämällä menetelmä, joll syötteenä sdulle utomtille M voidn lske jokin sitä vstv M eli menetelmä determinisoid M. Tehtävä 15. Ldi sellinen kkoston Σ = {, } epädeterministinen utomtti, jok hyväksyy täsmälleen ne merkkijonot, joiss esiintyy sekä merkkijono että merkkijono. Huom, että nämä esiintymät svt oll päällekkäinkin: siis esimerkiksi merkkijono hyväksytään, kosk siinähän on lle- j ylleviivuksell merkityt päällekkäiset esiintymät. Tehtävä 16. Ldi deterministinen utomtti edellisen tehtävän 15 kielelle. 45

48 Epädeterministisen utomtin simulointi Pltn iempn esimerkkiin kuvss 11. Kirjoitetn lgoritmi, jok käy läpi lskentpuut leveyssuuntisesti. Algoritmi pitää muuttujss NykyisetTilt list niistä tiloist, joiss se tällä hetkellä voisi oll (lskentpuun tso). Kullkin skeleell sitä päivitetään lskemll 1. stu syötemerkkiä vstvt seurjtilt j 2. ne tilt, joihin niistä päästään ε- siirtymillä ε Tiljoukon R Q ε-sulkeum E(R) koostuu niistä tiloist, joihin tiljoukost R pääsee ε-kri pitkin. Siis R E(R) kosk jokisest tilst pääsee suorn itseensä ilmn yhtään (edes ε-)siirtymää, j jos tilst s E(R) on ε-siirtymä s ε t niin myös sen kohdetil t E(R). Muut sitten ei kuulukn joukkoon E(R). SimulteNFA(M, syöte): 1 NykyisetTilt E(lkutil q 0 ) 2 while syötettä on yhä jäljellä 3 do merkki lue seurv syötemerkki 4 SeurjTilt 5 for q NykyisetTilt 6 do SeurjTilt SeurjTilt δ M (q, merkki) 7 SeurjTilt E(SeurjTilt) 8 NykyisetTilt SeurjTilt 9 return lopputilt F NykyisetTilt Algoritmi SimulteNFA tulkk epädeterministisen lskennn deterministiseksi. Yksittäinen syötemerkki käsitellään (phimmss tpuksess) jss O( Q ). 46

49 Tästä tulkkuksest päästään eroon kääntämällä lskent deterministiseksi, eli muodostmll NFA:st M DFA M jok tunnist smn kielen, eli lskemll etukäteen NFA:n M siirtymätulukost DFA:n M siirtymätulukko. Hvitn: muuttujn NykyisetTilt rvot kuuluvt potenssijoukkoon P(Q). Siten muuttujll NykyisetTilt on korkeintn P(Q) = 2 Q mhdollist rvo joten voimme muodost äärellisenä pysyvän deterministisen utomtin littmll kukin sen mhdollinen rvo omksi tilkseen j siirtymät kuten SimulteDFA ne lskisi. Siis muodostmme NFA:st M DFA:n M seurvsti: Akkosto on molemmill sm Σ. Tiljoukko Q cm = P(Q M ). Siirtymäfunktio koostuu siirtymistä NykyisetTilt merkki SeurjTilt joss nämä muuttujt NykyisetTilt, merkki j SeurjTilt ovt kuten tulkkilgoritmin SimulteNFA riveillä 4 7. Eli kun nnetn til NykyisetTilt Q cm ( P(Q M )), niin käydään läpi jokinen merkki Σ, j lsketn sille vstv SeurjTilt P(Q M ) ( Q cm ). Alkutil on kuten sen rivillä 1. Eli E(DFA:n M lkutil q 0 ). Hyväksyvät tilt ovt kuten sen rivillä 9. Eli ne tilt, joihin sisältyy inkin yksi DFA:n M lopputil. 1 lust tulos M sisältämään luksi pelkän lkutiln nimeltä E(DFA:n M lkutil q 0 ) eikä yhtään krt j merkitse se uudeksi 2 while tuloksess M on yhä uusi tiloj 3 do NykyisetTilt ot jokin niistä j merkitse se vnhksi 4 if joukkoon NykyisetTilt kuuluu inkin yksi epädeterministisen utomtin M hyväksyvä til 5 then merkitse NykyisetTilt hyväksyväksi tilksi 6 else merkitse NykyisetTilt hylkääväksi tilksi 7 for merkki Σ 8 do lske SeurjTilt kuten tulkkilgoritmin SimulteNFA riveillä if til nimeltä SeurjTilt puuttuu yhä tuloksest M 10 then luo sellinen j merkitse se uudeksi 11 Lisää tulokseen M siirtymä NykyisetTilt merkki SeurjTilt 12 lopuksi voit vielä minimoid tuloksen M jos thdot Esimerkki 17. Determinisoidn epädeterministinen utomtti M 47

50 q 0 q 1 q 2 q 3 Esimerkiksi tiln s 2 = {q 0, q 2 } seurj syötemerkillä on til s 3 = {q 0, q 1, q 3 }, sillä s 3 sisältää täsmälleen kikki joukkoon s 2 kuuluvien lkioiden seurjt merkillä : s 3 s 2 q 0 q 2 q 0 q 3 q 1 1. Aloitetn lisäämällä lkutil {q 0 } j lskemll siitä lähtevät siirtymät. {q 0 } = s 0 {q 0, q 1 } {q 0 } 2. Stiin uusi til {q 0, q 1 } j jtketn sillä. {q 0 } = s 0 {q 0, q 1 } {q 0 } {q 0, q 1 } = s 1 {q 0, q 1 } {q 0, q 2 } 3. Stiin uusi til {q 0, q 2 } j jtketn sillä. {q 0 } = s 0 {q 0, q 1 } {q 0 } {q 0, q 1 } = s 1 {q 0, q 1 } {q 0, q 2 } {q 0, q 2 } = s 2 {q 0, q 1, q 3 } {q 0 } 4. Stiin uusi til {q 0, q 1, q 3 } j jtketn sillä j iknn sdn lopputulos: {q 0 } = s 0 {q 0, q 1 } {q 0 } {q 0, q 1 } = s 1 {q 0, q 1 } {q 0, q 2 } {q 0, q 2 } = s 2 {q 0, q 1, q 3 } {q 0 } {q 0, q 1, q 3 } = s 3 {q 0, q 1, q 3 } {q 0, q 2, q 3 } {q 0, q 2, q 3 } = s 4 {q 0, q 1, q 3 } {q 0, q 3 } {q 0, q 3 } = s 5 {q 0, q 1, q 3 } {q 0, q 3 } 48

51 q 0 q 0, q 1 q 0, q 2 q 0, q 1, q 3 q 0, q 2, q 3 q 0, q 3 Esimerkki 18. Determinisoidn kkoston Σ = {M, I, U} seurv epädeterministinen utomtti: M,I,U M,I,U M I U Rtkisu: Kun generoidn koko potenssijoukko eli käytetään suor mtemttist määritelmää eikä while-lgoritmi niin sdn tulokseksi: M I U A {0} {0, 1}=E {0}=A {0}=A B {1} {2}=C C {2} {3}=D D {3} {3}=D {3}=D {3}=D E {0, 1} {0, 1}=E {0, 2}=F {0}=A F {0, 2} {0, 1}=E {0}=A {0, 3}=G G {0, 3} {0, 1, 3}=L {0, 3}=G {0, 3}=G H {1, 2} {2}=C {3}=D I {1, 3} {3}=D {2, 3}=J {3}=D J {2, 3} {3}=D {3}=D {3}=D K {0, 1, 2} {0, 1}=E {0, 2}=F {0, 3}=G L {0, 1, 3} {0, 1, 3}=L {0, 2, 3}=M {0, 3}=G M {0, 2, 3} {0, 1, 3}=L {0, 3}=G {0, 3}=G N {1, 2, 3} {3}=D {2, 3}=J {3}=D O {0, 1, 2, 3} {0, 1, 3}=L {0, 2, 3}=M {0, 3}=G 49

52 joss S P(Q) ovt svutettvt tilt ne jokt myös while-lgoritmi tuottisi P(Q) \ S ne muut eli svuttmttomt tilt. Tulos tilsiirtymäkvion johon on piirretty vin svutettvt tilt: I,U M I,U M I A E F U M U G I L M U I M I,U M M Se minimoitun: I,U M M,I,U A M I E U M F I U G Tehtävä 17. Determinisoi seurv utomtti: 50

53 , 1 2 Esimerkki 19. Determinisoidn seurv utomtti: 0 0 ε c ε d Siinä on sekä ε-siirtymiä että tvllinen epädeterministinen siirtymä (tilst merkillä 0). 1. Alkutilksi sdn E({}) = {,...} = {, c,...} = {, c, d}. 2. Tästä lkutilst päästään tiloihin δ({, c, d}, 0) = E(δ(, 0) δ(c, 0) δ(d, 0)) = E({, } {c} ) = E({,, c}) = {,, c, d} ensimmäinen uusi til δ({, c, d}, 1) = {d} toinen uusi til. 51

54 3. Käsitellään nämä uudet tilt vikkp niiden luontijärjestyksessä. Siten: δ({,, c, d}, 0) = {,, c, d} sm vnh til δ({,, c, d}, 1) = {c, d} kolms uusi til. 4. Sitten: 5. Sitten: δ({d}, 0) = δ({d}, 1) = neljäs uusi til. δ({c, d}, 0) = {c, d} sm vnh til δ({c, d}, 1) = {d} toinen vnh til. 6. Kikki syntyneet tilt on nyt käsitelty, j sdn lopputulos: til 0 1 {, c, d} {,, c, d} {d} {,, c, d} {,, c, d} {c, d} {c, d} {c, d} {d} {d} {, c, d} {,, c, d} {d} {c, d} 0 1 Tehtävä 18. Determinisoi seurv utomtti: 1 ε 2 3, Tehtävä 19. Determinisoi seurv utomtti: ε 1 2, 3 52

55 Hhmontunnistuksest Epädeterministisellä utomtill voi helposti kuvt hhmontunnistusongelmi: esiintyykö nnettu merkkijono y syötteessä x? Mikä thns yksittäinen merkkijono (eli yksilkioinen kieli) y = y 1 y 2 y 3... y m Σ voidn tunnist yksinkertisell epädeterministisellä utomtill: y 1 y 2 y 3 y m... Σ Σ Kun tällinen utomtti determinisoidn, tilojen lukumäärä m+1 ei muutu. Tällisen epädeterministisen utomtin kikki lskentpolkuj voi myös simuloid tehokksti, jos m = O(tietokoneen ittisyys eli nykyään 32 ti 64) ns. shift-or/shift-nd lgoritmill. Mutt yleisessä tpuksess (eli kun kyseessä on mielivltinen säännöllinen kieli) voi tilojen määrä ksv phimmilln eksponentiliseksi, onhn P(Q) = 2 Q. Toislt yksinkertiselle hhmontunnistusongelmlle deterministinen utomtti ostn muodost suornkin jss O(m), ns. Knuth-Morris-Prtt lgoritmi. Ensimmäinen ekskursio: NFA:n simulointi Olkoon pitkä teksti t j lyhyt merkkijono p ASCII-kkoston merkkijonoj, j n = t, m = p, j m w, missä w on ittien lukumäärä int-muuttujss (esim. 32 ti 64). Seurv C-kielinen funktio kertoo kikki kohdt missä p esiintyy t:ssä. Algoritmi perustuu NFA:n simuloimiseen, j se toimii jss O(n) (nyt kun m w). Yleisesti otten mielivltisen NFA:n tehoks simuloiminen on kuitenkin voin ongelm. Miten lgoritmi toimii??? Tämä ei kuulu kurssiin. Ongelm on mhdollist rtkist myös keskimääräisessä jss O(n log Σ (m)/m)... Toinen ekskursio: Knuth Morris Prtt Olkoot edelleen t j p ASCII kkoston merkkijonoj, j n = t, m = p. Seurv C-kielinen funktio kertoo kikki kohdt missä p esiintyy t:ssä. Algoritmi perustuu deterministiseen utomttiin. Tässä on kuitenkin ε-siirtymiä, mutt näitä ei seurt jos on toinenkin vihtoehto, joten hrutumist ei tphdu... Algoritmi toimii jss O(n+m). Miten se täsmällisesti otten toimii??? Tämäkään ei kuulu kurssiin. 53

56 Epädeterminismin sovelluksi Näemme pin, että epädeterminismi yksinkertist huomttvsti moni utomttikonstruktioit. Sillä on käyttöä tietojenkäsittelytieteessä ljemminkin, esim. Rinnkkisjärjestelmät: Asynkronisess lskennss eri prosessien suoritusjärjestys ei ole tiuksti kontrolloitviss. Ajttelemme siis, että suoritusjärjestys määräytyy epädeterministisesti j vdimme esim. että järjestelmä ei s lukkiutu millään suoritusjärjestyksellä. Lskennn vtivuus: Monille tärkeille etsintä- j optimointiongelmille on helppo esittää epädeterministinen rtkisu, mutt sen tehoks simuloiminen deterministisellä (eli oikell) tietokoneell on voin ongelm. Vrt. edellä: NFA:n muuntminen DFA:ksi stt iheutt tilojen lukumäärän eksponentilisen ksvun. (Mutt ei in, kuten nähtiin.) 4.8 Säännölliset lusekkeet j kielet Säännöllisellä lusekkeell (regulr expression) voi kuvill, minkä muotoisi merkkijonoj hyväksytään. Unix-komennoll grep (=glol regulr expression prser) voidn etsiä tiedostost säännöllisellä lusekkeell kuviltuj osi. Esim. Etsi tekstitiedostost lp.txt rivit, joill esiintyy sn utomtti : egrep utomtti lp.txt Etsi tekstitiedostost lp.txt rivit, joill esiintyy sn utomtti ti sn kieli : egrep $utomtti\ kieli$ lp.txt Etsi tekstitiedostost lp.txt rivit, joill esiintyy äärellinen utomtti ti khviutomtti : egrep $äärellinen \ khvi$utomtti lp.txt Etsi tekstitiedostost tiedosto.txt osoitteit, jotk ovt muoto... ktu ti... tie jot seur sunnon numero: egrep [A-ZÅÄÖ][-zåäö]*$ktu\ tie$ [0-9][0-9]* tiedosto.txt Monien editoreiden serch j serch & replce -komennot sllivt myös säännölliset lusekkeet; smoin jotkut ohjelmointikielet sisältävät regexp kirjstoj. Eräs mhdollisuus grep-toiminnon toteuttmiseksi olisi seurv: 1. Muodostetn äärellinen utomtti, jok hyväksyy tsn selliset merkkijonot, joiss esiintyy nnettu hhmo. 2. Seltn syöte rivi kerrlln käyttämällä tätä utomtti, j tulostetn hyväksytyt rivit. Kysymys: Kuink monimutkisi hhmoj tällä peritteell voidn käsitellä? Esim. edellä muodostettiin hhmoist utomtti j kieli uusi hhmo tioperttorill. Smoin sllittiin hhmon ktenointi itsensä knss ([0-9]*). Kuink voimkkt operttorit voidn siis slli? 54

57 Kielten yhdiste, tulo j sulkeum Olkoot A j B kkoston Σ kieliä. Muistetn, että kielet ovt merkkijonojoukkoj Σ. Kielten A j B yhdiste on kieli suorn joukko-opist. A B = {x Σ : x A ti x B} Jos yhdistettä jttelee eräänlisen yhteenlskun niin sen noll on kosk sen lisäämisellä ei ole vikutust: Kielten A B tulo on kieli X = X = X x + 0 = 0 + x = x. AB = {xy Σ : x A, y B} eli ne merkkijonot xy jotk lkvt jollkin kielen A merkkijonoll x j jtkuvt jollkin kielen B merkkijonoll y. Jos tulo jttelee eräänlisen kertolskun niin sen ykkönen on {ε} kosk Vstvsti nollll kertominen noll : {ε} X = X {ε} = X 1 x = x 1 = x. X = X = 0 x = x 0 = 0. Tyhjä kieli j tyhjä merkkijono ε ovt eri sioit, niillähän on eri tyyppikin. Kielessä {ε} on yksi lkio, nimittäin ε, joten se ei ole tyhjä. Kielen A potenssit A k, joss k N, määritellään itertiivisesti: A 0 = {ε} A k = AA k 1 Kielen A sulkeum on kieli A = = AAA }{{... A} k kert = {x 1 x 2 x 3... x k : x i A i = 1,..., k} (k 1) k=0 A k = {ε} A AA AAA... = {x 1... x k : k 0, x i A i = 1,..., k} Tässä vihdoin on moniss pikoissä käyttämämme merkinnän potenssiin trkoitettu sisältö: (...) koostuu niistä merkkijonoist, jot sdn liimilemll yhteen äärellisen mont tämän kuvuksen (...) mukist merkkijono. 55

58 Erikoistpuksen = {ε}... = {ε} kosk noll(kin) potenssiin noll on yksi. Esimerkki 20. Trkstelln kkoston {,... z, 0,..., 9} kieliä A = {, } j B = {01, 02}. Nyt Säännöllinen luseke A B = {,, 01, 02} AB = {01, 02, 01, 02} A = {ε,,,,,,,,,,,,...} Määritelmä 3. Akkoston Σ säännölliset lusekkeet (regulr expressions) määritellään induktiivisesti säännöillä: Vkiot j ε ovt jokisen kkoston säännöllisiä lusekkeit; kkoston jokinen merkki Σ on sen säännöllinen luseke; jos r j s ovt kkoston Σ säännöllisiä lusekkeit, niin myös (r s), (rs) j r ovt sen säännöllisiä lusekkeit; j muit kkoston Σ säännöllisiä lusekkeit ei ole. Akkoston Σ säännöllinen luseke r kuv kielen L(r) Σ : L( ) = L(ε) = {ε} L() = {} kikill Σ L((r s)) = L(r) L(s) L((rs)) = L(r)L(s) L(r ) = (L(r)) Esimerkki 21. Akkoston {, } säännöllisiä lusekkeit ovt esimerkiksi r 1 = (()), r 2 = (), r 3 = ( ), r 4 = (( ())). näiden lusekkeiden kuvmt kielet ovt L(r 1 ) = ({}{}){} = {}{} = {}; L(r 2 ) = {} = {ε,,,,...} = {() i i 0}; L(r 3 ) = {}({}) = {,,,,...} = { i i 0}; L(r 4 ) = ({}{, }) = {, } = {ε,,,,,...} = {x {, } kutkin -kirjint x:ssä seur 1 ti 2 -kirjint } 56

59 Lyhennysmerkintäsopimuksi Sulkumerkkejä voidn vähentää seurvill säännöillä: Operttoreist sitoo vhvimmin, sitten tulo, j heikoimmin. Yhdiste- j tulo-opertioiden ssositiivisuus: L(((r s) t)) = L((r (s t))) L(((rs)t)) = L((r(st))). Käytetään tvllisi kirjsimi mikäli seknnuksen vr merkkijonoihin ei ole. Esim. edellisen esimerkin 21 lusekkeet r 1 = (()), r 2 = (), r 3 = ( ), r 4 = (( ())) yksinkertisemmin: r 1 =, r 2 = (), r 3 =, r 4 = (( )) Lyhennysmerkintä r + trkoitt toist r inkin kerrn. Siten r + = rr = r r. Esim. jos d = (0... 9), niin d + (ti dd ) trkoitt, että merkkijono koostuu yhdestä ti usemmst numeromerkistä. Säännöllinen kieli Snomme, että kieli on säännöllinen, jos se voidn kuvt jollkin säännöllisellä lusekkeell. Toisin snoen, kieli A on säännöllinen, jos on jokin säännöllinen lusele r joll L(r) = A. Esimerkki 22. Olkoon kkosto Σ = {,, c,...}. Säännöllisen lusekkeen Σ utomttiσ kuvm kieli on niiden merkkijonojen joukko jotk sisältävät osmerkkijonon utomtti. Siis tämä kieli on säännöllinen. Esimerkki 23. Olkoon Σ = {A, B, C,..., Ö,,, c,..., ö, 0, 1, 2,..., 9, }. Osoite on muoto (Ll )(ktu tie) dd (l ε)(dd ε) ddddd Ll joss d on lyhenne lusekkeelle ( ) l on lyhenne lusekkeelle ( c... ö) eli pienille kirjmille ( letters ), j L on lyhenne lusekkeelle (A B C... Ö) eli suurille kirjimille ( LETTERS ). Huom: Monet regexp -kirjstot j -työklut lisäävät ominisuuksi jotk eivät ole säännöllisiä (kuten esimerkiksi rjoittmttomt viitteet tksepäin, NP-täydellinen ongelm... ). Tällä kurssill esitetellään nämä idot säännölliset lusekkeet ilmn sellisi lisäyksiä. 57

60 Esimerkki 24. Ohjelmointikielen C etumerkittömät liukuluvut (jotk ovt tyyppiä flot, doule ti long doule) määritellään seurvsti: (kokonisos).(desimlios) (e ti E) [+ ti ] (eksponentti) [suffiksi] merkintä [... ] trkoitt että kyseinen os voi myös puuttu kokonisos j desimlios koostuvt digiteistä joko kokonisos ti desimlios voi puuttu (mutt eivät molemmt) joko (i) desimlipiste ti (ii) (e ti E) j eksponentti voivt puuttu (mutt eivät molemmt) suffiksi: F ti f: flot, L ti l: long doule, muuten doule Säännöllinen luseke (ilmn suffiksej): (d +.d.d + )(ε ((e E)(+ ε)d + )) d + (e E)(+ ε)d + Kieleen kuuluvt esim. seurvt merkkijonot: 12.,.12, 1.2, 1.2E3, 1.2e3, 1E2, 1e E-3, Tehtävä 20. Trkstelln seurvi kkoston Σ = {, } kieliä. Ann kustkin kielestä kksi merkkijono, jotk kuuluvt kieleen, j kksi, jotk eivät kuulu kieleen! () () 5. (ε ) 6. Σ Σ Σ Σ Tehtävä 21. Etsi lyhyin merkkijono, jok kuuluu seurvn lusekkeen kuvmn kieleen! 1. ( ) 2. ( () ) 3. ( )( ) Tehtävä 22. Muodost seurvi kieliä vstvt säännölliset lusekkeet: 1. {w {, } : w:n kolmnneksi viimeinen merkki on } 2. {w {, } : w sisältää joko merkkijonon ti } 3. {w {, } : w sisältää prillisen määrän merkkiä } 4. {w {, } : w:n pituus on priton} 5. {w {, } : w:ssä on 3:ll jollinen määrä merkkiä } 58

61 Tehtävä 23. Esitä yksinkertisemmss muodoss seurvt lusekkeet (eli nn luseke, jok yhä kuv smn kielen, mutt joss on vähemmän operttoreit): 1. ( ) 2. (0 10 ) 3. 1 (011 ) 1 (011 ) 0 Säännöllisten lusekkeiden sieventäminen Säännöllisillä kielillä on yleensä useit vihtoehtoisi kuvuksi, esim.: Σ = L(( ) ) = L(( ) ) = L( ( ) ( ) ) =... Merkitään r s, kun L(r) L(s), eli kun säännollisen lusekkeen r kuvm kieli on os säännöllisen lusekkeen s kuvm kieltä. Säännölliset lusekkeet r j s ovt ekvivlentit, merkitään r = s, silloin kun r s j s r, eli kun L(r) = L(s). Lusekkeen sievennys = yksinkertisimmn ekvivlentin lusekkeen määritys. Tässä luontev yksinkertisuuden mitt on sen sisältämien operttoreiden lukumäärä sen pituus kirjoitettun. Sievennyssääntöjä Muistisääntö: on hiemn kuin yhteenlsku, j on hiemn kuin 0. Tulo on hiemn kuin kertolsku, j ε on hiemn kuin 1. r r = r (mutt rr r kun r, ε) r (s t) = (r s) t r(st) = (rs)t r s = s r r(s t) = rs rt (r s)t = rt st r = r = r εr = r (mutt ε r r kun r ε) = ε r = r r ε = r + ε r = (r ε) (r ) = r 59

62 Jos ε L(s) niin kielten välisen yhtälön x = xs t pienin rtkisu (osjoukkoreltion suhteen) on kieli x = ts. Itse siss tämän yhtälön pienin rtkisu rvoll t = ε onkin opertion s lgerllinen määritelmä. Tvlliset joukko-opertiot vs. säännöllisten kielten opertiot Olkoot A = {, } j B = {c, d}. Joukot Kielet A B = {,, c, d} A B = {,, c, d} krteesinen tulo A B = tulo AB = {(, c), (, d), (, c), (, d)} {c, d, c, d} potenssijoukko P(A) = sulkeum A = {, {}, {}, {, }} {ε,,,,,,,,,,,,,,,,,,,...} P(X) = 2 n, kun X = n X =, kun X =n Miten osoitt, että L(r) = L(s)? Mtemttinen rtkisutp on osoitt, että 1. L(r) L(s) eli r s, j 2. L(s) L(r) eli s r. Ti helpommin (mutt ehkä työläämmiin) vstvill utomteill: 1. Muodost minimliset ääreelliset deterministiset utomtit lusekkeille s j r. 2. Jos utomtit ovt (tilojen nimiä lukuunottmtt) smt, niin kieletkin ovt smt onhn minimlinen deterministinen utomtti on yksikäsitteinen). (Johdttelev) kysymys: miten lusekkeest voidn muodost utomtti? (Vstus: selviää pin... ) 4.9 Säännöllisten kielten sulkeumominisuudet Mtemtiikss snotn että jokin joukko X on suljettu jonkin opertion (kuten lskutoimituksen) suhteen, jos soveltmll opertiot joukon X lkioihin sdn tulokseksi in joukon X lkioit eli jos opertio ei vie pois joukost X. Esimerkiksi luonnollisten lukujen joukko N on suljettu yhteenlskun suhteen, kosk m + n N jokisell m, n N. Se ei kuitenkn ole suljettu vähennyslskun suhteen, kosk esimerkiksi 5 8 N, vikk 5, 8 N. 60

63 Olkoon joukko X = kikki säännölliset kielet (eli se on merkkijonojoukkojen joukko). Minkälisten opertioiden suhteen se on suljettu? Luse 3. Olkoot L 1 j L 2 kkoston Σ säännöllisiä kieliä. Tällöin myös yhdiste L 1 L 2 leikkus L 1 L 2 ktentio eli tulo L 1 L 2 komplementti L 1 = Σ \ L 1 erotus L 1 \ L 2 (Kleenen) sulkeum (L 1 ) (Stephen Kleene oli jälleen yksi merkittävä loogikko.) käänteiskieli (L 1 ) R = {w R : w L 1 } eli joss kikki kielen L 1 merkkijonot on kirjoitettu tkperin ovt myös smn kkoston Σ säännöllisiä. Toisin snoen, säännöllisten kielten joukko on suljettu kikkien näiden opertioiden suhteen. Todistus: Jtkoss niitä osoitetn vstvien utomttien j/ti De Morgnin lkien vull. Huom että luse 3 on yksisuuntinen: Esimerkiksi yhdiste L 1 L 2 voi oll säännöllinen, vikk sen ost L 1 j L 2 eivät ole. Esimerkiksi säännöllinen kieli voidn muodost osist j L( ) = L 1 L 2 L 1 = { i j : i j} L 2 = { i j : j i} joist kumpikn ei ole säännöllinen (mikä voidn osoitt pumppuslemmll). Esimerkki 25. Lditn utomtti, jok tunnist kielen L(M) = {w {, } : w ei sisällä merkkijono }. Lditn ensin sen komplementtikielen tunnistv deterministinen utomtti, jok siis tunnist kielen L(M) = {w {, } : w sisältää merkkijonon }. Siitä sdn hluttu utomtti vihtmll hyväksyvät tilt hylkääviksi j päinvstoin.,, Huom: tämä komplementti-konstruktio edellyttää, että mhdolliset virhetilt on eksplisiittisesti esitetty, kosk komplementtiutomtiss niistäkin tulee hyväksyviä tiloj. 61

64 Sulkeum yhdisteen suhteen Kysymys: Miten voimme osoitt, että khden säännöllisen kielen L 1 j L 2 yhdiste L 1 L 2 on myöskin säännöllinen kieli? Vstus: Automtin vull, jok tunnist kielen L 1 L 2. Esim. utomtit jotk hyväksyvät merkkijonot jotk loppuvt 0, j jotk loppuvt 01: 0-utomtti 01-utomtti Kysymys: Miten muodostetn utomtti jok hyväksyy merkkijonot, jotk loppuvt 0 ti ti 01? Erityisesti: Miten sellinen utomtti voidn muodost näistä khdest nnetust utomtist? Vstus: Esimerkiksi ε-siirtymiä käyttäen. pltn siihen tuonnempn... Trkstelln merkkijono Ensimmäinen utomtti hylkää sen: Toinen utomtti hyväksyy sen: A 0 B 0 B 1 C 0 B 1 C. Siis se kuuluu kielten yhdisteeseen, joten se pitää hyväksyä. Kysymys: Voisiko lskennt litt peräkkäin? Vstus: Ei voi, kosk jokinen syötemerkki luetn vin kerrn, eikä siihen pääse enää uudestn käsiksi. Kysymys: Entä rinnkkin ti päällekkäin? Miten? Vstus: Siten, että sdn hyväksyvä lskent (, A) 0 (, B) 0 (, B) 1 (, C) 0 (, B) 1 (, C) joss pri (p, q) trkoitt 0-utomtti on tilss p j 01-utomtti tilss q. Vlitn yhdisteutomtille tiljoukoksi lkuperäisten utomttien tiljoukkojen krteesinen tulo siinähän ovt juuri kikki tälliset prit: {, } {A, B, C} = {(, A), (, B), (, C), (, A), (, B), (, C)} 62

65 Kuv 12: Khden utomtin tilojen krteesinen tulo. Määritellään siirtymäfunktio näiden prien välillä komponenteittin: yhdisteutomtiss on (p, q) (r, s) kun 0-utomtiss on p r j 01-utomtiss q s silloinhn ne toimivt yhtä ik. Grfisesti (kuvss 12) tämän voi esittää littmll yhdisteutomtin tilt tulukoksi, joss ensimmäisen utomtin tilt vstvt rivejä toisen utomtin tilt vstvt srkkeit. Vstvsti ensimmäinen utomtti nt siirtymien pystykomponentin j toinen utomtti vkkomponentin. Alkutilksi tulee (, A) eli lkuperäisten utomttien lkutilojen pri. Kosk kyseessä on unioni, hyväksyviä tiloj ovt kikki, joiss esiintyy ti C eli inkin toisen lkuperäisen utomtin hyväksyvä til. Sm uudestn mutt toisell tvll. Voimme yhdistää utomtit suorn ε-siirtymillä. Nyt utomtti rv luksi epädeterministisesti, kumpn kielistä L 1 viko L 2 syötettä verrtn. 63

66 Aikisemmt hyväksyvät tilt muuttuvt hylkääviksi mutt niistä on on ε- siirtymä uuteen hyväksyvään tiln ε 1 ε X 1 0 Y ε 0 1 A B C 0 ε 1 1. Voimme vielä determinisoid utomtin: 2. J minimoid: 3. Lopputulos: 0 1 {X,, A} {, B, Y } {, A} {, A} {, B, Y } {, A} {, B, Y } {, B, Y } {, C, Y } {, C, Y } {, B, Y } {, A} 0 1 {, A} {, B, Y } {, A} {, B, Y } {, B, Y } {, C, Y } {, C, Y } {, B, Y } {, A} 1 {, A} {, B, Y} {, C, Y} 0 1 Sm yleisemmin. Yhdistetään utomtit M s j M t utomtiksi jok tunnist kielen L(M s ) L(M t ): 64

67 ε M s ε ε M t ε Trvitsemme vielä utomtit kielelle L(M)... ε ε M s ε... j kielelle L(M s )L(M t ): ε M s ε M t 65

68 Muistutus: De Morgnin säännöt Tuttuj koulumtemtiikst j/ti diskreeteistä rkenteist j/ti mtemttisest logiikst. Ilmisevt joukko-opiss, että komplementointi kääntää yhdisteet leikkuksiksi j päinvstoin: A B = A B A B = A B. Esimerkiksi jos A j B ovt säännöllisiä kieliä, niin: 1. Myös niiden komplementit A j B ovt (hyväksyvät tilt hylkääviksi j päinvstoin -konstruktion vull esimerkistä 25). 2. Siten niiden yhdiste A B on (kuten edellä nähtiin khdellkin eri tvll). 3. Siten De Morgnin säännön nojll myös A B on. 4. Siten myös A B on (kuten skel 1) Äärelliset utomtit j säännölliset kielet Osoitetn seurv tärkeä tulos: Kieli on säännöllinen Kieli voidn tunnist äärellisellä utomtill. Ide: 1. Kieli L(r) on säännöllinen L(r) voidn tunnist äärellisellä utomtill M: Muodostetn säännöllistä lusekett r vstv (epädeterministinen) ε- utomtti. Hluttess tämä epädeterministinen utomtti voidn vielä determinisoid (j minimoid). 2. Kieli L(M) voidn tunnist äärellisellä utomtill M L(M) on säännöllinen: Trkstelln äärellisten utomttien ljennost, lusekeutomttej. Jos väite pätee lusekeutomteille, se pätee myös tvllisille äärellisille utomteille. Redusoidn lusekeutomtti 2-tiliseksi utomtiksi, jost voidn luke suorn vstv säännöllinen luseke Säännöllisestä lusekkeest utomtti Luse 4. Jokinen säännöllinen kieli voidn tunnist äärellisellä utomtill. Todistus: Annetn kuvn 13 eräs menetelmä, joll voidn muodost mielivltist säännöllistä lusekett r vstv ε-utomtti M r, joll L(M r ) = L(r). (Moni muitkin menetelmiä on.) Esimerkki 26. Muodostetn säännöllistä lusekett (( ) ( )) vstv äärellinen utomtti. (Vert tulost tehtävään 13.) 66

69 r = : r = s t: r = ε: ε ε M s ε r =, Σ ε ε M t r = st: r = s : ε M s ε M t ε M s ε ε Kuv 13: Säännöllisestä lusekkeest äärelliseksi utomtiksi. ε ε M ε ε ε ε ε ε M ( ) ( ) ε ε ε M ε ε ε ε ε ε, ε ε ε Tehtävä 24. Muodost säännöllistä lusekett (0 1) 0 (0 1) 01 = (0 1) (0 01) = (0 1 ) (0 01) vstv äärellinen utomtti. 67

70 Tehtävä 25. Muodost C-kielen liukuluvut tunnistv utomtti säännöllisestä lusekkeest (d +.d.d + )(ε ((e E)(+ ε)d + )) d + (e E)(+ ε)d + joss d = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} ovt 10-järjestelmän numeromerkit. Toislt ekvivlentti säännöllinen luseke voidn esittää monell tp, j osutomtit jost lopullinen rtkisu sdn voivt oll erilisi. Eli rtkisuj on erilisi (siihen skk kunnes on determinisoitu j minimoitu) Automtist säännöllinen luseke Luse 5. Jokinen äärellisellä utomtill tunnistettv kieli on säännöllinen. Todistus: Riittää selittää, miten nnetust äärellisestä utomtist M voidn kirjoitt sitä vstv säännöllinen luseke r M, jok trkoitt sm kieltä, eli joll L(r M ) = L(M). Voimme olett, ettei utomtiss M ole ε-siirtymiä (kosk voisimme ensin poist ne, jos niitä siinä olisi). Voimme myös olett, että utomtin M tilt on numeroitu 1, 2, 3,..., n. (Ei ole väliä, missä järjestyksessä.) Todistuksen ytimenä on muodost 3-ulotteinen tulukko, jonk indekseinä ovt nämä til(nnumero)t, j jonk pikss R[i][j][k] on sellinen säännöllinen luseke, että syötemerkkijono c 1 c 2 c 3... c m kuuluu lusekkeen R[i][j][k] määrittelemään kieleen täsmälleen silloin kun utomtiss M on jokin polku muoto c 2 c 3 c 4 c 5 cm 1 c m j. (4) } {{ } mikään näistä välitiloist ei ole k+1,k+2,k+3,...,n i c 1 Toisin snoen, R[i][j][k] ilmisee ne polut, joit pitkin lähtötilst i pääsee kohdetiln j vierilemtt mtkn ikn missään kielletyistä välitiloist k + 1, k + 2, k + 3,..., n. Huom: S oll i > k (eli polku s lähteä muuten kielletystä tilst) ti j > k (eli polku s päättyä muuten kiellettyyn tiln). Nämä lusekkeet R[i][j][k] voidn muodost induktioll indeksin k suhteen. Tämä induktio lk rvoll k = 0. Siinä lähtötilst i on päästävä kohdetiln j vierilemtt mtkn ikn missään tilss. Vlitn siis { } c c: M sisältää siirtymän i j kun i j R[i][j][0] = { } c (5) c: M sisältää siirtymän i j {ε} kun i = j. Ylemmässä hrss i j siis luetelln yhtenä säännöllisenä lusekkeen kikki ne syötemerkit c, joill on siirtymä lähtötilst i kohdetiln j. 68

71 Jos tällisi c ei ole yhtään kpplett, niin tämä luseke on silloin sehän on opertion neutrlilkio. Alemmss hrss i = j otetn mukn myös ε kosk silloinhn lähtötilst i päästään kohdetiln j myös pysymällä pikoilln. Oletetn sitten induktiivisess tpuksess k > 0 että kikki lusekkeet R[...][...][k 1] on jo muodostettu, j muodostetn niiden vull hlutut lusekkeet R[i][j][k] = vnh os {}}{ R[i][j][k 1] uusi os {}}{ R[i][k][k 1]. R[k][k][k 1]. R[k][j][k 1]. (6) }{{}}{{}}{{} lkuos välios loppuos Millä eri tvoill pääsemme lähtötilst i kohdetiln j kun smme nyt vierill myös ennen kielletyssä välitilss k? Voimme nytkin jättää vierilemtt välitilss k. Siitä smme vnhn osn. Uuden osn poluill vierilln välitilss k inkin kerrn. Aluksi sellinen polku kulkee lähtötilst i ensimmäiseen vieriluun välitiln k skk. Siitä smme lkuosn. Lopuksi sellinen polku kulkee viimeisestä vierilust välitiln k kohdetiln j. Siitä smme loppuosn. Niiden välissä polku kulkee välitilst k pois j pl siihen tkisin. Siitä smme väliosn. Edetään näin kunnes myös k = n on muodostettu. Olkoon sitten utomtin M lkutiln numero s j hyväksyvien tilojen numerot f 1, f f, f 3,..., f q. Lopuksi muodostmme hluttun vstuksenmme lusekkeen r M = R[s][f 1 ][n] R[s][f 2 ][n] R[s][f 3 ][n] R[s][f q ][n] eli jokinen polku, jok kulkee lkutilst johonkin hyväksyvään tiln, j jok s vierill missä välitilss thns. Voimme slli utomtiss M myös ε-siirtymät: Yhtälössä (4) ei c 1 c 2 c 3... c m enää olisikn syötemerkkijono, kosk jotkut c i polun siirtymill olisivtkin nyt ε. Mutt itse menetelmä ei muutu. Näiden ε-siirtyminen myötä voimme myös olett, että utomtiss M on vin yksi hyväksyvä til f tästä f ei lähde siirtymiä tämä f on eri til kuin utomtin M lkutil s. (Kuv 14.) 69

72 ε ε f ε Kuv 14: Hyväksyvien tilojen yhdistäminen yhdeksi. Voimme kirjoitt tämän todistuksen konstruktion lgoritmin 1 for i 1, 2, 3,..., n 2 do for j 1, 2, 3,..., n 3 do yhtälö (5) 4 for k 1, 2, 3,..., n 5 do for i 1, 2, 3,..., n 6 do for j 1, 2, 3,..., n 7 do yhtälö (6) 8 return R[s][f][n] j sd menetelmän, jok lskee nnetulle utomtille M sitä vstvn lusekkeen r M. Tämä lgoritmi on itse siss suku TRA II -kurssill esitellylle (?) Wrshll in lgoritmille, jok lskee nnetun syöteverkon trnsitiivisen sulkeumn. On myös toinen tätä kevyempi j intuitiivisempi menetelmä muodost nnetust utomtist M sitä vstv säännöllinen luseke r M. (Kirjllisuudess on toki näiden khden lisäksi mont muutkin menetelmää!) Tämä toinen menetelmä etenee poistmll trpeettomiksi käyneitä välitiloj utomtist M. Luseen 5 todistuksen menetelmähän eteni toisin päin: ksvttmll sllittujen välitilojen joukko, {1}, {1, 2}, {1, 2, 3},... yksi uusi til k kerrlln. Menetelmän lähtökoht on sm kuin yhtälössä (4): Seurtn utomtiss M polku sen tilst i toiseen tiln j, j kerätään polun siirtymilt niiden merkit c 1, c 2, c 3,..., c m siinä järjestyksessä kuin ne kohdtn. Menetelmän edetessä tällinen kokoninen polku korvtn oikotiellä eli yhdellä siirtymällä suorn tilst i tiln j. Tällisell oikotiellä pitää yhä oll kikki ne smt merkkijonot c 1 c 2 c 3... c m, jotk kerättäisiin, jos tilst i tiln j kuljettisiinkin ilmn oikoteitä, eli jos kuljettisiinkin lkuperäisiä siirtymiä pitkin. 70

73 p i j = i p q j q Niinpä oikotiell i merkkijonot. Kuv 15: Kksi rinnkkist siirtymää yhdeksi. r j onkin kokoninen säännöllinen luseke r jok kuv nämä Menetelmässä käytetään siis ns. lusekeutomttej: Ne ovt utomttej, joiden siirtymillä on kokoninen syötekkoston säännöllinen luseke pelkän syötemerkin sijst. Lusekeutomtin intuitio on, että kun tilss i otetn siirtymä i r j, niin 1. ensin luetn jäljellä olevn syötteen lust jokin lusekkeen r mukinen merkkijono tässä yhdessä skeless 2. sitten jtketn tilst j sillä jäljellä olevn syötteen loppuosll jot ei vielä luettu. Tvlliset utomtit voidn tulkit sellisiksi lusekeutomteiksi, joiden lusekkeet ovt mhdollisimmn yksinkertisi: pelkkiä merkkejä. Ohitmme kuitenkin tällä kurssill niiden formlin määritelmän, kosk käytämme niitä vin tässä menetelmässä. Tällisi oikoteitä voi vetää khdell tvll: 1. Jos utomtiss on kksi eri rinnkkist siirtymää i p q j j i j, niin ne voi korvt yhdellä yhteisellä siirtymällä i p q j kuten kuvss 15. Selvästi tämä säilyttää smoin ne merkkijonot, jotk kerättäisiin kulkemll näitä siirtymiä pitkin solmust i solmuun j: Uusi luseke p q kuv täsmälleen ne merkkijonot, jotk kuv inkin toinen vnhoist lusekkeist p ti q. 2. Käytetään ensin tp 1 kunnes rinnkkisi siirtymiä ei enää ole. Sitten trkstelln mielivltist välitil k s, f. p i Välitiln k tulee siirtymiä i k muult joiss siis i k. Ti jos ei tule, niin välitil k voidn poist trpeettomn, kosk siihen ei päästä lähtötilst s. Välitilst k kulkee silmukksiirtymä k q k tkisin itseensä. Ti jos ei kulje, niin sitä vstv os q voidn jättää pois lopputuloksest (7). 71

74 Välitilst k lähtee siirtymiä k r j j muulle joiss siis j k. Ti jos ei lähde, niin välitil k voidn poist trpeettomn, kosk siitä ei pääse lopputiln f. Silloin tämä nimenominen polku muult muulle tämän välitiln k kutt voidn korvt yhdellä oikotiellä i p i.q.r j j (7) kuten kuvss 16. Smll perustelull kuin yhtälön (6) uudess osss voidn nytkin nähdä, että merkkijonot säilyvät smoin: p i on lku-, q on väli- j r j on loppuos. S oll myös i = j k: silloin siirtymä (7) on silmukk i p i.q.r i i. Kun on käyty läpi kikki tälläiset polut muult muulle tämän välitiln k kutt (eli kikki solmuprit i, j) j korvttu ne oikoteillä (7), niin tämä välitil k sekä kikki siihen liittyvät siirtymät voidn poist, kosk niiden merkkijonot on esitetty näillä oikoteillä. Kun on käytetty tpoj 1 j 2 niin mont kert kuin mhdollist, niin: Automtiss on jäljellä vin sen lkutil s j hyväksyvä til f. Tilst s on silmukk s q s tkisin itseensä. Ti jos ei ole, niin sitä vstv os q voidn jättää pois lopputuloksest (8). Tilst s on siirtymä s r f tiln f. Ti jos ei ole, niin tilst s ei pääse tiln f, j silloin utomtin hyväksymä kieli onkin tyhjä kieli. Tilst f ei lähde siirtymiä, kuten näkyy kuvst 14. Tämän kuvss 17 olevn yksinkertistuneen utomtin hyväksymä kieli on jok sdn yksinkertistmll yhtälöä (7). q.r (8) Esitetään tämä menetelmä vielä lgoritmin: 72

75 q j i p i k r j.. p i.q.r j Kuv 16: Oikotie muult muulle. q.r s r f q Kuv 17: Luseke kutistuneest utomtist. 73

76 1 lisää kuvn 14 mukinen uusi hyväksyvä til f ellei sellist jo ole p q 2 while on rinnkkiset siirtymät i j j i j 3 do korv ne yhdellä yhteisellä siirtymällä i p q j 4 while on muitkin tiloj kuin lkutil s j tämä f 5 do k jokin (mikä thns) sellinen muu til p i 6 for ech siirtymä i k joss i k 7 do for ech siirtymä k r j j joss j k 8 do if on siirtymä k q k 9 then t p i.q.r j 10 else t p i.r j 11 u if on siirtymä i j 12 then päivitä se muotoon i u t j 13 else lisää sellinen muoto i t j 14 poist til k j kikki nämä siihen liittyvät siirtymät 15 if on siirtymä s r f 16 then if on siirtymä s q s 17 then return q.r 18 else return r 19 else return Tämä menetelmä on usein kevyempi j intuitiivisempi kuin luseen 5 todistuksen menetelmä, kosk: Automtit ovt usein modulrisi eli niissä on tilrykelmiä, joiden sisällä kulkee pljon siirtymiä, mutt joiden välillä kulkee vin vähän siirtymiä. Esimerkiksi liukuluvkion lukevss utomtiss on modulit 1. lue kokonisos 2. lue desimlios joist kumpikin on om silmukkns, joiss luetn numeromerkkejä, mutt siirtymä edellisestä jälkimmäiseen on vin desimlipisteellä.. Tällä menetelmällä voimme käydä tilt läpi moduli kerrlln mehän smme vlit tiln k kuten hlumme. Silloin tulokseen muodostuu näitä modulej vstvi lilusekkeit, jolloin se heijst utomtin intuitiot. Todistuksen menetelmä ei (inkn suorn) hyödynnä tätä modulrisuutt, vn tuott kikki yhteydet jokisest tilst jokiseen tiln. Otetn esimerkki tästä menetelmästä: 74

77 (i) lkuperäinen utomtti: (ii) lisätään f: s 1 s (iii) yhdistetään rinnkkiset: 1 1 ε 1 f (iv) poistetn til: ε s s ε f ε 0 1 ε (0 1).ε f (v) poistetn til: (vi) poistetn til: s 1 (0 1).(ε (0 1).ε) s 1.(0 1).(ε (0 1).ε) 0 1 f 0 1 f Nyt voidn luke lopputulos (0 1).1.(0 1).(ε (0 1).ε) jot voidn vielä hiemn sieventää muotoon (0 1).1.(0 1).(ε 0 1) jost voidn luke vstus: lkuperäinen utomtti hyväksyy ne inäärikkoston merkkijonot, joiden toiseksi ti kolmnneksi viimeinen merkki on 1. Voimme j knnttkin sievennellä lusekkeit jo menetelmän ikn. Tehtävä 26. Lue säännöllinen luseke seurvst utomtist: 75

78 , Säännöllisten kielten rjoituksist Kysymys: Kuink voidn hvit, ettei ongelm rtkekn äärellisisllä utomteill? Eli ettei vstv formlikieli olekn säännöllinen? Esimerkki 27. Onko tspinoisten sulkujonojen muodostm kieli L mtch = {( k ) k : k 0} säännöllinen? Yritetään tehdä sille utomtti: ( ( ( ( q 0 q 1 q n 1 q n ) ) ) ) q 2n q 2n 1 q n+2 q n+1 ) ( ( ( ( q 0 q 1 q n 1 q n ) ) ) ) Mutt entäpä jos sisäkkäisiä sulkuprej onkin n + 1 kpl.? Automttien rjllinen muisti Ääärellinen utomtti muist merkkijonon lkuosn vin tilojens vull. 76

79 Se ei siis voi pitää kirj kikist tpmistn merkeistä. Ääretön kieli voi oll säännöllinen vin jos siinä on jokin toistuv rkenne. Automtiss silmukk, säännöllisessä lusekkeess sulkeum (...). Säännöllisten kielten pumppuslemm formlisoi tämän hvinnon. Kielen osoittminen säännölliseksi ei ole lskennllisesti rtkev ongelm, vn siihen trvitn ihmisen mtemttist intuitiot on keksittävä sille utomtti ti luseke ti todistettv se sulkeumominisuuksien vull säännöllisiksi tiedetyistä kielistä ti... Stt näyttää ilmeiseltä, että äärellisen muistin jtuksen soveltminen olisi jotenkin intuitiivisesti selvää, eli että muistivtimukset näkisi jotenkin suorn. Kieli A = {w {0, 1} : w sisältää yhtä mont noll j ykköstä} ei ole säännöllinen (todistetn pin... ). Mutt kieli onkin säännöllinen. B = {w {0, 1} : w:ssä esiintyy 01 j 10 yhtä mont kert} Tehtävä 27. Todist että tämä kieli B on säännöllinen. Vihje: Mieti merkkijonon w ensimmäistä j viimeistä merkkiä... Luse 6. Kieltä C = {0 n 1 n : n N} ei voi tunnist äärellisellä utomtill. Todistus: Tehdään vstoletus, eli oletetn, että C voitisiin tunnist jollin äärellisellä utomtill M, eli siis L(M) = C. Olkoon tässä tuntemttomss utomtiss M k = Q til, j m = k/2. Kosk L(M) = C, niin silloin myös syöte s = 0 m 1 m L(M). Tämän syötteen s pituus s = 2m k. Merkitään sen merkkejä s = s 1 s 2... s 2m. Syötteellä s utomtti käy yhteensä 2m + 1 tilss, mukn lukien lkutil (joist os (ti kikki) voivt oll smoj). Toisin snoen, utomtti käy tiloiss: r 1 0 r r 1 m+1 r 1 1 m+2 r 2m+1. Eli lkutil q 0 = r 1 j δ(r i, s i ) = r i+1, missä r i Q. Hvinto: Q = k < 2m + 1 joten jonoss r 1... r 2m+1 inkin yksi til esiintyy usemmin kuin kerrn, eli r i = r j jollin i < j. Siis merkkijonoll s i... s j 1 utomtti tekee silmukn tilst r i tkisin tiln r i = r j : 77

80 x = s 1... s i 1 r i = r j z = s j... s 2m r 1 r 2m+1 y = s i... s j 1 Automtti siis hyväksyy lkuperäisen jonon s = xyz = xy 1 z kiertämällä silmukn yhden kerrn. Merkitään vstv hyväksyvää lskent lyhyesti: r 1 x r i y ri z r 2m+1. Silmukn sisältävästä hyväksyvästä lskennst sdn uusi hyväksyvä lskent ohittmll silmukk: r 1 x r i z r 2m+1 Siis utomtti hyväksyy myös merkkijonon xy 0 z = xz. Silmukk voidn myös toist mielivltisen mont kert: r 1 x r i y ri y ri z r 2m+1. r 1 x r i y ri y ri y ri z r 2m+1. Siis utomtti hyväksyy myös merkkijonot xy 2 z = xyyz, xy 3 z = xyyyz, xy 4 z = xyyyyz,... Kysymys: Kuuluuko merkkijono xy l z kieleen C = {0 n 1 n : n N} jokisell mhdollisell toistokertojen lukumäärällä l N? Trkstelln silmukn erilisi mhdollisi sijintej merkkijonon s keskikohdn suhteen: 1. i < j m + 1: nyt y = 0 j i. 2. i < m + 1 < j: nyt y = 0 m+1 i 1 j m m + 1 i < j: nyt y = 1 j i. Missään näistä tpuksist esimerkiksi xy 2 z ei kuulu kieleen C: tpuksess 1 siinä on liik nolli tpuksess 2 se on muoto tpuksess 3 siinä on liik ykkösiä. Kosk utomtti kuitenkin hyväksyy merkkijonon xy 2 z, tämä on ristiriit oletuksen C = L(M) knss. 78

81 Siis kieltä C ei voi tunnist k-tilisell äärellisellä utomtill millään k, eli kieli C ei ole säännöllinen. Edellisen todistuksen peruside oli osoitt, että jos M on k-tilinen utomtti, niin kielellä L(M) on pumppuspituus k: Määritelmä 4. Kielellä A on äärellinen pumppusominisuus, jos on olemss sellinen p, että mikä thns s A, joll s p, voidn esittää muodoss s = xyz, missä 1. xy i z A kun i = 0, 1, 2,..., 2. y > 0 j 3. xy p. Tällöin p on (eräs) kielen A pumppuspituus. Siis x = ε j z = ε ovt sllittuj, mutt y ε (ehto 2, muuten pumpttvuus olisi trivili). Kun kielellä on äärellinen pumppusominisuus, millä thns riittävän pitkällä merkkijonoll s on epätyhjä keskios y, jot pumppmll sdn uusi kieleen kuuluvi merkkijonoj xy 2 z, xy 3 z,... Luse 7 (Säännöllisten kielten pumppuslemm). Jokisell säännöllisellä kielellä on äärellinen pumppusominisuus. Todistus: Sivuutetn, ide on kuten edellisen luseen todistuksess yleistettynä mille thns säännölliselle kielelle. Intuitiivisesti, sm suomeksi: Äärettömän säännöllisen kielen tunnistvss utomtiss on silmukk siten, että 1. xy i z A: silmukk voidn kiertää mielivltisen mont kert i, j silti voidn päästä jonoll z hyväksyvään tiln. 2. y > 0: silmukk ei voi oll tyhjä, vn siihen pitää kuulu vähintään yksi ei-tyhjä siirtymä. 3. xy p: lskennn täytyy joutu silmukkn ennen kuin utomtist loppuvt tilt. Siis pumpputuvuusehto 2 trkoitt, että kieli sisältää merkkijonot xz, xyz, xyyz, xyyyz,... Ehdost 2 seur, että nämä jonot ovt toinen toistn pidempiä. Siis merkkijono y pumppmll sdn rjttomsti uusi kieleen kuuluvi merkkijonoj. Jos merkkijono s on pumpputuv, se kuuluu kieleen, kosk s = xy 1 z. Lisäksi se sisältää osjonon y, jonk poistminen ti monistminen tuott uusi kielen merkkijonoj. Ehdon 3 nojll tämä osjono y löytyy jonon s lkuosst, jonk pituus on p. Kielen pumpputuvuus trkoitt, että jokinen trpeeksi pitkä kieleen kuuluv merkkijono on pumpputuv. Äärellisellä kielellä voidn (j täytyy) vlit pumppuspituus p, jok on suurempi kuin kielen pisimmään merkkijonon pituus. Tällöin kielessä ei siis ole yhtään trpeeksi pitkää merkkijono... 79

82 Pumppuslemmn soveltminen Kiinnostv vin äärettömille kielille (äärelliset kielet ovt in säännöllisiä). Pumppuslemmn mukn millä thns säännöllisellä kielellä A on pumppusominisuus, toisin snoen jollkin p N mille thns selliselle s A jok on riittävän pitkä eli s p on olemss jko s = xyz joll pumppusehdot 1 3 toteutuvt. Pumppuslemmll ei voi osoitt kielen säännöllisyyttä, vin epäsäännöllisyyden. (Eikä sitäkään in, kosk on olemss epäsäännöllisiä kieliä, joill on äärellinen pumppuspituus... ) Iden todistus kontrpositioll, eli lemm käytetään käänteisesti ; A on säännöllinen A on pumpttviss A ei ole pumpttviss A ei ole säännöllinen Toisin snoen, on osoitettv, että mille thns p N on olemss sellinen s A, että s p j mille thns sen jolle s = xyz jokin pumppusehdoist 1 3 jää toteutumtt. Siis luksi voimme itse vlit s sopivsti helpottmn todistust, mutt sitten meidän pitää käydä läpi kikki mhdolliset tvt jk vlitsemmme s osiin x, y j z j osoitt, että mikään ei toteut pumppusehtoj. Toisin snoen, kun hlutn todist kieli epäsäännölliseksi, tehdään vstoletus, eli oletetn se säännölliseksi, j osoitetn että tästä seur ristiriit jonk voi osoitt käyttämällä pumppuslemm mutt jonk voi osoitt muutenkin: Esimerkiksi sulkeumominisuuksien vull ( plutetn ongelm tunnettuun kieleen). Esimerkki 28. Kieli C = {0 n 1 n : n N} ei ole säännöllinen. Todistus: Tehdään vstoletus että C olisikin säännöllinen. Silloin sillä olisi äärellinen pumppusominisuus, eli jokin vkio p siten, että jokinen inkin niin pitkä merkkijono s C (eli s p) jkutuu jotenkin osiin s = xyz jotk täyttävät ominisuuden 3 ehto. Me emme tiedä vkion p rvo, mutt me smme vlit sellisen merkkijonon s kuin hlumme (kunhn vlitsemme trpeeksi pitkän). Kun olemme vlinneet merkkijonomme s, niin me emme tiedä sen jost s = xyz muut kuin nämä 3 ominisuutt. Kosk tvoittelemme ristiriit, niin useimmiten knntt vlit s siten, että ehdot 2 j 3 ovt voimss, j osoitt että silloin ehto 1 ei enää sdkn voimn. 80

83 Tässä todistuksess knntt vlit s = 0 p 1 p (ti jokin vielä pidempi) kosk silloin ehdot 2 j 3 kertovt meille pljon osien xy rkenteest: joss k > 0 mutt j + k p. x = 0 j y = 0 k z = 0 p (j+k) 1 p Kosk tämä järkeilymme ei olet näistä rvoist j j k yhtään mitään muut, niin olemme todellkin tulleet käyneeksi läpi smll kert kikki mhdolliset jot. Nyt ehdon 3 mukn (vikkp) i = 0 kert pumpttu merkkijono 0 j 0 p (j+k) 1 p = 0 p k 1 p C. Mutt toislt kielen C määritelmän mukn pitäisi oll kosk k > 0. smll merkkijonoll 0 p k 1 p C Tässä on etsimämme ristiriit jok todist, että vstväite olikin väärin, eli että lkuperäinen väite olikin oikein. Pumppuslemmn ohell käytössämme ovt myös säännöllisten kielten sulkeumominisuudet (luse 3) j muut säännöllisiksi tunnetut kielet. Esimerkki 29. Osoit, että D = {w {0, 1} : w sisältää yhtä mont noll j ykköstä} ei ole säännöllinen. Todistus: Tehdään ts vstoletus: D on säännöllinen. Kieli 0 1 on säännöllinen (kosk se voidn tunnist kksitilisell utomtill). Siten kieli (0 1 ) D on säännöllinen (tunnettu sulkeumominisuus). Tämä on ristiriit, kosk (0 1 ) D on sm kuin C = {0 n 1 n : n N}, jok on iemmin todistettu epäsäännölliseksi esimerkissä 28. Esimerkki 30. Osoit, että kieli D = {w {0, 1} : w sisältää yhtä mont noll j ykköstä} ei ole säännöllinen. Todistus: Tehdään jälleen se vstoletus että D on säännöllinen. Edetään pumppuslemmll: Vlitn s = 0 p 1 p. Olkoon s = xyz D. Siis y ε j xy p, joten y koostuu yhdestä ti usemmst nollst. Kosk xyz D, niin xyyz sisältää nolli enemmän kuin ykkösiä, joten xyyz D. Ristiriit. Miten vlitn sopiv s? Jos olisi vlittu s = (01) p, ei olisi stu ristiriit, kosk tätä voidn pumpt (esim. x = ε, y = 01, z = (01) p 1 ). Pitäisi siis keksiä (sille tuntemttomlle) utomtille hnkli tpuksi. 81

84 Heuristisi ohjeit epäsäännöllisyystodistuksiin Mikä ominisuus tekee kielen epäsäännölliseksi?. Usein ominisuus koskee kht snn os, joiden välillä vllitsee jokin ehto. Tämä ominisuus voi koske esim. tiettyjen merkkien lukumäärien keskinäistä suhdett, esim. L 1 = { k m c m : k, m = 0, 1, 2,...} L 2 = { m 2m : m = 0, 1, 2,...} snn eri osi, esim. snn lku- j loppuos riippuvt jotenkin toisistn: L 3 = {ww R : w Σ } L 4 = {ww : w Σ }. Mikä on yksinkertisin, mielivltisen pituinen merkkijono, joss tämä ominisuus esiintyy? Joskus kielessä on todistuksen knnlt täysin turhi (säännöllisiä) osi, esim. kielessä L 1 merkin lukumäärällä ei ole mitään väliä voidn vlit merkkijono m c m. Mutt jos ehdon ospuolten välissä on tuollinen säännöllinen os, se stt oll trpeen ospuolien erottmiseen toisistn, esim. kielessä L 5 = { m k m : m, k = 0, 1, 2,...} trvitn inkin yksi erottmn lkuosn j loppuos merkit. Vlitn esim. m m. Jos kielen lku- j loppuos riippuvt jotenkin toisistn, mutt muuten ne svt oll mitä thns, riittää erott lku- j loppuos toisistn. Esim. kielen L 4 kohdll voidn vlit m m ti m m. Vlitse p siten, että eheysehdon toinen ospuoli kuuluu ensimmäiseen p merkkiin j sitä päästään pumppmn. Toinen tvoite on, että merkkijonon mhdollisi erilisi jkoj osiin xyz olisi mhdollisimmn vähän. Tätä käytimme esimerkin 28 todistuksessmme, ettei kieli C = {0 n 1 n : n N} ole säännöllinen: vlitsimme merkkijonon s niin pitkäksi, että lkuos x j pumpputuv os y olivt molemmt 0-jonoj. Test kikki pumppuslemmn mukiset jot w = xyz, xy p j y ε. Jokisell joll kokeile pumppust kierroslskurin i rvoill 0, 2, 3,... kunnes löytyy sellinen rvo i, että xy i z ei kuulu kieleen. Säännöllisten kielten luokk on suljettu (erityisesti) leikkuksen j komplementin suhteen. On nnettu kieli A, jok pitäisi osoitt epäsäännölliseksi. 82

85 Vlitn jokin säännöllinen kieli B, Jos nyt A B ei ole säännöllinen, niin myöskään A ei ole säännöllinen. (On kuitenkin oltv trkkn, esim. khden epäsäännöllisen kielen leikkus voi oll säännöllinen.) Jos A (komplementti) on epäsäännöllinen, niin myös A on epäsäännöllinen. Voitisiin siis sovelt pumppuslemm kieliin C = A B ti D = A, mutt joskus C ti D voi oll jokin tunnetusti epäsäännöllinen kieli, jolloin erillistä pumppuslemm-todistust ei trvit. Pikkertus: tähän mennessä... Deterministinen äärellinen utomtti (DFA): yksinkertinen lskentlite, muisti vin vkiomäärä, syötteen pituudest riippumtt. Säännölliset kielet: niiden kielten luokk, jok voidn tunnist DFA:ll. Epädeterministinen äärellinen utomtti (NFA): kieli voidn tunnist DFA:ll jos j vin jos se voidn tunnist NFA:ll. NFA on hyödyllinen kuvusformlismi. DFA voi vti eksponentilisesti enemmän tiloj kuin NFA. Kieli voidn tunnist DFA:ll jos j vin jos se voidn esittää lusekkeell. säännöllisellä Kikki kielet eivät ole säännöllisiä. Pumppuslemm voidn käyttää kielen epäsäännöllisyyden osoittmiseen. Eräs esimerkki epäsäännöllisestä kielestä on {w : w = w R, w {, } } Tähän mennessä: säännölliset kielet, tunnistus äärellisellä utomtill Seurvksi tällä LAP-kurssill: kontekstittomt kielet, tunnistus pinoutomtill Myöhemmin (LAT-kurssill): kontekstilliset j rekursiiviset kielet: tunnistus Turingin koneell ( tietokoneell ) Kikki muut kielet: vin osittin rtkevi ( kyllä -tpuksess) ti täysin rtkemttomi. Koetehtäviä? Yleisesti, smntyylisiä kuin luentojen esimerkit j kotitehtävät. Perustehtäväprototyyppi: Tehtävä 28. Ldi DFA / NFA jok tunnist kielen X. Minimoi / determinisoi utomtti käyttäen luennoill nnettu menetelmää. Mikä on utomtti / kieltä vstv säännöllinen luseke? Muunn säännöllinen luseke / utomtti utomtiksi / lusekkeeksi käyttäen luennoill nnettu menetelmää. Jne... Soveltvmp: 83

86 Tehtävä 29. Säännöllinen kieli A voidn tunnist deterministisellä äärellisellä utomtill M A. Kielen A komplementtikieli A voidn tunnist utomtill M A, jok sdn utomtist M A vihtmll hyväksyvät tilt ei-hyväksyviksi, j ei-hyväksyvät hyväksyviksi. Toisin snoen säännöllisten kielten luokk on suljettu komplementin suhteen. Edelleen, olkoon M A epädeterministinen utomtti, jok tunnist kielen A. Voidnko utomtist M A viht hyväksyvien j ei-hyväksyvien tilojen roolit edellä kuvtull tvll, j sd tulokseksi epädeterministinen äärellinen utomtti jok tunnist kielen A? Ovtko epädeterministisen utomttien tunnistmt kielet suljettu komplementin suhteen? Tehtävä 30. Miten mielivltisest NFA:st sdn NFA joss on vin yksi hyväksyvä til? Tehtävä 31. Voiko säännöllistä kieltä 0 1 tunnist deterministisellä äärellisellä utomtill, joss on vin yksi hyväksyvä til? Perustele. Tehtävä 32. Osoit, että säännöllisten kielten luokk on suljettu leikkuksen suhteen. Tehtävä 33. Olkoon A säännöllinen kieli. Osoit, että myös A R = {w R säännöllinen. : w A} on Tehtävä 34. Olkoot kielet A j B säännöllisiä. Onko kieli C = A B = (A B) (B A) säännöllinen? (Siis w C, jos w kuuluu joko kieleen A ti B, mutt ei molempiin.) Perustele. Tehtävä 35. Mitkä seurvt kkoston Σ = {, } kielistä ovt säännöllisiä? 1. E = { n n : n N} 2. F = {wuw R : w, u Σ + } 3. G = {ww : w Σ } 4. H = { i j : i j} 84

87 5 Kontekstittomt kielet j pinoutomtit Kontekstittomt kielet (context-free lnguges, yhteydettömät kielet) voidn kuvt kontekstittomill kieliopeill (context-free grmmr) j tunnist epädeterministisillä pinoutomteill (pushdown utomton). Verrttun edelliseen lukuun, korvmme säännölliset lusekkeet näillä kieliopeill, j epädeterministiset äärelliset utomtit näillä pinoutomteill. Pinoutomtti on kuten äärellinen utomtti, johon on lisätty rjoittmttomn suuri muisti. Tämä muisti on TRA-kurssilt tuttu pino (stck). Tämä rjoittmttomn suuri muisti trkoitt, että pino-opertiot eivät koskn jumiudu virheilmoitukseen Out Of Memory error. Joskus kirjllisuudess näitä pinoj kutsutn nimellä pushdown store/stck: Niissä voi ktsell vin pinon päällimmäistä tietolkiot, sen ll olevt jäävät piiloon (kunnes ne nousevt päällimmäiseksi). Silloin yleisnimi stck vrtnkin tietorkenteelle, jot suomeksi kutsutnkin nimellä vopino: Niissä koko pinon sisältöä voi selill, mutt vin päällimmäisen lkion voi poist. Tvoitteet: Opitn mitä ovt kontekstittomt kielet j pinoutomtit, j mikä on niiden välinen suhde. Opitn muodostmn kielioppi yksinkertisille kontekstittomille kielille. Opitn jäsentämisen perusidet. Johdttelev esimerkki: Miten kuvisit seurvt kielet? Sisäkkäisten sulkulusekkeiden kieli: if else-prien muodostm kieli: L ( ) = { ( k ) k : k 0 } L if-else = { if k else l : l k } Ne eivät ole säännöllisiä, joten säännöllisillä lusekkeill se ei onnistu. Rtkisuyritys: Annetn kielelle L ( ) rekursiivinen kuvus: Merkitään S = mielivltinen sisäkkäinen sulkumerkkijono. Tällöin S on sisäkkäinen sulkumerkkijono, jos 1. S = ε ti 2. S on muoto (S ), missä myös S on sisäkkäinen sulkumerkkijono. Toinen kuvustp (ensimmäinen kontekstiton kielioppimme): 85

88 1. S ε 2. S (S) Esimerkiksi merkkijonon ((())) tuottminen: S (S) ((S)) (((S))) (((ε))) = ((())) Vstv jäsennyspuu (tähän pltn vielä): S S S ( ( ( ε ) ) ) Kontekstittomn kieliopin ide On nnettu joukko muuttujsymoleit j muunnossääntöjä tämän muuttujsymolin esiintymän s korvt tuoll merkkijonoll jok voi vuorostn sisältää uusi muuttujsymolien esiintymiä. Yksi näistä muuttujsymoleist on erityinen loitussymoli jost lähdetään liikkeelle. Muunnetn merkkijono näillä säännöillä, kunnes siinä ei enää esiinny muuttujsymoleit. Silloin voidn luke näin tuotettu lopullinen merkkijono. Esimerkki 31. Yksinkertinen kielioppi ritmeettisille lusekkeille: E T E + T T F T F F (E). Esimerkiksi ensimmäinen rivi luetn muuttujsymoli E voidn korvt merkkijonoll T ti merkkijonoll E + T joss T on toinen muuttujsymoli j + merkki. 86

89 Se tuott vikkp ritmeettisen lusekkeen ( + ) seurvsti: E T T F F F (E) F (E + T ) F (T + T ) F (F + T ) F ( + T ) F ( + F ) F ( + ) F ( + ) Siinä lleviivttu muuttujsymolin esiintymä on korvttu. Kontekstittomn kieliopin formli määritelmä Määritelmä 5. Kontekstiton kielioppi on nelikko joss G = (V, Σ, P, S) äärellinen joukko V on kieliopin kkosto; Σ V on kieliopin päätemerkkien joukko; sen komplementti N = V \ Σ on kieliopin välikemerkkien eli -symolien joukko (joit edellä kutsuimme muuttujsymoleiksi); äärellinen joukko P N V on kieliopin sääntöjen eli produktioiden joukko; j S N on kieliopin lähtösymoli. Sääntöä (A, ω) P merkitään A ω. Sen voi luke välike A voi tuott/joht merkkijonon ω. Intuitiivisesti kontekstiton kielioppi G = (V, Σ, P, S) tuott merkkijonoj Σ seurvll epädeterministisellä lgoritmill: 1 r S 2 while r sisältää yhä välikemerkkien esiintymiä 3 do vlitse mikä thns (siis vikkp ensimmäinen ti viimeinen) sellinen esiintymä joten r on siis muoto αaβ joss A N on se vlittu esiintymä, α V on sitä ennen tulev os, j β V on sen jälkeen tulev os 4 vlitse mikä thns tämän vlitun esiintymän sääntö A ω P 5 r αωβ 6 tulost näin stu r Silloin kieliopin G tuottm formli kieli L(G) = kikki ne merkkijonot r jotk tämä lgoritmi voi tulost vlitsemll säännöt sopivsti rivillään 4. 87

90 Kontekstittomn kielen formli määritelmä Merkkijono αaβ V, joss A N, voi tuott ti joht suorn merkkijonon αωβ V, jos kieliopiss G on sääntö A ω P. Tätä merkitään Esimerkiksi sekä että αaβ G αωβ T F G F F T F G T esimerkin 31 kieliopiss ritmeettisille lusekkeille. Merkkijono γ 0 V, voi tuott ti joht merkkijonon γ n V, jos on olemss jono merkkijonoj V siten, että γ 0 γ 1 γ 2 G G G G γ n eli jos merkkijono γ 0 voi tuott suorn merkkijonon γ 1 jok voi tuott suorn merkkijonon γ 2 jok voi tuott suorn merkkijonon... jok voi tuott suorn merkkijonon γ n. Tätä merkitään Esimerkiksi kosk on jono γ 0 γ n G T F (E) G T F G F F G (E) F G (E) esimerkin 31 kieliopiss ritmeettisille lusekkeille. Erikoistpuksen jokinen merkkijono γ V voi tuott itsensä eli tyhjällä jonoll (joss n = 0). Esimerkiksi γ γ G T F T F G esimerkin 31 kieliopiss ritmeettisille lusekkeille. 88

91 Merkkijono γ V on kieliopin G lusejohdos, jos γ voidn joht sen lähtösymolist S: S γ. G Esimerkiksi (E) j ( + ) ovt lusejohdoksi esimerkin 31 kieliopiss ritmeettisille lusekkeille. Kieliopin G luse on sellinen sen lusejohdos, jok koostuu pelkästään sen päätemerkeistä: S γ j γ Σ. G Esimerkiksi ( + ) on luse esimerkin 31 kieliopiss ritmeettisille lusekkeille. Kieliopin G tuottm ti kuvm kieli koostuu sen luseist: { } L(G) = γ Σ : S γ. G Eli L(G) on kikkien niiden luseiden (merkkijonojen) joukko, jotk voidn tuott kieliopill G loittmll sen lähtösymolist S. Määritelmä 6. Formli kieli L Σ on kontekstiton, jos se voidn tuott jollkin kontekstittomll kieliopill. Kontekstist Sn konteksti (englnniksi context ) on suomeksi luseyhteys. Siten snn kontekstiton tilll käytetäänkin joskus snoj yhteydetön ti yhteysvp. Kontekstiton viitt siihen, että kieliopin säännöt ovt muoto A ω, mikä voidn tulkit siten, että muuttuj A voi tuott merkkijonon ω, olip sen ympärillä mitä thns. Sääntöjä siis voidn sovelt kontekstist riippumtt. Kontekstittomn kieliopin yleistys on konteksti(lli)nen kielioppi (context-sensitive grmmr). Tällisen kieliopin säännöt ovt muoto αaβ αωβ joss α, β, ω V. Tällinen sääntö tulkitn siten, että muuttuj A voidn korvt merkkijonoll ω jos sen edessä on α j perässä β eli jos A on luseyhteydessä α... β. Lisäksi vditn että Esimerkiksi kieli säännön vsemmn puolen pituus sen oiken puolen pituus. (9) { n n c n : n N} ei ole kontekstiton, mutt se voidn esittää käyttämällä kontekstisi sääntöjä. 89

92 Kontekstisi kielioppej ei käsitellä tällä kurssill. Nekin ovt silti kiintoisi... utomttien teoriss: Kuten jo vihjttiin, kontekstittomt kielet voidn tunnist utomteill joill on tvllinen pino. Kontekstiset ts utomteill joill on vopino. lskennn vtivuusteoriss: Kontekstiset kielet ovt ne, jotk voidn tunnist käyttämällä relistinen eli polynominen määrä muisti. Jos pituusehdost (9) luovutn, niin sdn edelleen rjoittmttomt kieliopit j kielet, j silloin svutetn lskettvuuden äärirj. Vkiintuneit merkintätpoj Välikesymoleit merkitään isoill kirjimill: A, B, C,..., S, T Päätemerkkeinä käytetään pieniä kirjimi,, c,..., s, t; numeromerkkejä 0, 1,..., 9; erikoismerkkejä; vrttuj snoj kuten if,for,end,... lihvoituin ti lleviivttuin. Mielivltisin merkkeinä (kun välikkeitä j päätemerkkejä ei erotell) käytetään X, Y, Z. Päätemerkkijonoin käytetään u, v, w, x, y, z. Sekmerkkijonoin käytetään α, β, γ,..., ω. Kielioppi esitetään usein pelkkänä sääntöjoukkon: Tällöin A 1 ω ω 1k1 A 2 ω ω 2k2. A m ω m1... ω mkm välikesymolit päätellään joko edellisten merkintäsopimusten mukn ti siitä, että ne esiintyvät sääntöjen vsempin puolin lähtösymoli on ensimmäisen säännön vsempn puolen esiintyvä välike; tässä siis A 1. Esimerkki 32. Sisäkkäisten sulkujonojen muodostmn kielen L ( ) = {( k ) k k 0} tuott kielioppi G ( ) = ({S, (, )}, {(, )}, {S ε, S (S)}, S) Esimerkki 33. Tspinoisten sulkujonojen muodostmn kielen tuott kielioppi G ( ) = ({S, (, )}, {(, )}, {S ε, S (S), S SS}, S) Esimerkiksi ()(()) on tspinoinen muttei sisäkkäinen sulkujono. Tämän mhdollist uuden säännön lisäämisen edellisen esimerkin 32 kielioppiin. 90

93 Esimerkki 34. Kielen { i k c k i, k = 0, 1,...} voi tuott kieliopill G = (V, Σ, P, S), joss V = {S, A, B,,, c} Σ = {,, c} P = {S AB, A A, A ε, B Bc, B ε}. Esimerkki 35. Yksinkertisten ritmeettisten lusekkeiden muodostmn kielen L expr tuott kielioppi G expr = (V, Σ, P, E) (10) joss V = {E, T, F,, +,, (, )}, Σ = {, +,, (, )}, P = {E T, E E + T, T F, T T F, F, F (E)}. Kieliopill (10) voidn joht esim. seurvt lusejohdokset: E G E + T G T + T G T F + T G F F + T G F + T G (E) + T G (T ) + T G (F ) + T G () + T G () + F G () +. Toinen kielioppi kielen L expr tuottmiseen on joss V = {E,, +,, (, )}, Σ = {, +,, (, )}, G expr = (V, Σ, P, E) (11) P = {E E + E, E E E, E, E (E)} Esimerkki 36. Trkstelln suomen kielen virkettä, jok koostuu yksinkertisest pääluseest sekä nollst ti usemmst sisäkkäisestä reltiiviluseest: L rel = {suj( jok pred ttr oj) pred ttr oj} 91

94 Tällisi virkkeitä voidn tuott esim. seurvill kontekstittomn kieliopin G rel säännöillä: VIRKE SUBJ SL PRED ATTR OBJ SL jok PRED ATTR OBJ SL ε SUBJ poik tyttö jänis susi peikko PRED pelkäsi metsästi ATTR suurt pientä vihist hirmuist rk OBJ poik tyttöä jänistä sutt peikko Mitä virkkeitä voit joht lähtösymolist VIRKE? Esimerkiksi: Kontekstittomt kieliopit ovt luontisi positionlisille kielille, joss kuk teki mitä kenelle ilmistn niiden pikoill luseess. Esimerkiksi englnnin kielessä on snjärjestys on vltosin sujekti-veriojekti (SVO) kuten yllä. Mutt suomen kielessä snjärjestys onkin vp j kuk teki mitä kenelle ilmistnkin sijmuodoill. Esimerkki 37. Ohjelmointikielten syntksin kuvus. Psclin osjoukko: luse ehtoluse koottu-luse sijoitus kutsu ehtoluse if ehto then luse else luse ehto x=0 koottu-luse egin lusejono end lusejono luse luse ; lusejono sijoitus x:=0 kutsu c Tästä on hyötyä ohjelmoijlle (syntksi pitää ost, jos ikoo ohjelmoid), mutt myös kääntäjä (ti yksi sen os, jäsentäjä (englnniksi prser )) voidn lti suorviivisesti perustuen kielioppiin. Oletus on, että esim äärellisellä utomtill (ti trnsduktorill) ohjelmn lähdekoodi on ensin pilkottu vlmiiksi yllä kuvttuihin osiin (vrtut snt, muuttujt, liohjelmien nimet, vkiot, jne). Tehtävä 36. Ldi kontekstiton kielioppi, jok tuott rjttomn monist sisäkkäisistä for-silmukoist, lkeisopertioist j kokonislukuvkioist N koostuvt ohjelmointikielen luseet, kuten for (i=n; i<n; i++) { for (j=n; j<n; j++) { } } 5.1 Kontekstittomien kielten sulkeumominisuuksist Kontekstittomi kielioppej on helppo tuott soveltmll moni vstvi opertioit kuin säännöllisissä lusekkeiss. Huom: Kontekstittomt kielet eivät kuitenkn ole suljettu kikkien smojen opertioiden suhteen kuin säännölliset! 92

95 Luse 8. Jos A j B ovt kontekstittomi kieliä, niin myös niiden yhdiste A B, tulo AB j sulkeum A ovt. Todistus: Trkstelln esimerkkinä yhdistettä A B; muut kohdt menevät smn tpn. Olkoot siis A j B kkoston Σ kontekstittomi kieliä. Siis A = L(G A ) j B = L(G B ) joillin kontekstittomill kieliopeill G A = (V A, Σ, P A, S A ) j G B = (V B, Σ, P B, S B ). Olkoon S / N A N B. Määritellään G = (V A V B {S}, Σ, P, S), missä P = P A P B {S S A } {S S B }. Selvästi L(G) = A B. Toislt, toisin kuin säännöllisten kielten luokk, kontekstittomien kielten luokk ei ole suljettu leikkuksen j komplementin suhteen. Toislt ts jos kieli A on säännöllinen, j kieli B kontekstiton, niin niiden leikkus A B on kontekstiton. Joitkin epäsäännöllisiä kieliä, kuten {0 n 1 n : n N} ti {w {0, 1} : w = w R } on helppo tuott kontekstittomll kieliopill. Toislt esimerkiksi kopiokieli {ww : w {0, 1} } ei ole kontekstiton (vn kontekstinen). Miten keksiä nnetulle kielelle kielioppi? On nnettu kontekstiton kieli L, j ldittv sen tuottv kontekstiton kielioppi G. Millisen kielen määrittely kuv? Yritä esittää L usemmn yksinkertisemmn kielen yhdisteenä (kuten L = L 1 L 2 L 3 ), tulon (kuten L = L 1 L 2 ) ti sulkeumn (kuten L = (L 1 L 2 ) ). Ldi näille oskielille L 1, L 2,... kieliopit. Olkoot niiden lkusymolit S 1, S 2 j S 3. Ldi sitten koko kielen L kielioppi seurvsti: Muit usein toistuvi rkenteit: Kieli Säännöt L = L 1 L 2 L 3 S S 1 S 2 S 3 L = L 1 L 2 S S 1 S 2 L = (L 1 ) S S 1 S ε L = (L 1 L 2 ) S SA ε, A S 1 S 2 Sääntö Kieli A {, } A A ε L( ) = {ε,,,,...} B Bc ε { n c n : n = 0, 1, 2,...} B Bc ε { 2n c n n = 0, 1,...} Tehtävä 37. Ldi kielioppi seurville kielille: 93

96 (0 1) 3. {0 n 1 n : n N} {1 n 0 n : n N} 4. {ww R : w {0, 1} } 5. {w {0, 1} : w = w R } 5.2 Säännölliset kielet j kontekstittomt kieliopit Säännölliset kielet sisältyvät idosti kontekstittomiin kieliin, jotk vuorostn sisältyvät idosti kontekstisiin kieliin. Siis jokinen säännöllinen kieli voidn kuvt kontekstittomll kieliopill jop linerisell kontekstittomll kieliopill, jonk rkenne on yksinkertisempi kuin yleinen kontekstiton kielioppi. tyyppi 2: kontekstittomt kielet tunnistus: pinoutomtti tyyppi 3: säännölliset kielet tunnistus: äärellinen utomtti rjllinen muisti äärelliset kielet Lineriset kieliopit Määritelmä 7. Kontekstiton kielioppi on oikelle linerinen jos sen kikki produktiot ovt muoto A ε ti A B, j vsemmlle linerinen jos sen kikki produktiot ovt muoto A ε ti A B. Intuitiivisesti kielioppi on oikelle linerinen jos välikesymoli s esiintyä vin säännön oikess lidss eikä missään muull. Oikelle lineriset kieliopit j epädeterministiset äärelliset utomtit vstvt toisin Äärellistä utomtti vstv linerinen kielipppi Luse 9. Jokinen säännöllinen kieli voidn tuott oikelle linerisell kieliopill. Todistus: Olkoon kieli L Σ säännöllinen, j M = (Q, Σ, δ, q 0, F ) sen tunnistv äärellinen utomtti. Iden on muodost kielioppi G M jok tuott smt merkkijonot jotk M tunnist. Silloinhn L(G M ) = L(M) = L kuten hlutn. Siten kieliopin G M päätekkostoksi on vlittv utomtin M syötekkosto eli Σ. 94

97 Luodn kielioppiin G M om välike A q jokiselle utomtin M tillle q Q. Muit välikkeitä ei kielioppiin G M tule. Kieliopin L G lähtösymoliksi tulee A q0 eli utomtin M lkutil q 0 vstv välike. Kieliopin G M säännöt suunnitelln oikelle linerisiksi j siten, että siinä on lusejohdos ua p täsmälleen silloin kun utomtiss M päästään lkutilst q 0 tiln p lukemll syötemerkkijono u Σ. Ti toisin merkiten, kieliopin G M lusejohdokset ovt muoto ua δ (p 0,u). Tämä svutetn siten, että jokinen utomtin M siirtymä p c q tuott kielioppiin G M säännön A p ca q. Silloinhn ua p G M uca q kuten hlusimmekin. Automtin M pysähtyminen esitetään siten, että lusejohdoksen oikess lidss olev ino välike kto; silloinhn merkkijono u on sellinen jonk M hyväksyy, joten sen pidentäminen lisämerkeillä c voidn lopett. Siis siten, että kielioppiin G M lisätään sääntö A q ε jokiselle utomtin M hyväksyvälle tillle q F. Kielioppi G M on nyt vlmis. Esimerkki 38. Kuvss on yksinkertinen äärellinen utomtti, jok hyväksyy kielen L = {w {, } : wsisältää vähintään yhden merkin }., 1 2 Automtti vstv kielioppi on: A 1 A 1 A 2 A 2 ε A 2 A Linerist kielioppi vstv äärellinen utomtti Luse 10. Jokinen oikelle linerisell kieliopill tuotettv kieli on säännöllinen. Todistus: Tehdään edellisen luseen 9 todistuksen konstruktio toiseen suuntn. Olkoon siis G = (V, Σ, P, S) oikelle linerinen kielioppi. Muodostetn kielen L(G) tunnistv epädeterministinen äärellinen utomtti M G = (Q, Σ, δ, q S, F ) seurvsti: Tilt vstvt kieliopin välikkeitä: Q = {q A : A V \ Σ} 95

98 Alkutil on lähtösymoli S vstv til q S. Syötekkosto on päätekkosto Σ. Siirtymäfunktio δ jäljittelee produktioit siten, että produktiost A B tulee siirtymä q A q B (eli q B δ(q A, )). Lopputiloj ovt ne tilt, joit vstviin välikkeisiin liittyy ε-produktio: F = {q A Q: A ε P } Yhteenveton lineristen kielioppien j äärellisten utomttien vstvuuksist: Äärellinen utomtti til q lähtötil q 0 Linerinen kielioppi välikesymoli A q lähtösymoli A q0 siirtymä q q sääntö A q A q hyväksyvä til q F sääntö A q ε Esimerkki 39. Olkoon d lyhenne lukumerkille {0, 1,..., 9}. Trkstelln seurv oikelle linerist kielioppi: S +A A db A db B db ε Automttiin tulee kolme til: q S, q A j q B. Lähtösymoli S vst lkutil q S j säännöstä B ε tiedämme, että q B on (ino) lopputil. Muit sääntöjä vstvt tilsiirtymät q S + q A q S q A q S d q B q A d q B q B d q B Sdn kuvn 18 tuttu utomtti, jok tunnist etumerkilliset kokonisluvut. Huom: Kielioppi voi usein oll luontevmpi luke kuin äärellistä utomtti ti säännöllistä lusekett. Tässäkin välike B voidn luke 0 ti usempi numeromerkkejä jne. Tehtävä 38. Piirrä seurvi kielioppej vstvt äärelliset utomtit: 1. Luseke:, kielioppi: S S ε. 2. Luseke: + =, kielioppi: S S. 3. Luseke: ( ), kielioppi: S A B A S A B B ε 4. Luseke: (), kielioppi: S S ε. 96

99 d +, d q S q A q B d Kuv 18: Kokonislukuutomtti niiden kieliopist. 5. Luseke: ( ), kielioppi: S BBBS ε B B ε 6. Luseke: ( )( ), kielioppi: S DN N DN ε D Muit sovelluksi ovt esimerkiksi pseudotiedettä suoltv puppugenerttori http: //pdos.csil.mit.edu/scigen/ sekä ksvikieliopit (nimeltään L- eli Lindenmyer-systeemit): 97

100 Niiden iden on mllint sitä iologist kontrollimeknismi, jok määrää, että tähän kohtn ksv uusi oks, tuohon kohtn ts uusi lehti. Vstvntpisi, hyödyllisempiä, sovelluksi on muitkin, kuten neuroverkkojen rkenteen generointi kieliopill (jok on voitu generoid vikkp geneettisillä lgoritmeill), yms. 5.3 Pinoutomtti Pinoutomtti (push-down utomton, PDA) on äärellinen utomtti, johon on lisätty rjoittmton määrä muisti pinon muodoss kuvn 19 tpn. Muistutus kurssilt TRA: Pino on tietorkenne, joll on seurvt opertiot: Luo tyhjä pino. Test onko pino tyhjä vi onko siinä tietolkioit. Vie pinoon jokin tietolkio x eli opertio push(x). Poist epätyhjästä pinost sinne viimeiseksi viety tietolkio eli opertio pop. Pinon vull voidn pitää kirj luetuist merkeistä j tehdä moni muitkin sioit... Kielen voi tunnist pinoutomtill täsmälleen silloin kun se on kontekstiton. Syöte hyväksytään jos sen lopuss olln hyväksyvässä tilss. : n N} voi hyväksyä pinon vull seur- Esimerkki 40. Epäsäännöllisen kielen {0 n 1 n vn tpn: 1 luss pino on tyhjä 2 while seurv luettu syötemerkki on 0 3 do push(0) 4 while seurv luettu syötemerkki on 1 nd pino ei ole tyhjä 5 do pop 6 return onko koko syöte luettu nd pino jälleen tyhjä Sehän tutkii, vstko jokist syötteestä pinoon kopioitu merkkiä 0 syötemerkki 1. Pinoutomtin formli määritelmä Määritelmä 8. Pinoutomtti on kuusikko joss Q on tilojen äärellinen joukko; Σ on äärellinen syötekkosto; Γ on äärellinen pinokkosto; M = (Q, Σ, Γ, δ, q 0, F ) 98

101 syötenuh tutkittv syöte... nuhpää ohjusyksikkö q 0 q 3 q 1 q 2 δ A A A A_ pino Kuv 19: Kvkuv pinoutomtist. funktio δ : Q (Σ {ε}) (Γ {ε}) P(Q (Γ {ε})) on (joukkorvoinen) siirtymäfunktio; q 0 Q on lkutil; j F Q on hyväksyvien tilojen joukko. Siirtymäfunktion tyyppi Siirtymäfunktioll δ(q, σ, γ) on nyt 3 rgumentti: 1. q Q on nykyinen til, kuten ikisemminkin; 2. σ Σ on seurv syötemerkki, kuten ikisemminkin; j 3. γ Γ on pinon päällimmäinen merkki. Jokisell skeleelln pinoutomtti siis voi käyttää näitä kikki kolme tieto vlitessn mitä tehdä seurvsti mutt sen ei ole pkko käyttää seurv syötemerkkiä σ j/ti pinon päällimmäistä merkkiä γ: Jos merkkiä ei käytetä, niin sen tilll on rgumenttin ε. Jos merkki käytetään, niin se myös kulutetn: siis seurv syötemerkki σ luetn pois syötteestä j/ti pinon päällimmäinen merkki γ poptn pois pinost. 99

102 Siirtymäfunktion rvo δ(q, σ, γ) on (äärellinen) joukko prej (q, γ ) joiss q Q on pinoutomtin seurv til, j γ Γ on pinoon seurvksi pushttv merkki. Kuten γ yllä, myös tämä γ voi puuttu, j silloin sen tilll onkin ε. Siirtymäfunktion rvot Kosk seurv syötemerkki σ, pinon päällimmäinen merkki γ j seurv pinoon vietävä merkki γ voivt myös puuttu, siirtymiä on yhteensä 8 erilist: 1. (q, γ ) δ(q, σ, γ) eli mikään niistä ei puutu: 1 lue syötteestä sen seurv merkki σ 2 popp γ pois pinost 3 push γ pinoon Siten merkki σ luetn syötteestä j merkki γ pinon päällä korvutuu merkillä γ. 2. (q, γ ) δ(q, σ, ε) eli vin γ puuttuu: Vin rivi 2 jää pois, eli merkki σ luetn syötteestä j pino ksv merkillä γ. 3. (q, γ ) δ(q, ε, γ) eli vin σ puuttuu: Vin rivi 1 jää pois, eli syötettä ei luet mutt merkki γ korvutuu pinon päällä merkillä γ. 4. (q, ε) δ(q, σ, γ) eli vin γ puuttuu: Vin rivi 3 jää pois, eli merkki σ luetn j merkki γ poistuu pinon päältä. 5. (q, ε) δ(q, σ, ε) eli vin σ on jäljellä: Vin rivi 1 jää jäljelle, eli merkki σ luetn mutt pino ei muutu. 6. (q, ε) δ(q, ε, γ) eli vin γ on jäljellä: Vin rivi 2 jää jäljelle, eli syötettä ei luet mutt merkki γ poistuu pinon päältä. 7. (q, γ ) δ(q, ε, ε) eli vin γ on jäljellä: Vin rivi 1 jää jäljelle, eli syötettä ei luet mutt pino ksv merkillä γ. 8. (q, ε) δ(q, ε, ε) eli kikki ne puuttuvt: Automtti siirtyy tilst q tiln q lukemtt syötettään ti muuttmtt pinon eli tekee ε-siirtymän. Pinoutomtin lskennn eteneminen Pinoutomtin M tilnne on kolmikko (q, w, α) Q Σ Γ eli siinä on nykyinen til q Q vielä lukemton syöte w Σ pinon nykyinen sisältö α Γ kirjoitettun merkkijonoksi siten, että sen päällimmäinen merkki tulee ensimmäisenä (vsemmlt oikelle lukiess) jne. Alkutilnne syötteellä x on kolmikko (q 0, x, ε) eli pino on luss tyhjä. 100

103 Tilnne (q, σw, γα), joss σ Σ {ε} γ Γ {ε}, j voi joht suorn tilnteeseen (q, w, γ α) jos Tätä merkitään (q, γ ) δ(q, σ, γ). (q, σw, γα) (q, w, γ α). M Tilnne (q 0, w 0, α 0 ) voi joht tilnteeseen (q n, w n, α n ) jos on olemss tilnnejono (q 0, w 0, α 0 ) (q 1, w 1, α 1 ) (q 2, w 2, α 2 ) M M M Tätä merkitään (q 0, w 0, α 0 ) (q n, w n, α n ). M Pinoutomtti M hyväksyy syötemerkkijonon x Σ jos joillkin q F F j α Γ. (q 0, x, ε) (q F, ε, α) M (q n, w n, α n ). M Toisin snoen, jos sen lkutilnne syötteellä x voi joht johonkin selliseen tilnteeseen, joss koko syöte x on luettu j olln josskin hyväksyvässä tilss q F. Muuten M hylkää tämän syötteen x. Pinoutomtin hyväksymä kieli on L(M) = {x Σ : M hyväksyy syötteen x} eli sen hyväksymät syötemerkkijonot x. Epäoleellisi yksityiskohti Tässä määritelmässä pinon ei trvitse oll tyhjä lskennn päättyessä. Toisiss lähteissä ts vditn pinonkin olevn tyhjä (eli α = ε) ennen kuin voidn hyväksyä. Tämä ei kuitenkn ole oleellinen ero, kosk voimmehn lisätä loppuun silmukn jok tyhjentää pinon. Tässä määritelmässä ei ole testiä onko pino tyhjä viko ei? Tällinen testi on kuitenkin helppo lisätä trvittess: Lisätään pinokkostoon Γ uusi symoli $ j loitetn utomtin lskent viemällä se pinon pohjimmiseksi merkiksi. Sen jälkeen voidn tämä testi suoritt kysymällä onko pinon päällimmäinen merkki $ viko ei kunhn sitä ei koskn poistet pinost (pitsi juuri ennen syötteen x hyväksymistä, mikäli pino pitää tyhjentää ennen sitä kuten yllä). 101

104 Kksi pino olisi liik Jos pinokkostoss Γ on pohjmerkin $ lisäksi vin yksi muu merkki, niin silloin kyseessä on yksilskuriutomtti (one-counter utomton): Sellisell pinoll voi ylläpitää yhtä lskuri N j kysyä onko sen rvo = 0 viko > 0. Käytimme tätä ominisuutt ikisemmss esimerkissä 40. Yhdellä lskurill voi tunnist joitkin epäsäännöllisiä kieliä, mutt ei kikki kontekstittomi kieliä. Olemme määritelleet utomtin, joll on yksi pino. Entäpä jos pinoj olisikin usempi? Ehkä yllättäen: Jo khdell pinoll hyppäisimme kontekstittomist kielistä in rekursiivisesti lueteltviin kieliin skk eli lskettvuuden äärirjoille. Entäpä jos sllisimmekin usempi lskureit nehän ovt yleisiä pinoj yksinkertisempi? Ehkä vieläkin yllättävämmin: Jo khdell lskurillkin hyppäisimme yhtä kus. Pinoutomtin tilsiirtymäkvio Pinoutomtille voidn piirtää muuten smnlinen tilsiirtymäkvio kuin äärelliselle utomtillekin, mutt nyt tilsiirtymänuoli koristellnkin (pelkän syötemerkin Σ sijn) kolmell eri tiedoll: q σ,γ/γ q trkoitt, että pinoutomtti voi siirtyä tilst q Q tiln q Q lukemll seurvn syötemerkin σ Σ j korvmll pinoss sen päällimmäisen merkin γ Γ merkillä γ Γ. (Kuv 20.) Kukin näistä eri tiedoist σ, γ j γ voi myös puuttu, jolloin sen tilll onkin ε. Esimerkki 41. Kieli { k k : k 0} voidn tunnist seurvnlisell pinoutomtill M = ({q 1, q 2, q 3, q 4 }, {, }, {, $}, δ, q 1, {q 1, q 4 }) joss on käytetty pinon pohjmerkkiä $. δ(q 1, ε, ε) = {(q 2, $)}, δ(q 2,, ε) = {(q 2, )}, δ(q 2,, ) = {(q 3, ε)}, δ(q 3,, ) = {(q 3, ε)}, δ(q 3, ε, $) = {(q 4, ε)}, δ(q, σ, γ) = muill (q, σ, γ). ε, ε/$ q 1 q 2 q 4 q 3 ε, $/ε, /ε, ε/, /ε 102

105 q Til q q 0 Alkutil Hyväksyvä til Hylkäävä lopputil, γ/γ q q Tilsiirtymä δ(q,, γ) = (q, γ ) Kuv 20: Pinoutomtin tilsiirtymäkvion merkinnät. Esimerkiksi syötteellä esimerkin 41 utomtill on seurv lskent: (q 1,, ε) (q 2,, $) (q 2,, $) (q 2,, $) (q 3,, $) (q 3, ε, $) Kosk q 4 F = {q 1, q 4 }, on siis L(M). (q 4, ε, ε) Deterministiset j epädeterministiset pinoutomtit Determinismin intuitio on, että lskulitteell on in korkeintn yksi mhdollinen seurv skel Epädeterminismin intuitio ts on, että mhdollisi skeleit onkin useit, j lskulite rv ti tietää mikä niistä on tällä hetkellä se oike vlint, jok iknn joht syötteen hyväksymiseen. Määritelmä 9. Pinoutomtti M on deterministinen, jos jokisell tilnteell (q, w, α) on korkeintn yksi mhdollinen seurj (q, w, α ), joll (q, w, α) (q, w, α ). M Tämän määritelmän 9 mukn pinoutomtti on epädeterministinen, jos siinä on 103

106 kksi eri siirtymää p σ 1,δ 1 /δ 1 p σ 2,δ 2 /δ 2 joill σ 1 σ 2, δ 1 δ 2 j δ 1 δ 2, missä trkoitt että merkit j ovt smt ti inkin toinen niistä on ε. Silloin utomtti voisi sovelt sopivss tilnteess kuten (p, σ 1 σ 2..., γ 1 γ 2...) kump tnhns niistä j ne johtisivt khteen eri seurvn tilnteeseen. Huom, että tämän määritelmän 9 mukinen epädeterministinen pinoutomtti ei välttämättä koskn oikesti teekään epädeterminististä rvust: Vikk siinä olisikin kksi tällist siirtymää, niin sen rkenne voikin kokonisuudessn oll sellinen, ettei tällist sopiv tilnnett koskn ilmene sen lskennoiss esimerkiksi jos tilss q ei koskn pino olekn muoto γ 1 γ Huom: Toisin kuin äärelliset utomtit, epädeterministiset pinoutomtit ovt tunnistusvoimltn idosti vhvempi kuin deterministiset! Eli on olemss kontekstittomi kieliä, jotk voidn tunnist jollkin epädeterministisellä muttei millään determistisellä pinoutomtill. Eräs tällinen kieli on { ww R : w {, } }. (12) Intuitiivisesti, epädeterministinen pinoutomtti rv ti tietää syötteensä keskikohdn, joss sen lkuos w on luettu j voidn lk lukemn sen loppuos w R. Deterministisen utomtin pitäisi jotenkin pystyä hvitsemn tämä keskikoht omin päin j siihen se ei pystykään. Mutt jos tämä keskikoht onkin merkitty, niin kielestä tuleekin deterministinen: { wcw R : w {, } }. Toinen tp jtell tätä ero on, että epädeterminististä pinoutomtti ei välttämättä pystykään determinisoimn. Intuitiivisesti kyse on seurvst: Tilnne: Epädeterministisen pinoutomtin yksi siirtymä hlu pusht jotkin pinoons kun ts toinen popt jotkin pois siitä. Ongelm: Mitä determinisoidun utomtin pitäisi silloin tehdä? Senhän pitäisi jotenkin pystyä seurmn molempi vihtoehtoj! Esimerkki 42. Epädeterministinen kontekstiton kieli (12) voidn tunnist seurvll peritteell: 1. Syötteen ensimmäisen puolikkn jn litetn merkkejä pinoon. 2. Syötteen keskikoht rvtn epädeterministisesti. 3. Syötteen toisen puolikkn jn poimi merkkejä pinost j vert juuri luettuun merkkiin. 104

107 ε, ε/$ q 1 q 2, ε/, ε/ ε, ε/ε q 4 ε, $/ε q 3, /ε, /ε Esimerkiksi syötteellä esimerkin 42 epädeterministisellä pinoutomtill on seurv hyväksyvä lskent: (q 1,, ε) (q 2,, $) (vihe 1) (q 2,, $) (q 2,, $) (rvus 2) (q 3,, $) (vihe 3) (q 3,, $) (q 3, ε, $) (q 4, ε, ε) jonk lopputil q 4 F = {q 1, q 4 } on siis hyväksyvä. Deterministinen kontekstiton kieli Määritelmä 10. Kontekstiton kieli on deterministinen, jos se voidn tunnist jollkin deterministisellä pinoutomtill, muuten se on epädeterministinen. Esimerkiksi edellä trksteltu kieli (12) j kieli ovt epädeterministisiä. L 2 = { n m c k : n m ti m k } Deterministiset kielet ovt tärkeä kieliluokk, sillä ne voi hyväksyä eli jäsentää tehokkmmin kuin epädeterministiset kielet. Siksi jos voimme itse suunnitell kielen (kuten vikkp määritellessämme uutt ohjelmointikieltä) teemme siitä deterministisen Pinoutomtit j kontekstittomt kielet Luse 11. Kikki kontekstittomt kielet voidn tunnist (epädeterministisillä) pinoutomteill j kikki pinoutomttien tunnistmt kielet ovt kontekstittomi. Todistus: On menetelmät, joill voi muunt mielivltisen kontekstittomn kieliopin pinoutomtiksi j päinvstoin. 1. Ensin esitetään muunnos kieliopist utomtiksi. 2. Sitten luonnostelln myös päinvstinen muunnos utomtist kieliopiksi. 105

108 1. Alust pinon sisällöksi S$, joss S on kieliopin lähtösymoli j $ pinon pohjmerkki. 2. Toist seurv: () Jos pinon huipull on muuttujsymoli A, niin vlitse epädeterministisesti jokin sääntö A w. Korv A merkkijonoll w. () Jos pinon huipull on päätesymoli, niin poist se pinost j vert seurvn syötemerkkiin. Jos ne erovt, hylkää. (c) Jos pino on tyhjä (eli sen huipull on $) niin hyväksy jos syötekin on loppu; muuten hylkää. Kuv 21: Generoi-j-test -lgoritmi. Kieliopist pinoutomtiksi Peruside on lti nnetun kieliopin pohjlt pinoutomtti, jok toteutt seurvn lgoritmin: Generoi: Tuot epädeterministisesti pinoon merkkijono w Σ, joll S w. Test: Vert pinon merkkijono w syötteeseen merkki kerrlln. Jos löytyy ero, hylkää. Jos pino tyhjenee smn ikn, kun syöte loppuu, niin hyväksy. Toisin snoen, generointivihe rv minkä syötteen utomtti si, j testusvihe trkist että rvus meni oikein. Epädeterminismi on oleellist: vlitsemll generoimisviheess sovellettvt säännöt epädeterministisesti vrmistetn, että jokisell kieleen kuuluvll merkkijonoll w on mhdollisuus tull tuotetuksi. Toteutust rjoitt, että utomtin tietorkenne on pino, jost vin huippu on kulloinkin näkyvissä. Siksi generointi- j testusvihe pitää lomitt: Ain kun pinon huipulle sdn päätesymoleit, käydään vertmss niitä syötteeseen ennen generoinnin jtkmist. Sdn kuvn 21 trkennettu lgoritmi jok pitää vielä koodt pinoutomtiksi. Tämän pinoutomtin pinokkostoksi tulee siis kieliopin koko kkosto sekä pinon pohjmerkki Γ = V {$} (joss siis $ V ). syötekkostoksi tulee puolestn kieliopin päätemerkkien joukko Σ. Esimerkki 43. Trkstelln kielioppi S S T T T c ε j merkkijono cc, jok voidn joht seurvsti: 106

109 S S T T c T cc cc. Hlumme siis muodost esimerkissä 43 pinoutomtin, jok syötteellä cc vuorotellen sovelt pinoon ylläolevn johdon sääntöjä j poist pinost syötettä vstvi päätemerkkejä. Pinon käyttäytymisen pitäisi siis oll kuten vieressä: jäljellä olev syöte pinon sisältö cc ε cc $ cc S$ cc S$ cc T $ cc T c$ cc T c$ cc T cc$ cc T cc$ cc cc$ c c$ $ ε $ ε ε Otmme käyttöön merkinnän (q, γ ) δ(q, σ, γ) myös siinä tpuksess, että γ = g 1 g 2 g 3... g m Γ onkin kokoninen m pinomerkin jono (kun iemmin sllittiin vin korkeintn yksi pinomerkki eli m 1). Tämä merkintä luetn seurvsti: Jos utomtti on tilss q, niin voidn siirtyä tiln q lukemll syötemerkki σ j korvmll pinon päällä pinomerkki γ tällä pinomerkkijonoll g 1 g 2 g 3... g m. Automttin tämä tulkitn kuten ll. σ, γ/g 1... g m σ, γ/g m ε, ε/g m 1 ε, ε/g 1 q q q q Huom: Pinomerkkijono viedään pinoon tkperin eli push(g m ); push(g m 1 ); push(g m 2 );... ; push(g 1 ) jott pinon päälle muodostuu tämä hluttu pinomerkkijono g 1 g 2 g 3... g m etuperin. Automttiimme tulee lkutil q strt toistotil q loop, hyväksyvä til sekä muit tiloj. 1. Toteutettvn lgoritmimme kuvss 21 ensimmäinen skel oli pinon lustus. Se voidn toteutt seurvsti: strt ε, ε/s$ ε, ε/$ ε, ε/s loop strt loop 2. Sen toinen skel toisti seurv: () Jos pinon huipull on muuttujsymoli A, niin vlitse epädeterministisesti sääntö A w. Korv A merkkijonoll w. Siis kikill säännöillä A w lisätään siirtymä: 107

110 loop ε, A/w Nyt käytetään siis äsken käyttöön otettu merkintää, joll pinoon viedään kokoninen pinomerkkijono w, eli silmuklle ilmestyy w 1 välitil, joit tässä kuvss ei näy. () Jos pinon huipull on päätesymoli, poist se pinost j vert seurvn syötemerkkiin. Jos ne erovt, hylkää. Siis kikill päätemerkeillä Σ tulee siirtymä: loop, /ε (c) Jos pinon huipull on $, hyväksy jos syöte on loppu; muuten hylkää. loop ε, $/ε Muit siirtymiä ei tule, eli utomttimme on nyt vlmis. Tehtävä 39. Muunn kielioppi S S T T T c ε pinoutomtiksi. Pinoutomtist kieliopiksi Hhmotelln myös muunnos toiseen suuntn eli nnetust pinoutomtist sitä vstvksi kontekstittomksi kieliopiksi. Oletetn yksinkertisuuden vuoksi, että utomtti tyhjentää pinons ennen kuin hyväksyy syötteensä. Oletetn myös, ettei siinä ole opertioit korv pinon päällä merkki γ merkillä γ. Sellinen opertio p σ,γ/γ q voidn nimittäin toteutt erillisellä poppush-yhdistelmällä p σ,γ/ε ε,ε/γ q. Ajtelln sitten, että utomtin jokiseen siirtymään p σ,γ/γ q on liitetty sivuvikutuksen tulost σ, γ/γ. Tässä ltikko ilmisee, että kunkin tulosteen jtelln olevn yksi (mutkiks) merkki. Automtti siis tulost sivuvikutuksenn sen, mitä se tekee pinolleen j syötteelleen. Sitten letn ltimn kielioppi, jotk tuott täsmälleen nämä sivuvikutuksen tulostuvt ltikkomerkkijonot. 108

111 Lditn ensin kielioppi kikille sellisille ltikkomerkkijonoille, joiss jokist push-opertiot seur myöhemmin sen kumov pop-opertio. Jokinen tulostuv ltikkomerkkijono on sellinen oletusten nojll, mutt jokist sellist ei utomtti välttämättä voi tulost. Tämän kieliopin voi muodost smn tpn kuin esimerkin 33 tspinoiset sulkumerkkijonot. Nyt vin sulkumerkkejä on moni erilisi: push(γ) on vv sulkumerkki lji γ j sitä vstv pop(γ) on sulkev sulkumerkki lji γ. Vstvsti ASCII-kkostoss on kolmen eri ljin sulkumerkkiprej: (...), [...] j {...}. Kieliopiksi sdn A ε A AA A σ, ε/ε A jokiselle σ Σ {ε} A σ, γ/ε A σ, ε/γ jokiselle eri ljille γ Γ. Tulkitn sitten pinoutomtti tvlliseksi äärelliseksi utomtiksi, jonk syötekkoston ovt nämä ltikot. σ, γ/γ Toisin snoen, tulkitn jokinen siirtymä p σ,γ/γ q siirtymäksi p q. Nyt etsimämme ltikkomerkkijonokieli on tämän kieliopin tuottmn kielen j tämän äärellisen utomtin hyväksymän kielen leikkus. Tässä viheess tekisi mieli vedot iemmin minitsemmme tulokseen, että kontekstittomn j säännöllisen kielen leikkus on kontekstiton mutt sen todistmisess voimme vuorostn trvit tätä tulost, jolloin tekisimme kehäpäätelmän! Siksi teemme leikkuksen tässä todistuksess käsin onneksi kielioppi on yksinkertinen. Otetn käyttöön välikkeet B p q joiden ylä- j lindeksit ovt utomtin tiloj eli p, q Q. Määritellään uusi kielioppi siten, että tällinen välike B p q trkoitt niitä ltikkomerkkijonoj jotk voidn tuott välikkeestä A j jotk voivt esiintyä jollkin polull tilst p tiln q. B p p ε B p r B p q B q r B p r σ, ε/ε B q r σ, ε/γ s sekä tiloille p, q, r, s Q j pinomer- kikille siirtymille p keille γ Γ. kikill p Q B p s σ, γ/ε B q r σ, ε/γ kikill p, q, r Q σ, γ/ε q j r jokiselle siirtymälle p σ, ε/ε q j r Q 109

112 Nyt etsimämme ltikkomerkkijonokieli voidn tuott lisäämällä lähtösymoli S j sille säännöt S B p 0 p f joiss p 0 on utomtin lkutil j p f F mikä thns sen hyväksyvä til. Lopuksi muunnmme vielä ltikkomerkkijonon vstvksi syötemerkkijonoksi. Tämä voidn tehdä lisäämällä jokiselle ltikkomerkille muuntosääntö σ, γ/γ σ eli tulkitsemll nekin välikesymoleiksi jot tuottvt siinä luetun syötemerkin σ (ti eivät mitään kun sellist ei ole eli kun σ = ε). Tehtävä 40. Ldi pinoutomtti, jok tunnist seurvnliset ohjelmointikielen rkenteet: merkkijonoss jokist vv ltosulku { vst sulkev ltosulku } jokist else:ä vst if, mutt if:iin ei ole pkko liittyä else-hr if-luseen ehto esitetään päätemerkillä c muut komennot esitetään päätemerkillä, jot seur puolipiste ; Lillinen: { } if c { if c ; else ; } Liton: } if c { if c { ; else ; } Akkosto koostuu siis seurvist merkkijonoist: Σ = { {, }, if, else, c, ; }. Kielioppin tämän voi esittää esim. seurvsti: S {S} if c ST ; T else S ε 5.4 Kielioppien jäsennysongelm Annettu kielioppi G j merkkijono x. Onko x L(G)? Esimerkkejä jäsennysongelmist: Kuuluuko virke jänis jok pelkäsi rk peikko metsästi suurt sutt esimerkin 36 reltiivilusekieleen L rel? Onko ( ) 7 1 lillinen ritmeettinen luseke? Onko seurv funktio C-kielen syntksin mukinen? flot lske(int x, int y) { if (x >= y) return x-y; else return y-x; } Kontekstittomien kielten jäsennys on tärkeä os ohjelmointikielten kääntämisessä. Yleisemmin, jäsentäminen on tp testt kuuluuko nnettu merkkijono nnettuun kieleen, riippumtt vrsinisest sovelluksest. 110

113 Jäsentimet Jäsennysongelm voidn rtkist jäsennyslgoritmill eli jäsentimellä eli jäsentäjällä (englnniksi prser mutt suomeksi jäsentäminen ei ole prsimist!). On useit vihtoehtoisi menetelmiä erityyppisille kieliopeille: Lineriset kieliopit eli säännölliset kielet: äärellinen utomtti. LL(1)-kielet: Rekursiivinen LL(1)-jäsennin. Deterministiset kielet: deterministinen pinoutomtti ti rekursiivinen LR(1)- jäsennin. Vhvemmt kontekstittomt kielet: CYK-lgoritmi. Ensin tutustumme jäsennyksen peruskäsitteisiin. Johdot Olkoon merkkijono γ V kieliopin G = (V, Σ, P, S) lusejohdos. Sen johdoksi kieliopiss G kutsutn lähtösymolist S merkkijonoon γ johtv suorien johtojen jono S γ 1 γ 2 γ 3 γ Johdon pituus on siihen kuuluvien suorien johtojen määrä eli -skelten lukumäärä. Johto γ γ on vsen johto jos kusskin johtoskeless on produktiot sovellettu merkkijonon vsemmnpuoleisimpn välikkeeseen; sitä merkitään γ γ lm oike johto jos kusskin johtoskeless on produktiot sovellettu merkkijonon oikenpuoleiseen välikkeeseen; sitä merkitään γ γ. rm Johto ei välttämättä ole oike eikä vsen, vn se voi oll niiden sekmuoto (eli joskus lvennetn vsemmn- j joskus oikenpuoleisin välike) ti ei kumpkn (eli joskus lvennetn välike jok on vsemmn- j oikenpuoleisimmn välissä). Esimerkki 44. Trkstelln kielioppi G expr : E E + T T T T F F F (E) 111

114 E E T T T F F F + * Kuv 22: Esimerkki jäsennyspuust. Luseelle + voidn nt esimerkiksi seurvnliset johdot kieliopiss: (i) E E + T T + T F + T + T + T F + F F + F + (ii) E E + T T + T T + T F T + F F F + F F F + F + F + (iii) E E + T E + T F E + T E + F E + T + F + + Näistä (i) on vsen johto, (iii) oike johto j (ii) ei ole kumpkn. Jäsennyspuu Eli syntksipuu, eli johtopuu (englnniksi prse tree, syntx tree, derivtion tree). Vihtoehtoinen esitystp johdoille. Kertoo vin, miten välikkeet on lvennettu, ei missä järjestyksessä lvennukset on tehty. Esimerkiksi kikki kolme edellä esimerkissä 44 minittu johto vst sm kuvn 22 jäsennyspuu. 112

115 Määritelmä 11. Olkoon G = (V, Σ, P, S) kontekstiton kielioppi. Kieliopin G mukinen jäsennyspuu on järjestetty puu joll on seurvt ominisuudet: 1. puun solmut on nimetty joukon V {ε} lkioill siten, että sisäsolmujen nimet ovt välikkeitä (eli joukost N = V \ Σ); juurisolmun nimenä on lähtösymoli S; lehtisolmujen nimet ovt päätemerkkejä (eli joukost Σ {ε}); 2. jos A on puun jonkin sisäsolmun nimi, j X 1,..., X k ovt sen jälkeläisten nimet järjestyksessä (vsemmlt oikelle) niin A X 1... X k on kieliopin G:n produktio. (Järjestetyssä puuss solmun kuten A lsten keskinäisellä järjestyksellä on väliä, eli että sillä on ensimmäinen lpsi nimeltään X 1, toinen lpsi nimeltään X 2, jne.) Jäsennyspuun τ tuotos on se päätemerkkijono, jok sdn liittämällä yhteen sen lehtisolmujen nimet esijärjestyksessä ( vsemmlt oikelle ). Esimerkiksi edellisen kuvn 22 jäsennyspuun tuotos on +. Jäsennyspuu on hyvä esitys sille miten sen tuotos on stu kieliopin säännöillä. Tehtävä 41. Muistetn iempi kielioppimme: Ann ohjelmn johto j jäsennyspuu. Johdot j jäsennyspuu luse ehtoluse koottu-luse sijoitus kutsu ehtoluse if ehto then luse else luse ehto x=0 koottu-luse egin lusejono end lusejono luse luse ; lusejono sijoitus x:=0 kutsu c if x=0 then else egin x:=0 ; end Lusekkeen johdost voidn in muodost jäsennyspuu j päinvstoin: 1. Kun nnetn johto S γ, niin voidn muodost jäsennyspuu τ, jonk tuotos on γ. 2. Kun nnetn jäsennyspuu τ, niin voidn muodost sen tuotoksen γ vsen j oike johto S γ j S γ. lm rm 113

116 Johdost jäsennyspuuksi Olkoon nnettun johto S = γ 0 γ 1 γ 2 γ 3 γ n = γ jonk tuotos on γ, niin siitä voidn muodost jäsennyspuu τ seurvsti: 1 luksi τ koostuu vin juurisolmust nimeltään S 2 for j 0, 1, 2,..., n 1 3 do olkoon seurv johdos γ j+1 stu nykyisestä johdoksest γ j korvmll sen k:s symoli merkkijonoll g 1 g 2 g 3... g m 4 l k:s lehti puuss τ vsemmlt oikelle lskien 5 synnytä lehdelle l lpset nimiltään g 1, g 2, g 3,..., g m Tämän for-silmukn invrintti on, että nykyinen johdos γ j luettelee in nykyisen puun τ lehtien nimet vsemmlt oikelle (lukuunottmtt ε-lehtiä). Kun käytetään esimerkin 44 vsent johto (i) j merkitään jokisen solmun viereen monesko johdos sen synnytti, niin sdn: 0 E 1 1 E T T T F 3 F 6 F * Tehtävä 42. Kielioppi S SS (S) ε tuott kikki oikein muodostetut sulkulusekkeet (siis päätesymolit ovt vsen j oike sulkumerkki). Sulkuluseke on oikein muodostettu, jos vsemmt j oiket sulkumerkit voidn priutt siten, että mikään pri ei mene ristiin. Sulkulusekkeen ()(()()) eräs johto on S SS (S)S ()S ()(S) ()(SS) Piirrä vstv jäsennyspuu. 114 ()((S)S) ()(()S) ()(()(S)) ()(()())

117 Jäsennyspuust johdoiksi Olkoon τ kieliopin G mukinen jäsennyspuu. Siitä sdn tuotoksens x vsen johto käymällä puun solmut läpi esi järjestyksessä ( ylhäältä ls, vsemmlt oikelle ) j lventmll vstn tulevt välikkeet järjestyksessä puun osoittmll tvll oike johto käymällä puu läpi käänteisessä esijärjestyksessä ( ylhäältä ls, oikelt vsemmlle ). Yleensä käytämme vsent johto. Oike johto käytetään myös tietyn tyyppisten (ohjelmointikielten) kielioppien jäsentämiseen. Tehtävä 43. Kirjoit edellisen tehtävän 42 jäsennyspuut vstv oike johto. Esimerkiksi kun kuvn 22 esimerkkipuumme solmut numeroidn esijärjestyksessä, niin sdn 1 E 2 E 7 T T T F 4 F 9 F * j vsemmn johdon rkentminen etenee siis tässä numerojärjestyksessä. Menetelmät ovt yksikäsitteisiä Jos muodostetn nnetust vsemmst (ti oikest) johdost S x (ti S x) lm rm ensin jäsennyspuu edellä minitull tvll, j sitten jäsennyspuust vsen (oike) johto, niin sdn tkisin lkuperäinen johto. Luse 12. Olkoon G = (V, Σ, P, S) kontekstiton kielioppi. Tällöin: (i) jokisell kieliopin G lusejohdoksell γ on sen mukinen jäsennyspuu τ, jonk tuotos on γ; 115

118 (ii) jokist kieliopin G mukist jäsennyspuut τ, jonk tuotos on päätemerkkijono x, vstvt yksikäsitteiset vsen j oike johto S x j S x. lm rm Seurus: Jokisell kieliopin G luseell on vsen j oike johto. Ti siis kontekstittomn kieliopin tuottmien luseiden jäsennyspuut, vsemmt j oiket johdot vstvt yksikäsitteisesti toisin, joten riittää nt vin yksi vihtoehtoisist jäsennyksen esitystvoist. Kieliopin moniselitteisyys Smll luseell voi oll kieliopiss useit erilisi jäsennyksiä. Esimerkiksi luseell + kieliopiss G expr: E E E + E E E E E E + E Määritelmä 12. Kontekstiton kielioppi G on moniselitteinen (englnniksi miguous ), jos jollkin sen luseell x on kksi erilist sen mukist jäsennyspuut. Muuten kielioppi on yksiselitteinen ( unmiguous ). Kontekstiton kieli, jonk voi tuott vin moniselitteisellä kieliopill, on luonnostn moniselitteinen ( inherently miguous ). Esimerkki 45. Aritmeettisi lusekkeit kuvvlle kielelle nnettiin kksi kielioppi. Niistä G expr on yksiselitteinen: E T E + T T F T F F (E). Se toinen kielioppi G expr nähtiin edellä moniselitteiseksi: E E + E E E (E) Itse kieli L expr = L(G expr) ei kuitenkn ole luonnostn moniselitteinen, kosk sillä on myös yksiselitteinen kielioppi G expr. Aritmeettisen lusekkeen jäsennyspuun vull voidn helposti lske lusekkeen rvo, kun muuttujien rvot tunnetn. Yleisemmin, kääntäjä voi jäsennyspuun vull generoid koodi lusekkeen evluoimiseksi. Tätä sovellust silmällä pitäen edellisen esimerkin yksiselitteinen kielioppi G expr noudtt koulust tuttu presedenssisääntöä, jonk mukn kertolskut lsketn ennen yhteenlskuj. 116

119 ei ole tätä ominisuutt, vn sille kelpisi kumpi thns ls- Kieliopill G expr kujärjestys. Kärjistäen: jos kielioppi ti kieli on moniselitteinen, niin on myös sen merkityskin. Siksi yksiselitteisyys on hyve! Jäsennyspuun hyödyntämiseksi pitää tietysti ensinnä ost muodost nnetulle merkkijonolle jäsennyspuu (eli yhtäpitävästi johto) nnetuss kieliopiss, ti todet, että merkkijono ei kuulu kieleen. Plmme tähän pin... Esimerkki 46. Kieli { i j c k : i = j ti j = k} on luonnostn moniselitteinen. Kieliopin moniselitteisyys on lskennllisesti rtkemton ongelm. Eli sen näyttäminen edellyttää mtemttist todistust. Kieliopin moniselitteisyyden osoittminen on helppo: Riittää keksiä yksikin merkkijono, joll on useit erilisi jäsennyspuit. Kielen osoittminen luonnostn moniselitteiseksi ts on hnkl: Onhn osoitettv, ettei kielellä voi oll yhtään yksiselitteistä kielioppi. Huom: Luonnostn moniselitteiset kielet voidn tunnist vin epädeterministisillä pinoutomteill. Huom: Lisäksi on olemss myös yksiselitteisiä kieliä, jotk vtivt epädeterministisen pinoutomtin. Esimerkki 47. Kielelle L = {ww R : w {, } } voidn nt yksiselitteinen kielioppi S S S ε mutt sitä ei void tunnist deterministisellä utomtill. (Ongelm: utomtin täytyy rvt, milloin on tultu merkkijonon keskikohtn.) Esimerkki 48. Kieli L = { n m : 0 m n 2m} on yksiselitteinen, mutt epädeterministinen. Yksinkertisin kielen tuottv kielioppi on S S S ε jok on kuitenkin moniselitteinen. Smn kielen voi kuitenkin kuvt yksiselitteisellä kieliopill: S S A ε A A Kielelle voidn lti kuvn 23 epädeterministinen pinoutomtti, mutt determinististä utomtti ei pystytä ltimn. Esimerkki 49. Trkstelln seurv sääntöä if else-luseiden jäsentämiseksi: S if B then S else S if B then S i = N Tässä B voi oll mikä thns ehtoluseke, i mikä thns muuttujnnimi j N mikä thns kokonislukuvkio. Kun sillä jäsennetään merkkijono 117

120 , ε / A 1, ε / A, ε / A, ε / ε 2, ε / A, ε / ε,a/ ε 4 3 5,A/ ε,a/ ε,a/ ε 6 Kuv 23: Esimerkin epädeterministinen pinoutomtti. 118

121 if x == 1 then if y == 1 then z = 0 else z = 1 niin vstuksen sdn kksi erilist jäsennyspuut Miten käy, jos muuttujt vstvt esimerkiksi seurvi signlej: x = plohälytin soi, y = koehälytys, z = hälytä plokunt? S if B then S x==1 if B then S else S y==1 z=0 z=1 S if B then S else S x==1 if B then S z=1 y==1 z=0 Tätä esimerkkiä 49 kutsutn roikkuvn else-hrn ongelmksi (englnniksi the dngling else prolem : Kumpn if-ehdoist tämä yksinäinen else-hr pitäisi liittää? Ohjelmointikielen syntksimäärittelyt rtkisevt tämän lusumll else-hr liittyy in lähimpään selliseen edeltävään if-ehtoon joll ei vielä ole om else-hr. Ohjelmointikielen kieliopin (eli syntksin) tulee oll yksiselitteinen, jott sillä kirjoitettu ohjelm voidn kääntää yksiselitteisesti toimivksi ohjelmksi. Siksi niissä käytetään formlej esitystpoj j tällisi lusumi. Sm olisi toivottv myös ohjelmointikielen merkitysopille (eli semntiiklle), eli siinäkään ei sisi oll sioit joiden käyttäytymistä ei ole määritelty. Myös merkitysopiss voidn käyttää formlej esitystpoj, mutt vlitettvsti läheskään kikille ohjelmointikielille niin ei tehdä. Kärjistäen: Ohjelmointikielen määrittelyn pitäisi poist eikä lisätä ohjelmoijn epätietoisuutt siitä, mitä hänen kirjoittmns ohjelm trkoitt! 119

122 Ohjelmointikielen kääntämisestä Ohjelmointikielen kääntäjän viheet peritteellisell tsoll (kuv 24): 1. Selminen (scnning, lexicl nlysis): jk syötteen tekstilkioiksi (token) kuten muuttujnimiin, liukulukuvkioihin, vrttuihin snoihin,... jott jäsennyksen ei enää trvitse edetä yksi ASCII-merkki kerrlln Tekniikk pohjutuu tekstilkioden tunnistmiseen äärellisillä utomteill. UNIX-työklu lex jonk GNU-versio on flex. 2. Jäsentäminen (prsing): Muodost seluksen tuottmlle tekstilkiojonolle jäsennyspuun jok perustuu ohjelmointikielen määrittelyn osn suunniteltuun kontekstittomn kielioppiin. Tässä on ohjelmointikielen kieliopin yksikäsitteisyysvtimus: jäsennyspuit tehdään vin yksi! UNIX-työklu ycc jonk GNU-versio on ison on ns. kääntäjäkääntäjä (englnniksi compiler compiler ): Se lukee sisäänsä kieliopin kuvuksen j generoi siitä jäsennystä tekeven liohjelmn, jok ohjelmoij voi liittää osksi sitä kääntäjää, jot hän on nyt toteuttnss. Selus j jäsennys ovt ne viheet, joist kääntäjää käyttävä sovellusohjelmoij s ne virheilmoitukset, jotk lkvt "Syntx error...". 3. Semnttinen nlyysi: tyypitys jne. Esimerkiksi kielioppi ilmisee vin, että se os ohjelmkoodi, joss muuttujt esitellään, edeltää sitä os, joss niitä käytetään. Esittelyos jäsentäessään kääntäjä kerää esitellyt muuttujt j niiden tyypit symolituluun. Kun se myöhemmin koht jonkin muuttujn kuten i käytön, niin se kysyy tästä tulust mikä sen tyypiksi on määritelty. Jos muuttuj ei ole tuluss, niin tulee virheilmoitus "Error: undefined vrile...". Tyyppi on yksi muuttujn ttriuuteist eli ominisuuksist. Semnttisen nlyysin voi jtell koristelevn jäsennyksen tuottmn jäsennyspuun tällisill ttriuuteill j niiden rvoill. Esimerkiksi while-silmukn testin tyyppittriuutiksi pitää tull totuusrvo, muuten tulee semnttinen virhe kuten "Error: type mismtch...". Kielioppi, johon on yhdistetty ttriuuttien määrittelyt j niiden lskusäännöt, kutsutn ttriuuttikieliopiksi (englnniksi ttriute grmmr ). Itse siss ycc-työklu lukeekin sisään tällisen ttriuuttikieliopin j tuott siitä sellisen jäsennysliohjelmn, jok smll lskee nämä ttriuuttirvot. 4. Koodin tuottminen j optimointi. Suoritetn käymällä läpi tätä jäsennyspuut, jok on koristeltu kikill eri koodin tuottmiseen trvittvill ttriuuteill. Tässä viheess ei enää tule virheilmoituksi. 120

123 Syntx error... Aluksi lähdekoodi ASCII merkkijonon while(i>0)... Lopuksi konekoodin 00 FF 1A 8C 17 1F 05 5E AA C0 7F selj (scnner) koodin generointi tyyppi: kokonisluku jonon pidempiä yksiköitä while i vrttu sn: muuttujn nimi: operttori: kokonislukuvkio:... komento while komento while luseke > i 0 > 0 täydennettynä jäsennyspuun komento tyyppi: totuusrvo jäsentäjä (prser) ttriuuttien lskent jäsennyspuun komento while komento while luseke > i 0 komento Error: undefined vrile... Error: type mismtch Kuv 24: Ohjelmointikielen kääntäjän vihejko. Aho et l. (2007) kertovt syvällisesti näistä ohjelmointikielen kääntämisen eri viheist. Levine et l. (1992) kertovt näistä kääntäjien j muiden senkltisten ohjelmien toteuttmist merkittävästi helpottvist työkluist lex j ycc. Käytännössä jäsennys j muut viheet limittyvät jllisesti: Esimerkiksi jäsentäjä pyytää seljlt nn minulle seurv tekstilkio. Vstvsti jäsentäjäkään ei yleensä tuot koko jäsennyspuut kerrll muistiin, vn inostn sen osn, jot semnttinen nlyysi tällä hetkellä trvitsee. Ohjelmointikielen jäsentämiseen on useit tekniikoit. Lähtökohtn on tyypillisesti ohjelmointikielen määrittelyssä eli spesifiktioss nnettu kontekstiton kielioppi. Tehokkt jäsennysmenetelmät edellyttävät, että kielioppi on jossin rjoitetuss muodoss. Näistä tärkeimmät ovt LL(k) j LR(k). Ohjelmointikelten syntktinen käsittely (eli viheet 1 j 2) on hllittu jo pitkään, j siihen on ljlti levinneitä puvälineitä kuten lex j ycc. Ohjelmointikielten kehitys j tutkimus pinottuukin nykyään erityisesti niiden tyyppijärjestelmiin (eli viheeseen 3). Esimerkiksi funktionlisten j olio-ohjelmointikielten tyyppijärjestelmät voivt oll hyvinkin monipuolisi j -mutkisi... Tuotetun konekoodin optimointi (viheess 4) ts on kiinnostv erityisesti mikroprosessoreiden j tietokonelitteistojen vlmistjille. Esimerkiksi nykyikinen mikroprosessori sisältää useit ytimiä jotk voivt lske rinnkkin jos vin käännetty ohjelmkoodi os hyödyntää tätä mhdollisuutt

124 5.5 Cocke-Younger-Ksmi-lgoritmi Mille thns kontekstittomll kieliopill G kysymys päteekö w L(G)? voidn rtkist jss O( w 3 ) Cocken, Youngerin j Ksmin kehittämällä j heidän mukns nimetyllä CYK-lgoritmill. CYK-lgoritmi olett, että kielioppi G on Chomskyn normlimuodoss. Mikä thns kontekstiton kielioppi voidn muutt tähän muotoon... Edellä ei siis ole lskettu mukn tähän muunnokseen kuluv ik sehän tehdään vin kerrn kieliopille G, j sen jälkeen CYK-lgoritmi voidn käyttää monille eri w Σ. CYK-lgoritmi ei kuitenkn käytetä ohjelmointikielille, kosk niiden kieliopit G voidn suunnitell kieltä määriteltäessä siten, että on nopempikin, jop linerisi eli O( w ) menetelmiä. Chomskyn normlimuoto Kielioppej lgoritmisesti käsiteltäessä on hyvä, jos ne ovt rkenteeltn siistejä. Trkstelln kielioppi S AB A B CC C DD D EE E F F F ε Kieliopin tuottm kieli on yksinkertisesti {}. Johdot ovt kuitenkin hyvin pitkiä, mikä on erilisten lgoritmien knnlt ongelmllist. Esitämme seurvksi, miten yhteydettämälle kieliopille voidn löytää Chomskyn normlimuoto (englnniksi Chomsky Norml Form eli CNF). (Huom: Logiikss lyhenne CNF trkoittkin puolestn loogisen kvn konjunktiivist (englnniksi Conjunctive) normlimuoto.) Chomskyn normlimuoto trjo hyviä esimerkkejä yhteydettömien kielioppien yksinkertistmisess käytettävistä päättelyistä j lgoritmeist. Määritelmä 13. Kontekstiton kielioppi G = (V, Σ, P, S) on Chomskyn normlimuodoss, jos: Välikkeistä enintään lähtösymoli S on tyhjentyvä (nullle), eli sellinen jok voi tuott tyhjän merkkijonon, eli S ε. G Muut produktiot ovt muoto A BC ti A, joiss A, B j C ovt välikkeitä j on päätemerkki. Lisäksi vditn yksinkertisuuden vuoksi, että lähtösymoli S ei esiinny minkään produktion oikell puolell. 122

125 Esimerkki 50. Kielioppi S AB ε A BA B on Chomskyn normlimuodoss. Normlimuodost seur erityisesti, että jos S w j w ε, niin johdon pituus on tsn 2 w 1 skelt. Tyhjän merkkijonon ino johto ts on S ε j sen pituus on 1 skel. Muunnos Chomskyn normlimuotoon Mikä thns kontekstiton kielioppi voidn muunt Chomskyn normlimuotoon seurvll menetelmällä: 1. Poistetn lähtösymoli S produktioiden oikelt puolelt. 2. Poistetn muut ε-produktiot, eli ne säännöt muoto A ε joiss A S. 3. Poistetn yksikköproduktiot, eli säännöt muoto A B. 4. Pilkotn lyhyemmiksi liin pitkät produktiot, eli ne säännöt muoto A X 1 X 2 X 3... X k joiss on k > 2 symoli oikell puolell. Produktioiden oikell puolell olevien lähtösymolien poistminen Luse 13. Mikä thns kontekstiton kieli voidn tuott kontekstittomll kieliopill joss lähtösymoli ei esiinny minkään säännön oikell puolell. Todistus: Olkoon nnettu kontekstiton kielioppi G = (V, Σ, P, S). Muodostetn siitä uusi kielioppi G = (V, Σ, P, S ) seurvsti: Olkoon nyt V = V {S } joss S ole vielä käytetty kieliopiss G. / V, eli vlitn jokin uusi symoli S jot ei Sääntöjoukko P sdn lisäämällä sääntöjoukkoon P uusi sääntö S S tälle uudelle symolille S. Jos ε L(G), niin lisätään myös sääntö S ε. Tälle uudelle lähtösymolille S ei tule muit sääntöjä, joten se ei esiinny minkään säännön oikell puolell. Tyhjentyvien välikkeiden käsittely Kieliopin G välike A on tyhjentyvä (ti nollutuv ), jos siitä voi tuott tyhjän merkkijonon, eli jos A ε. G Kksi kielioppi G j G ovt ekvivlentit jos ne tuottvt smn kielen, eli jos L(G) = L(G ). Luse 14. Mistä thns kontekstittomst kieliopist G voidn muodost ekvivlentti kielioppi G, joss enintään lähtösymoli on tyhjentyvä. 123

126 Todistus: Kielioppi G rkennetn 3 viheess. 1. Ensiksi lsketn kikkien tyhjentyvien välikkeiden joukko. Tämä tehdään lukemll jokinen kielioppisääntö A X 1 X 2 X 3... X k päättelysääntönä jos kikki sen oiken puolen symolit X 1, X 2, X 3,..., X k nollutuvt niin myös sen vsemmn puolen välike A on nollutuv j lskemll mitkä kikki välikkeet voidn näin päätellä nollutuviksi. Erityisesti sääntö A ε tekee vsemmst puolestn A heti nollutuvn, kosk nythän k = 0. Jos ts yksikin oiken puolen symoli X i on päätemerkki, niin tämä sääntö ei mitenkään tehdä vsemmst puolestn nollutuv. Oikell tietorkennevlinnll tämä vihe vie oleellisesti vin linerisen jn kieliopin G kokoon nähden. 1 nollutuvt 2 while kieliopiss G on sääntö A X 1 X 2 X 3... X k jonk vsen puoli A nollutuvt vikk jokinen sen oiken puolen symoli X 1, X 2, X 3,..., X k nollutuvt 3 do nollutuvt nollutuvt {A} 2. Nyt nollutuvt välikkeet tiedetään, joten niiden esiintymät voidn poist. Kun sääntö on muoto A αbβ joss B nollutuvt, niin lisätään myös sääntö A αβ joss tämä B on nollttu. Toistetn tätä sekä kieliopin G lkuperäisiin että näin syntyviin uusiin sääntöihin, kunnes uusi sääntöjä ei enää synny. Lopputuloksen säännöstä A X 1 X 2 X 3... X k syntyy kikki säännöt A α joss α on mikä thns seurvn äärellisen kielen merkkijono: (X 1 1 )(X 2 2 )(X 3 3 )... (X k k ) joss jokinen i = { {ε} jos X i nollutuvt jos X i nollutuvt = onko X i nollutuv viko ei? Vlitettvsti kieliopin koko räjähtää eksponentilisesti kosk yhdestä tällisest säännöstä syntyy yhteensä uutt sääntöä. 2 ( k ) 1 124

127 3. Lopuksi voidn poist kikki säännöt muoto A ε kosk niiden vikutukset on lisätty uusin sääntöinä edellisessä viheess 2. Jos poistettvn on myös sääntö S ε nykyiselle lähtösymolille S, niin silloin lisätäänkin uusi lähtösymoli S j sille säännöt S ε S. Esimerkki 51. Poistetn ε-produktiot kieliopist: Nyt nollutuvt = {B}. Siis S BSB A A A B B ε. S BSB tuott säännöt S S SB BS BSB B B tuott säännöt B B. Lisätään vielä uusi lkusymoli S, j otetn mukn kikki vnht säännöt lukuunottmtt ε-sääntöjä. Kieliopiksi tulee S S A A S S SB BS BSB A B B. Esimerkki 52. Poistetn ε-produktiot seurvst kieliopist: S A B A B ε (nollutuvt = {A, B, S}) B A ε S A B ε A B ε B A ε S S ε S A B A B B A Yksikköproduktioiden poistminen Produktio muoto A B, joss A j B ovt välikkeitä, on yksikköproduktio (unit production). Luse 15. Mistä thns kontekstittomst kieliopist G voidn muodost ekvivlentti kielioppi G, joss ei ole yksikköproduktioit. Todistus: Olkoon kielioppi ts G = (V, Σ, P, S) j sen välikkeet siis N = V \Σ. Tehdään siitä kielioppi G 2 viheess. 125

128 1. Ensiksi selvitetään jokiselle välikkeelle A N ne välikkeet jotk voidn tuott välikkeestä A pelkillä yksikköproduktioill. Ajtelln sellist suunnttu verkko H, jonk solmuin ovt kikki välikkeet A N j krin kikki yksikköproduktiot A B. TRA II -kurssill käsitellään miten lsketn tämän verkon H trnsitiivinen sulkeum H joss on kri A 0 A n täsmälleen silloin kun verkoss H on polku A 0 A 1 A 2 A n (13) jollkin n 0. Erityisesti verkoss H on jokisest solmust A kri A A tkisin itseensä polku, jonk pituus on n = 0 krt. Tämä H voidn lske jss O((sen solmujen lukumäärä) 3 ). 2. Sitten oikistn yksikköproduktiopolut kuten (13): Silloin kun verkoss H on kri A i A j j kieliopiss G on produktio A j α jok ei ole yksikköproduktio, niin lisää sääntö A i α oikisemn polku A i A i+1 A i+2 A j α. Näiden oikisujen jälkeen yksikköproduktiot eivät enää ole trpeen, joten ne voidn jättää pois. Esimerkki 53. Jtketn iemmn esimerkin 51 lopputuloksest. S S A A S S SB BS BSB A B B. Nyt verkko H koostuu krist S S, S A j S A (itseensä plvien krten X X lisäksi). Siis muuttujlle S tulee omien lkuperäisten lisäksi kikki muuttujien S j A muut kuin yksikköproduktiot, j myös S smoin: S SB BS BSB A. S SB BS BSB A. Ottmll vielä kikki vnht muut kuin yksikkösäännöt sdn tuloskielioppi: S SB BS BSB A A A S SB BS BSB A B B. Esimerkki 54. Poistetn yksikköproduktiot edellä esimerkissä 52 sdust kieliopist S S ε A B S A B B A. Verkko H on 126

129 solmust S S A B pääsee solmuihin S, A j B sekä S itse A j B sekä S itse vin A itse vin B itse Korvmll yksikköproduktiot edellä esitetyllä tvll sdn tuloskielioppi S B A ε A B S B A B A. Liin pitkien produktioiden lyhentäminen Chomskyn normlimuodoss säännön oike puoli s oll pituutt k =... A X 1 X 2 X 3... X k 2 mutt silloin sen kummnkin symolin pitää oll välikkeitä, eli X 1, X 2 N. 1 mutt silloin sen inon symolin pitää oll päätesymoli X 1 Σ. Edellä luseess 15 huolehdittiin, ettei tämän inon symolin X 1 trvitse oll välike. 0 mutt silloin koko säännön pitää oll S ε joss S on koko kieliopin lkusymoli. Tästä on jo huolehdittu edellä luseess 14. Jos sääntö on liin pitkä eli k > 2 niin sitä voidn lyhentää yhdellä symolill seurvsti: 1. Olkoon U jokin kokonn uusi välikesymoli jot ei ole ikisemmin käytetty koko tässä kieliopiss. 2. Korvtn tämä liin pitkä sääntö sääntöprill A X 1 X 2 X 3... X k 2 U U X k 1 X k. Tätä toistmll voidn ylipitkät säännöt lyhentää vdittuun pituuteen k = 2. Lopuksi voidn jokiselle päätemerkille Σ lisätä om uusi välike C j sille sääntö C. Sen jälkeen päätemerkin esiintymät muiden sääntöjen oikell puolell voidn korvt tällä uudell välikkeellä C. Siis esimerkiksi sääntö A B muuntuu muotoon A C B jne. Olemme vihdoin päässeet Chomskyn normlimuotoon! Esimerkki 55. Jtketn edelleen iemp esimerkkiä 53: S SB BS BSB A A A S SB BS BSB A B B. 127

130 Kielioppi tulee muotoon S SB BS BA 1 C A C C A 1 SB A C A C C B C C B C C. S SB BS BA 2 C A C C A 2 SB Tätä voisi vielä yksinkertist (kosk uudet välikkeet A 1 j A 2 ovt smt). Muistetn vielä että lunperin lähdettiin liikkeelle selvästi pienemmästä kieliopist: S BSB A A A B B ε. Tehtävä 44. Muunn Chomskyn normlimuotoon kielioppi S BCd B C c Tehtävä 45. Olkoon nnettu kielioppi: S ASB B C cc ε A CAC B c A Muunn kielioppi Chomskyn normlimuotoon: 1. Poist lähtösymoli sääntöjen oikelt puolelt; 2. Poist ε-säännöt; 3. Poist tuloksest yksikkösäännöt; 4. Poist tuloksest ylipitkät säännöt. Rtkisu: S AX 1 C X 2 CX 3 C X 4 CX 5 C A S AX 1 C X 2 CX 3 C X 4 CX 5 C A C C c C c A CX 3 C X 4 CX 5 C A B C X 2 CX 3 C X 4 CX 5 C A X 1 SB X 2 C C c X 3 C X 4 X 4 AC X 5 C A C C C c c Huom: Välikkeet olisi voinut nimetä toisinkin. Rtkisuss on myös yhdistetty joitkin välikkeitä, joiden säännöt olivt smoj.) 128

131 Edellä kuvttu muunnos Chomskyn normlimuotoon voi tuott tuloksenn phimmilln eksponentilisesti suuremmn kieliopin kuin lkuperäinen oli. Tämä ongelm voidn kuitenkin korjt siten, että pilkotnkin liin pitkät produktiot jo ennen kuin poistetn ε-produktiot. Siis tehdäänkin vihe 4 ennen vihett 2. Silloin tuloskielioppi on enää polynomisen verrn suurempi kuin lkuperäinen, j se voidn myös tuottkin polynomisess jss. Sivuutetn kuitenkin muunnokseen trvittvt muutokset. CYK-lgoritmi Annettuin: Kontekstiton kielioppi G, merkkijono w. Kysymys: Päteekö w L(G) viko ei?. Yksinkertistettu kysymys: Jos G muunnetn ensin Chomskyn normlimuotoon G, niin miten silloin vstuksen voisi lske? Yksinkertistettu vstus: Jos w = ε niin vst onko kieliopiss G sääntöä S ε viko ei. Jos ts w ε niin ryhdy käymään läpi kikki kieliopin G niitä johtoj, joiden pituus (eli skelten lukumäärä) on 2 w 1. Vst onko w jonkin niistä tuotos viko ei. Chomskyn normlimuodoss jäsennyspuut ovt itoj inääripuit, eli jokisell sisäsolmull on 2 lst. Aidoss w -lehtisessä inääripuuss ts on w 1 sisäsolmu. Tästä stiin tuo 2 w 1. Ongelm: Näitä johtoj voi oll pituuteen w verrttun eksponentilisen pljon joten inkn tämä menetelmä ei ole käytännöllinen. Rtkisu: Lähdetään kehittämään jotkin tehokkmp... Hjoit j hllitse Hjoit j hllitse (englnniksi divide nd conquer ) on eräs yleinen lgoritminsuunnittelumenetelmä. Pienen syötteen vstus on yleensä helppo lske. Suuri syöte käsitellään seurvsti: 1. Jetn se jotenkin pienempiin syötteisiin. 2. Lsketn niiden vstukset rekursiivisesti tällä smll lgoritmill. 3. Yhdistetään nämä pienten syötteiden vstukset jotenkin vstukseksi suurelle syötteelle. ASA-kurssi kertoo lisää tällisist yleisistä lgoritmisten ongelmien rtkisuperitteist. Nyt ongelmmme on yleisesti 129

132 Pääohjelm: 1 if w = ε 2 then return onko kieliopiss sääntöä S ε viko ei sen lkusymolille S 3 else return Johto(S, w) Johto(A, x): 1 if x = 1 2 then return onko kieliopiss sääntöä A x viko ei 3 else for ech kieliopin sääntö A BC 4 do for ech ktkisukoht 1 l < x 5 do y x:n l ensimmäistä merkkiä 6 z x:n loput merkit 7 if Johto(B, y) nd Johto(C, z) 8 then return true 9 return flse Kuv 25: Hjoit j hllitse -jäsennyslgoritmi. nnettun välike A j päätemerkkijono x Σ + vst voiko tästä välikkeestä A generoid tämän merkkijonon x viko ei? Erityisesti meitä kiinnost lopputulos joss A = S j x = w. Jos A x joss x > 1 niin voimme erott siinä johdoss ensimmäisen j loput skeleet, eli A BC x. Edelleen, tämän merkkijonon x täytyy jkutu lkuosn y j loppuosn z joill B y C z. Nämä ost eivät ole tyhjiä, kosk kyseessä on Chomskyn normlimuoto. Siten tässä ovt ne pienemmät kysymyksemme nämä y j z ovt idosti lyhyempiä kuin x. Jos ts x = 1, niin silloin vstus voidn ktso suorn kieliopist, kosk se on Chomskyn normlimuodoss. Näin sdn rekursiivinen jäsennyslgoritmi kuvss 25. Tämäkin lgoritmi toimii, mutt sekin on yhä eksponentilinen. Syynä on tällä kert se, että se lskee smoj välituloksi yhä uudelleen j uudelleen: 130

133 Jos kielioppi on esimerkiksi S AB CA... A CB.... niin silloin kutsu Johto(S, cde) tuott testit Johto(A, c) nd Johto(B, de) Johto(C, ) nd Johto(A, cde) Johto(C, c) nd Johto(B, de). j jost vuorostn Dynminen ohjelmointi Tätä rekursiivist lgoritmi voi siis tehost tulukoimll nämä välitulokset jott niitä ei trvitse lske yhä uudelleen j uudelleen. Tätä tp tehost hjoit j hllitse -lgoritmej kutsutn puolestn dynmiseksi ohjelmoinniksi (englnniksi dynmic progrmming ). Olkoon syötemerkkijono w lueteltun merkki kerrlln w 1 w 2 w 3... w n. Muodostetn nyt 2-ulotteinen tulukko siten, että R i,j = {A N : A w i w i+1 w i+2... w j } eli tulukkopikn R i,j sisältönä ovt täsmälleen ne välikkeet A N, joist voi tuott sen osn syötemerkkijono w, jok lk sen i. merkistä j päättyy sen j. merkkiin. Eli ne A joill kutsu Johto(A, w i w i+1 w i+2... w j ) = true. Tämä tulukko R on itse siss kolmiomtriisi: w 1 w 2 w 3 w 4 w 5 R 1,1 R 1,2 R 2,2 R 1,3 R 2,3 R 3,3 R 1,4 R 2,4 R 3,4 R 4,4 R 1,5 R 2,5 R 3,5 R 4,5 R 5,5 Tulukon R srkkeet vstvt osien lkukohti syötemerkkijonoss w. Tulukon R jokinen digonli vst tietyn mittisi osi: digonli R 1,1, R 2,2, R 3,3,... vst 1-merkkisiä digonli R 1,2, R 2,3, R 3,4,... vst 2-merkkisiä digonli R 1,3, R 2,4, R 3,5,... vst 3-merkkisiä,... digonli R 1,1+d, R 2,2+d, R 3,3+d,... d + 1-merkkisiä,

134 Ensin tulukoidn tulokset kikille 1-merkkisille osille: 1 for i 1, 2, 3,..., n 2 do R i,i {A: A w i P } 3 for k 1, 2, 3,..., n 1 do Aiemmin on tulukoitu tulokset kikille k-merkkisille osille, joten nyt tulukoidn tulokset kikille k + 1-merkkisille: 4 for i 1, 2, 3,..., n k 5 do j i + k 6 R i,j 7 for l i, i + 1, i + 2,..., j 1 do Kun lkuos x = w i w i+1 w i+2... w l j loppuos y = w l+1 w l+2 w l+3... w j : 8 R i,j R i,j {A: A BC P, B R i,l, C R l+1,j } 9 return onko lähtösymoli S R 1,n viko ei. Kootut selitykset Esim. pikkn R i,j tulee selliset välikkeet A, joill A w i w i+1... w j. Tämän johdon täytyy lk skeleell A BC, missä välikkeestä B: voidn joht osn w i... w j jokin lkuos, esim. B w i w i+1... w l, j välikkeestä C voidn joht tämän osn loppuos C w l+1 w l+2... w j. Nyt B löytyy vlmiin tulukon pikst R i,l j C pikst R l+1,j, jos ne ylipäänsä ovt olemss. Mhdollisi tulukon pikkoj on kuitenkin useit, sillä kikki yli khden pituiset merkkijonot voidn jk usell tp khteen osn. Siis l voidn vlit monell tp (l = i... j 1). Esimerkiksi lskettess R 3,7 trkstelln kikki prej (R 3,3, R 4,7 ), (R 3,4, R 5,7 ), (R 3,5, R 6,7 ), (R 3,6, R 7,7 ) : Siten w 3... w 7 sdn (jos sdn) jkmll se khteen osn, kuten w 3... w 4 j w 5... w 7, j tutkimll sdnko ensimmäinen os jostin symolist B R 3,4 j jälkimmäinen os jostin symolist C R 5,7, j onko kieliopiss sääntöä A BC; jos on, niin lisätään A pikkn R 3,7. Algoritmi täyttää tulukkons O(n 3 ) skeleess kun emme lske mukn kieliopin normlisointiin j käsittelyyn kuluv ik. Olemme siis sneet lun perin eksponentilisest j siten epäkäytännöllisestä lgoritmist polynomisen j siten käytännöllisen. Esimerkki 56. Sovelletn CYK-lgoritmi Chomskyn normlimuotoiseen kielioppiin G: S AB BC A BA B CC C AB 132

135 Onko w = L(G)? Nyt S R 1,5, joten w L(G). i 1 : 2 : 3 : 4 : 5 : B S, A A, C B A, C B S, C B S, A, C S, A, C B S, A A, C Apukeino CYK-lgoritmin simuloimiseen 1. kierros 2. kierros ei mittnuhoj 2:n pituinen mittnuh: 3. kierros :n pituiset mittnuht: 4. kierros :n pituiset mittnuht: 5. kierros :n pituiset mittnuht: Esimerkki 57. Sovelletn CYK-lgoritmi Chomskyn normlimuotoiseen kielioppiin G: Onko L(G)? S AB BC A BA B CC C AB i 1 : 2 : 3 : 4 : 5 : 6 : A, C S, C B B A, S A, C B S S, C B A, S B A, S A, C S, C B S, C S, C B 133

136 Siis L(G). Johto j jäsennyspuu tulukost Jos merkkijono w kuuluu kieleen, niin vstv johto j jäsennyspuu voidn luke tulukost, jos siihen liitetään sopivt lisätiedot. Trkstelln esimerkkinä kielioppi G: Onko w = L(G)? S AB BC A BA B CC C AB Iden on liittää jokiseen tulukoss olevn välikkeeseen se sääntö j ne tulukkopikt joiden tuloksen se lisättiin tulukkoon. Esimerkiksi S R 1,n lisätään säännön S BC sekä tulukkopikkojen B R 1,1 j C R 2,5 tuloksen. Toisin snoen, säännöstä otetn kopio koristeltuin tulukkoindeksein: S 1,5 B 1,1 C 2,5. Näistä lisämerkinnöistä voidn jäljittää vstv johto: S BC C AB B CC ABC BC C. Myös jäsennyspuun voi jäljittää näistä merkinnöistä. Puu ilmntuu selvemmin näkymiin kääntämällä tulukko: 134

137 S B A C B A C B C Jos kielioppi on moniselitteinen, niin jäsennyspuit voi oll useit. Sovelluksest riippuen tulukkoon voidn joko kerätä ne kikki ti säilyttää vin jokin niistä. Tässä esimerkissä on toinenkin johto: S AB BAB AB B CC ABC BC C Tehtävä 46. Trkstelln kielioppi: S AB BC A BA B CC C AB 135

138 Kuuluuko merkkijono w = kieleen? Jos, niin mikä on vstv johto? Tehtävä 47. Trkstelln kielioppi: S AC AD A B C AC D BD Kuuluvtko merkkijonot, j kieliopin tuottmn kieleen? 5.6 Tehokkmmt jäsennysmenetelmät Hopcroft et l. (2001) eivät käsittele tätä ihepiiriä. Sitä käsittelevät esimerkiksi Aho et l. (2007, luvut ) j Sudkmp (1997, os VI). Pltn hetkeksi rekursiiviseen hjoit j hllitse -jäsennyslgoritmiimme kuvss 25 jot tehostimme dynmisen ohjelmoinnin tulukoinnill. Kysymys: Voisiko sitä tehost tulukoinnin sijst jotenkin muuten, jos kielioppi olisikin sopivsti rjoitettu? Erityisesti: Voimmeko jotenkin vlit suorn jonkin jon x = yz jok joht vstukseen true jos sellinen jko on olemss? Vstus: Kyllä voimme, kunhn kielioppi on siis sopiv. Huom: Tämän sopivn kieliopin ei trvitse enää oll Chomskyn normlimuodoss. Esimerkki 58. Oikelle linerisess kieliopiss riittää in seurvn merkin trkstelu, eli jkokoht l = 1, kosk kieli on säännöllinen LL(1)-kielioppi Ljennetn edellisen esimerkin 58 intuitiot, j trkstelln sellisi kielioppej, joiss seurv sovellettv sääntö on in yksikäsitteisesti määrätty, kun nykyinen välike j seurv syötemerkki tunnetn. Näitä kielioppej j niillä jäsentyviä kieliä kutsutn LL(1)-kieliopeiksi j -kieliksi: Left to right scn, producing Left prse with 1 symol lookhed. Siis ne lukevt syötemerkkijonon vsemmlt oikelle eli kirjoitusjärjestyksessä. Tämä on tärkeää esimerkiksi ohjelmointikielten kääntäjissä: lähdekooditiedosto luetn yhden kerrn lust loppuun. (Esimerkiksi CYK ei toiminut niin.) Ne tuottvt in vsemmnpuoleisimmn johdon. Ne käyttävät 1 kurkistussymoli eli ktsovt vin seurv syötemerkkiä. Yleisemmin voi määritellä LL(k)-kieliopit j -kielet, joiss ktsotn k > 0 syötemerkkiä eteenpäin, eli ylläpidetään k merkin syötepuskuri. 136

139 LL(1)-kieliopeille voidn lti yksinkertinen rekursiivinen jäsennin. Siksi niitä suositn, kun jäsennin pitää kirjoitt käsin. LL(1) riittää useimmille ohjelmointikielissä esiintyville rkenteille. Tämä jäsennin on tehoks: se toimii linerisess jss O( w ) syötemerkkijono w pituuden suhteen. LL(1)-kielet ovt determinististen kielten osjoukko, joten voitisiin käyttää rekursion sijst myös determinististä pinoutomtti. LL(1)-kielioppeihin kuuluvt siis inkin selliset kieliopit, joiss jokisen välikkeen A säännöt ovt muoto A 1 α 1 2 α 2 3 α 3... k α k joss jokinen hr i lk eri päätemerkillä i Σ (siis i j in kun i j) kosk oike hr on se, jonk päätemerkki on seurvn syötteessä. Esimerkki 59. Trkstelln seurv kielioppi G: E T + E T E T T (E) Välike T on OK: seurv syötemerkki rtkisee, kump sen säännöistä pitää käyttää. Mutt välike E ei, joten tekijöidään se: E T E E +E E ε T (E) Esimerkiksi luseen ( + ) vsen johto voidn nyt muodost seurvn syötemerkin ohjmn: E T E E E T E (E)E (T E )E (E )E ( + E)E LL(1)-kielioppien yleinen muoto ( + T E )E ( + E )E ( + )E ( + ). LL(1)-kielioppien yleisessä muodoss sllitn myös produktioit, joiden oiket puolet lkvtkin välikkeellä eikä päätemerkillä, sekä tyhjentyviä elli nollutuvi välikkeitä A, joill siis A ε mutt kumpikin näistä vin rjoitetusti. Esimerkiksi kielen c d tuottv kielioppi: S A Cd A A ε C cc ε Kielioppi on LL(1)-muoto, vikk ensimmäiseksi sovellettv produktiot ei voikn päätellä pelkästään lkusymolin S produktioiden perusteell. Kuitenkin, jos merkkijono lk merkeillä ti, niin on sovellettv sääntöä S A, jos ts merkillä c ti d, niin sääntöä S Cd. Siis sovellettv sääntö on kuin onkin yksikäsitteisesti määrätty seurvn merkin perusteell. Siis trvittisiin testi tutkimn onko kielioppi LL(1)-muoto. 137

140 Kielioppien muokkminen LL(1)-muotoon Kikki kontekstittomi kielioppej ei voi muunt LL(1)-muotoon. Joskus kieli on LL(1)-luokss, mutt sen kuvv kielioppi ei ole oikess muodoss. Tälliset melkein LL(1)-kieliopit voi muokt oiken muotoon seurvill opertioill: 1. vsen tekijöinti 2. vsemmn rekursion poisto. Vsen tekijöinti Kielioppi, joss on säännöt A αβ 1 αβ 2 joss α ε, β 1 β 2 ei voi oll LL(1)-muotoinen, kosk nämä hrt lkvt yhteisellä epätyhjällä osll α. Otetn käyttöön uusi välike A j korvtn nämä produktiot produktioill A αa A β 1 β 2, joss α on jonojen αβ 1 j αβ 2 pisin yhteinen lkuos. Toisin snoen ensin jäsennetään niiden pisin yhteinen lkuos α sitten vst tutkitn, jtkuuko syöte hrll β 1 viko β 2. Vert mtemtiikss x + y = (x + y). Esimerkki 60. Kielioppi muutetn muotoon N DN D D N DN N N ε D Välittömän vsemmn rekursion poisto Kielioppi on vsemmlle rekursiivinen, jos jollkin välikkeellä A j merkkijonoll γ on A + Aγ. Jos jtelln rekursiivist jäsentäjää, niin sen liohjelm A kiertäisi kehää lukemtt syötettään. 138

141 Vsemmlle rekursiivinen kielioppi ei voi täyttää LL(1)-ehto. Välitön vsen rekursio, siis suort johdot A Aγ, voidn välttää korvmll produktioill joss A on uusi välike. A Aα 1 Aα 2 Aα 3... Aα m }{{} poistettvt produktiot A β 1 A β 2 A β 3 A... β n A A α 1 A α 2 A α 3 A... α m A ε β 1 β 2 β 3... β n }{{} muut produktiot Esimerkki 61. Esimerkiksi kielioppi G 2 on välittömästi vsemmlle rekursiivinen: Siitä sdn kielioppi G 2: N ND D D N DN N DN ε D Smn tuottisi tosin myös kielioppi G 3 : N 0N 1N... 9N Muoto A A olevt produktiot voidn yksinkertisesti jättää pois. Alkuperäisen välikkeen A johdot ovt muoto A Aα Aαα Aααα βααα... α eli βα. Lopult on siis vlittv sääntö A β ti rekursio ei pääty ikinä. Korvtut säännöt tuottvt uuden välikkeen A vull täsmälleen smt johdokset, mutt toisell tvll: Greichin normlimuoto A βa βαa βααa βαααa βααα... α. Jokinen kontekstiton kielioppi voidn teoriss muunt vsemmn rekursion välttävään (Sheil A.) Greichin normlimuotoon. Siinä säännöt ovt muoto joss ensin tulee päätemerkki Σ A B 1 B 2 B 3... B k sitten välikkeitä B 1, B 2, B 3,..., B k N (jotk voivt myös puuttu, eli k 0). Erikoistpuksen lähtösymolille sllitn myös S ε jos ε kuuluu kieleen. Näin pitkälle ei kielioppi kuitenkn trvitse muunt, jos tvoitteen on vin lti sille rekursiivisesti etenevä LL(1)-jäsennysohjelm. 139

142 Yleinen vsemmn rekursion poisto Oletetn, että kieliopissmme G ei ole ε-sääntöjä A ε eikä myöskään kehiä A B C A. Jos on, niin niistä pääsee eroon luvuss 5.5 Chomskyn normlimuodon yhteydessä kuvtuill menetelmillä. Silloin kikest vsemmst rekursiost pääsee eroon seurvsti: 1 Merkitse luksi kikki välikkeet käsittelemättömiksi; 2 while on yhä käsittelemättömiä välikkeitä 3 do A jokin sellinen; 4 while on sääntö A Bγ joss välike B on jo käsitelty 5 do Korv se kikill säännöillä A δγ joill kieliopiss on sääntö B δ 6 Poist välikkeestä A välitön vsen rekursio; 7 Merkitse A käsitellyksi; Yleinen LL(1)-ehto Esitetään nyt yleinen LL(1)-ehto. Siinä käytetään seurvi kht pukäsitettä: first(α) = kikki ne päätemerkit Σ joill on johto muoto α.... Siis ne päätemerkit, jotk voivt loitt jonkun sellisen merkkijonon, jok voidn joht tästä α V. Lisäksi jos α ε niin myös ε first(α). follow(a) = kikki ne päätemerkit Σ jotk voivt seurt tätä välikettä A N josskin johdoss. Siis joill on johto muoto S... A.... Olkoon sitten A N kieliopin G mielivltinen välike j sen kikki säännöt. A α 1 α 2 α 3... α k Nyt ensimmäinen os LL(1)-ehto vtii, että näiden sääntöjen oiket puolet lkvt eri tvoin, eli että first(α i ) first(α j ) = (14) in kun i j. Nimittäin jos olisi jokin x first(α i ) first(α j ) niin kump säännöistä i viko j pitäisi käyttää tällä x? 140

143 Tästä ensimmäisestä LL(1)-ehdost (14) seur erityisesti, että korkeintn yksi välikkeen A säännöistä voi tuott tyhjän merkkijonon ε eli tehdä välikkeestä A tyhjentyvän (eli nollutuvn). Toinen os LL(1)-ehto koskee vin tyhjentyviä välikkeitä: Jos välike A N on tyhjentyvä, niin siltä vditn ehdon (14) lisäksi, että follow(a) first(α j ) = (15) kikill 1 j k. Nimittäin jos olisi jokin y follow(a) first(α j ) niin kump pitäisi tehdä tällä y: luod tyhjä A viko epätyhjä säännöllä j? Kielioppi G on yleisessä LL(1)-muodoss, jos sen kikki välikkeet j säännöt täyttävät molemmt ehdot (14) j (15). LL(1)-kielioppi ei voi oll moniselitteinen. LL(1)-kielioppi ei voi sisältää vsent rekursiot. Kun kielioppi G on tätä yleistä LL(1)-muoto, niin sille voidn lti rekursiivisesti etenevä jäsentäjä seurvin perittein: Pidetään yllä muuttujss next seurv syötemerkkiä. error(... ) trkoitt lopet koko rekursiivinen jäsennys virheilmoitukseen... Käytännön ohjelmoinniss se voisi vikkp nost poikkeuksen (exception). Tehdään tässä esimerkissä sellinen jäsentäjä, jok plutt rvonn vstvn jäsennyspuun. Tätä kusutn ennustvksi (englnniksi predictive ) jäsentämiseksi, kosk jäsentäjä os ennust oikein, mitä produktiot seurvksi pitää sovelt, lukemtt syötettä enempää kuin nextin verrn eteenpäin. Jokiselle päätesymolille Σ kirjoitetn om liohjelm: : 1 if next 2 then error(tässä kohdss olisi pitänyt oll ) 3 next lue seurv syötemerkki 4 return uusi lpseton solmu nimeltään Jokiselle välikkeelle A N kirjoitetn om liohjelm. Jos A ei ole tyhjentyvä, niin tämä liohjelm on: A: 1 if next first(α 1 ) then hr(α 1 ) 2 if next first(α 2 ) then hr(α 2 ) 3 if next first(α 3 ) then hr(α 3 ). error(tässä kohdss olisi pitänyt oll A) 141

144 Huom, että nämä first-joukot ovt vkioit, jäsentäjä ei siis lske niitä. Niiden rvot on jo lskettu LL(1)-ehto (14) testttess. Jokinen hr(x 1 X 2 X 3... X m ) on om ohjelmnpätkänsä 1 y 1 X 1 2 y 2 X 2 3 y 3 X 3. y m X m return uusi solmu nimeltään A lpsinn y 1, y 2, y 3,..., y m Jos välike A on tyhjentyvä, niin sillä on tsn yksi sellinen α e joll ε first(α e ). Täydennetään tätä α e vstv edellisen A-liohjelmn if-ehto muotoon if next (first(α e ) \ {ε}) follow(a) then... jok sllii sen käytön myös tyhjän A tuottmiseen. Jälleen tämä follow(a) on etukäteen lskettu vkio, joten ehdon koko joukko voidn lske etukäteen. Koko jäsentäjän pääohjelmksi tulee 1 next lue syötteen ensimmäinen merkki 2 τ S eli kutsutn lähtösymoli vstv liohjelm 3 if next syötteen loppumerkki EOF ( End-Of-File ) 4 then error(tässä piti oll EOF) 5 return näin rkennettu koko syötteen jäsennyspuu τ Jokiselle välikkeelle A N määritellään first(a) = first(α 1 ) first(α 2 ) first(α 3 )... first(α k ) (16) first- eli sen first-joukko koostuu kikist sen sääntöjen oikeiden puolten α i joukoist. Tällisen oiken puolen α V first-joukko lsketn puolestn seurvsti: Jos α = ε, niin first(α) = {ε}. Jos α on muoto... jollkin päätemerkillä Σ, niin first(α) = {}. Jos α on muoto Bβ, joss välike B ei ole tyhjentyvä, niin first(α) = first(b) jok ts lsketn kuten yhtälössä (16). 142

145 Jos α on muoto Bβ, joss välike B on tyhjentyvä, niin eli edetään eteenpäin jonoss α. first(α) = first(b) \ {ε} first(β) Kiken vsemmn rekursion poisto tk, ettei tämä ole kehämääritelmä. Välikkeiden follow-joukot voidn puolestn lske toistmll seurvi sääntöjä, kunnes mikään joukko ei enää ksv: Lisää EOF lähtösymolin S joukkoon follow(s). Jos kieliopiss on jokin sääntö muoto A αbβ, niin lisää joukkoon follow(b) kikki joukon first(β) päätesymolit. (Eli kikki muut sen lkiot, mutt ei mhdollist tyhjää merkkijono ε). Jos kieliopiss on jokin sääntö muoto A αbβ joss ε first(β) niin lisää joukkoon follow(b) kikki joukon follow(a) lkiot. Esimerkki 62. Esimerkin 59 tekijöidyssä kieliopiss trvitn LL(1)-jäsentäjää vrten seurvt joukot: first(t ) = {, (} first(e ) = {+,, ε} first(e) = first(t ) follow(e ) = follow(e) = {EOF, )}. Näiden perusteell voidn kirjoitt jäsentäjä edellä kuvttuun tpn. Lyhennetään koodi kirjoittmll yksi yhteinen liohjelm kikille päätemerkeille { +,, (, ),}: Terminli(): 1 if next 2 then error(tässä kohdss olisi pitänyt oll ) 3 next lue seurv syötemerkki 4 return uusi lpseton solmu nimeltään Pääohjelmksi tulee: 1 next lue ensimmäinen syötemerkki 2 τ E 3 if next EOF 4 then error(tässä kohdss olisi pitänyt oll EOF) 5 return τ Välikkeen E liohjelmksi tulee: 143

146 E: 1 if next { (, } then y 1 T y 2 E return uusi solmu nimeltään E j lpsinn y 1, y 2 2 error(tässä kohdss olisi pitänyt oll E) Välikkeen E liohjelmksi tulee: E : 1 if next { + } then y 1 Terminli( + ) y 2 E return uusi solmu nimeltään E j lpsinn y 1, y 2 2 if next { } then y 1 Terminli( ) y 2 E return uusi solmu nimeltään E j lpsinn y 1, y 2 3 if next {EOF, ) } then return uusi lpseton solmu nimeltään E 4 error(tässä kohdss olisi pitänyt oll E ) Välikkeen T liohjelmksi tulee: T: 1 if next {} then y 1 Terminli() return uusi solmu nimeltään T j lpsenn y 1 2 if next { ( } then y 1 Terminli( ( ) y 2 E y 3 Terminli( ) ) return uusi solmu nimeltään T j lpsinn y 1, y 2, y 3 3 error(tässä kohdss olisi pitänyt oll E ) Tätä systemttisesti kirjoitettu jäsennintä voi selvästi vielä prnnell pikllisin muutoksin: esimerkiksi liohjelmn T rivillä 2 trkstetn khdesti, että next on (. Tehdään siis prempi C-pseudokoodill. void E() { tulost(e TE ) T (); E (); } void E () { if (next == + ) { tulost(e +E) 144

147 } next = getnext(); E(); } else if (next == - ) { tulost(e -E) next = getnext(); E(); } else tulost(e ε) void T () { if (next == ) { tulost(t ) next = getnext(); } else if (next == ( ) { tulost(t (E)) next = getnext(); E(); if (next ) ) error(sulkev sulku puuttuu); next = getnext(); } else error(t ei voi lk merkillä next); } Pääohjelm käynnistää j päättää jäsennyksen: next = getnext(); E(); if (next EOF) error(tässä piti oll EOF). Ktsotn esimerkki 63 sen toiminnst. Sitten korvtn sen tulosteet yksinkertisell koodingeneroinnill. Esimerkki 63. Syötejonon -(+) jäsennys tulost: E TE T E -E E TE T (E) E TE T E +E 145

148 E TE T E ε E ε Tulostus vst vsent johto: E T E E E T E (E)E (T E )E (E )E ( + E)E ( + T E )E ( + E )E ( + )E ( + ). Oikess ohjelmss tulost-komennot voivt tehdä jotin hyödyllisempää (kuten lske lusekkeen rvo, generoid koodi,... ). // Lelukääntäjä: tuott konekoodi edellisen kieliopin // mukisten lusekkeiden rvon lskemiseksi; tulos rekisteriin // r1... EI ole testttu, vstuu lukijll: void Ep() { if(next == + ) { next = getnext(); T(); printf("pop r1\npop r2\ndd r1, r2\npush r1\n"); Ep(); } else if(next == - ) { next = getnext(); T(); printf("pop r2\npop r1\nsu r1, r2\npush r1\n"); Ep(); } } void T() { if(numero_ti_muuttuj(next)) { printf("push % } else if(next == ( ) { next = getnext(); T(); Ep(); if(next!= ) ) printf("virhe: piti oll loppusulku\n"); next = getnext(); } else printf("virhe: T ei voi lk merkillä % } int min() { next = getnext(); T(); Ep(); printf("pop r1\n"); return 0; } Edellisessä koodiss välike E on oleellisesti poistettu, j se on korvttu sääntöjen oikell puolell suorn johdoll T E. Kielioppi generoi edelleen smn kielen: S T E E +T E T E ε T (T E ) Lähtömuuttujsymoli S vst siis pääohjelm (min). 146

149 Konekielikäskymme: push x lit x pinoon pop x poist pinon päällimmäinen, Tulos j lit x:ään dd r1,r2r1 r1 + r2 su r1,r2r1 r1 r2 on siis lopuksi rekisterissä r1. Generoitu konekieli ei tosin ole kovin tehokst... Tätä ei kysytä tentissä! Se on esimerkkinä oikest jäsentämisestä j kääntämisestä tosin ilmn sellisi käytännön kysymyksiä kuin jäsennysvirheiden käsittely, jne. Lelu-ohjelmmme tulostus syötteellä (x + y) ( + ) : push x push y pop r1 pop r2 dd r1, r2 push r1 push push pop r1 pop r2 dd r1, r2 push r1 pop r2 pop r1 su r1, r2 push r1 pop r1 Peruuttvst jäsentämisestä Voimme ryhtyä ohjelmoimn tämän kltist rekursiivisesti etenevää jäsentäjää myös selliselle kieliopille G jok ei olekn LL(1). Silloin tehdäänkin peruuttv sijn. (englnniksi cktrcking ) jäsentäjä ennustvn 1. Jäsentäjä rv (ennustmisen sijn) mikä voisi oll seurv produktio. 2. Jos jäsentäjä joutuu myöhemmin umpikujn, eli huom rvnneens väärin, niin se peruutt rekursiossn viimeisimmän rvuksens, j rvkin sen sijn jonkin muun produktion. Intuitiivisesti, otmme iemmn kuvn 21 generoi-j-test -lgoritmin, j toteutmme sen epädeterminismin tällä peruuttvll etsinnällä. Yksi hnkluus on, että tällinen jäsentäjä kulkee syötemerkkijonossn edestkisin: eteenpäin rvttun produktion jot se kokeilee seurvksi, j tksepäin peruuttessn vääräksi osoittutuneen rvuksens. Toinen hnkluus on pysähtyminen: esimerkiksi vsen rekursio joht siihen, että jäsentäjä rvilee loputtomiin liikkumtt syötemerkkijonossn. Tällisten peruuttvien etsintämenetelmien ohjelmointi yksinkertistuu huomttvsti, jos otetn käyttöön liskt listt. Lisk list ylläpidetään keskeneräisenä : Kun siltä kysytään Mikä on seurv lkiosi? niin se lskee seurvn lkions vst silloin j vin sen seurvn lkions, eikä vielä muit. 147

150 Hskell on ohjelmointikieli, joss kikki lskent on lisk. Jos se lk kiinnost, niin lisätietoj nt verkkosivu sekä oppikirjt kuten Hutton (2007) ti Thompson (2011). Okski (1998) ts kertoo tuttujen tietorkenteiden liskoist versioist LR-kieliopeist Simuloidnkin merkkijonon oike johto rekursiivisesti. Sdn LR(1)-kieliopit j -kielet: Left to right scn, producing Right prse with 1 symol lookhed. Yleisemmin, LR(k)-kielissä seurvt k merkkiä määrittävät seurvn johtoskeleen. LR(0) = ns. yksinkertinen LR (Simple LR, SLR). LR(1) = deterministiset kielet, joten tsot k > 1 ovt enää teoreettisesti kiinnostvi. LR-jäsennys sisältää LL-jäsennyksen sillä lim LL(k) = LR(1). k Intutiivisesti, odotmme jäsentäessämme mhdollisimmn pitkään emmekä heti kokeile sääntöä, eli teemmekin oiken emmekä vsent johto. Nämä ovt tärkeitä työkluj kääntäjien ltimisess utomttisesti. Esimerkiksi ycc-työklu tuott LALR- eli lookhed LR -jäsentimen, jok on hiemn yksinkertisempi kuin täysi LR(1)-jäsennin. LR-jäsennyksen intuitio on prnt kuvn 21 generoi-j-test -pinoutomttimme. Simme sen mielivltisest kontekstittomst kieliopist hyvin yksinkertisell käännöksellä, mutt niinpä siinä olikin vrsin pljon epädeterministisiä vlintoj. LR-jäsennyksessä tehdäänkin tämä käännös huomttvsti huolellisemmin, j sillä pyritään pääsemään eroon näistä vlinnoist. Tämän käännöksen huolellisuus nt nämä eri luokt kuten SLR, LALR ti täysi LR(1). Jos niistä kikist päästään eroon, niin on stu se etsitty jäsennyslgoritmi deterministinen pinoutomttihn on tehoks simuloid. Jos ei päästä, niin usein voidn rtko loput vlinnt käsin: Esimerkiksi esimerkin 49 roikkuvn else-hrn ongelmss pinoutomtti ei else-syötemerkin nähdessään tiedä kump sen pitäisi tehdä: sovelt kielioppisääntöä pinoss jo oleviin lkioihin vi viedä tämäkin else-merkki pinoon? Silloin else-hr kuuluu lähimpään if-ehtoon -heuristiikn mukn näistä jälkimmäinen on se mitä pinoutomtin pitää tehdä. Sivuutmme yksityiskohdt. 148

151 Kysymys: Jos kerrn jo LL(1) riittää useimpiin ohjelmointikielissä esiintyviin syntktisiin konstruktioihin, niin miksi meillä silti on myös LR-jäsennys? Vstus: Oikesti hlumme käyttää ttriuuttikielioppej, eli sellisi kontekstittomi kielioppej, joihin olemme liittäneet ttriuuttien käsittelysäännöt. Kun kielioppi muunnetn LL(1)-ehdon täyttävään muotoon (vsemmn rekursion poistoll jne.) niin lopult sen rkenne voi oll hyvinkin kukn lkuperäisestä kieliopist. Siten siihen lopputulokseen voi oll vrsin hnkl j epäintuitiivist liittää sopivi ttriuuttien käsittelysääntöjä. LR-jäsennyksessä kielioppi ei trvitse muokt niin rdiklisti, joten ttriuuttien käsittelysäännötkin pysyvät yksinkertisempin. Yhteenveto kontekstittomien kielten jäsennyksestä Sm si: kuuluuko nnettu merkkijono kieleen? Peruskysymys kikkien formlien kielten kohdll (joit on siis muitkin kuin säännölliset j kontekstittomt). Säännöllisten kielten yhteydessä vstvn kysymykseen vstttiin äärellisen utomtin vull. Tämä on sekä teoriss että käytännössä erinominen rtkisu. Nyt olisimme voineet käyttää pinoutomtti (j käytimmekin); mutt tämä on teoreettinen työklu. Käytännössä epädeterminististä pinoutomtti ei voi toteutt tietokoneell. Siis käytämme CYK-lgoritmi. Erikoistpukset voidn jäsentää / tunnist helpommin: oikelle lineriset kieliopit vstvt säännöllisiä kieliä: tunnistetn siis äärellisellä utomtill (tässä tpuksess CYKin käyttö olisi liioittelu). Monet käytännössä tärkeät erityisesti ohjelmointikielille määritellyt - kieliopit ovt tyyppiä LL(k) ti LR(k). Näille on olemss yksinkertisi j tehokkit rekursioon perustuvi jäsennysmenetelmiä. Muitkin lgoritmej on. Työkluj: Bison, Ycc: syötteenä (rjoitettu) kontekstiton kielioppi, tuloksen jäsentimen lähdekoodi Kontekstittomien kielten rjoituksist Jäsennyspuit trkstelemll voi osoitt että vikkp kieli L = { n n c n : n N} ei ole kontekstiton. Tämä perustuu smtpiseen pumppusiden kuin epäsäännöllisyyttä osoitettess: Jos s on kielen L merkkijono, sillä on jäsennyspuu sopivss kielen L kieliopiss G. Jos lisäksi s on kovin pitkä, niin sen jäsennyspuuss on oltv inkin yksi pitkä hr. Kun jäsennyspuun hr on riittävän pitkä, niin inkin yhden muuttujn A on pkko esiintyä inkin kksi kert. 149

152 S S A A A A u v w x y u v v. A A A x x y v w x Kuv 26: Toistuvn välikkeen pumppus. Muuttujn A esiintyminen omn jälkeläisenään jäsennyspuuss trkoitt, että A vax joillkin v, x Σ. Voimme pumpt tätä johto kuten kuvss 26: A vax vvaxx vvvaxxx... Vert säännöllisten kielten pumppuslemmn (luse 7): tilt vs. muuttujt silmukk utomtiss vs. johto A vax. Kontekstittomien kielten pumppuslemm Smn tpinen kuin säännöllisten kielten pumppuslemm. Nyt kuitenkin pumptn kht osmerkkijono v j x smn thtiin. Hyvin krke pinoutomtti-intuitio: v = pyöritään silmukss, joss pushtn merkkejä pinoon x = pyöritään silmukss, joss poptn pinost se, mitä v-silmukk sinne vei. Luse 16. Jos L on kontekstiton kieli, niin sille on olemss pumppuspituus p N, jolle seurv pätee: Jos s L j s p, niin voidn kirjoitt s = uvwxy, joss 1. uv i wx i y L kikill i N, 2. vx > 0 j 3. vwx p. Todistus: Sivuutetn. 150

153 Kuten jo on todettu, kontekstittomille kielille pätee joitin smntpisi sulkeumominisuuksi kuin säännöllisille kielille: Luse 17. Olkoot L 1 j L 2 kontekstittomi kieliä. Tällöin myös 1. L 1 L 2 (kielten yhdiste) 2. L 1 L 2 (kielten ktentio) 3. (L 1 ) (kielen sulkeum) 4. (L 1 ) R (kielen käänteiskieli) ovt kontekstittomi. Kontekstittomt kielet eivät kuitenkn ole suljettuj leikkuksen j komplementin suhteen. Niiden pumppuslemmll eli luseell 16 voitisiin todist, että kieli ei ole kontekstiton. { n n c n : n N} Todistus: (Luonnos.) Kun vlitn merkkijonoksi s = p p c p niin sen osss vwx ei voi oll kikki kolme merkkiä. Siten sen osien v j x pumppminen ei voi lisätä jokist kolme merkkiä kuten pitäisi. Kielet L 1 = { n n c k : n, k N } L 2 = { k n c n : n, k N } j ovt kontekstittomi, mutt niiden leikkus L 1 L 2 = { n n c n : n N} ei siis olekn kontekstiton. Todistimme juuri: Luse 18. Kontekstittomien kielten luokk ei ole suljettu leikkuksen suhteen. Tähän mennessä tphtunut Kurssi lähti liikkeelle yksinkertisist lskennn mlleist: mitä niillä voidn esittää, millisi ilmiöitä hvitn. Lskennn formlisointi perustuu joukko-oppiin j logiikkn, j se mhdollist mtemttisen täsmälliset päättelyt. edellyttää idelisointi (mielivltisen pitkät syötteet jne.) tärkeä erityisseikk: epädeterminismi. Prosedurlisuus j deklrtiivisuus 151

154 Smn sin määrittely prosedurlisesti utomtill ti deklrtiivisesti kieliopill. Tärkeät ekvivlenssitulokset: kieli A on tunnistettviss äärellisellä utomtill kieli A voidn esittää säännöllisenä lusekkeen. kieli A on tunnistettviss pinoutomtill kieli A voidn tuott kontekstittomll kieliopill. Niiden vull siirrytään trpeen mukn prosedurlisest deklrtiiviseen esitykseen ti toisin päin. Ylärjoj lskentongelmien vikeudelle: esimerkiksi, mikä thns säännöllinen kieli voidn tuott kontekstittomll kieliopill. Todistukset olivt tyypillisesti konstruktiivisi, esimerkiksi kontekstiton kielioppi käännettiin pinoutomtiksi. Simultio oli erikoistpus konstruktiost, epädeterministisestä deterministiseksi äärelliseksi utomtiksi. Alrjoj ongelmien vikeudelle: esimerkiksi kieli {0 n 1 n : n N} on vikempi kuin mihin äärellinen utomtti pystyy. Lähtökohtn oli formlisoitu lskentmlli. Todistetn voimks putulos (kuten pumppuslemm) lskentmllin määritelmän perusteell. Sovelletn putulost esimerkkitpuksiin (usein epäsuorn todistuksen kutt), lskentmllin yksityiskohdist ei enää trvitse välittää. Teknisesti vikeit (myös opelle). Hierrki: Esimerkiksi säännölliset kielet ovt yhteydettömien kielten ito liluokk. Simultio: kikki säännölliset kielet ovt yhteydettömiä. Erottelu: kieli {0 n 1 n n N} on kontekstiton (ylärj), mutt ei säännöllinen (lrj). Siirryttäessä trkstelemn vhvempi lskennn mllej j kieliluokki edellä esitellyt ilmiöt toistuvt tekniset yksityiskohdt monimutkistuvt entisestään tulokset ovt entistäkin kiinnostvmpi, kosk esimerkiksi Turingin kone on mlli oikelle tietokoneelle (ti mille thns nykytietämyksen vloss mhdolliselle lskentlitteelle). Tällisi sioit käsitellään trkemmin LAT-kurssill. 152

155 6 Lskennn filosofi Nyt etenemme kontekstittomien kielten tuolle puolen... Tietojenkäsittelytieteilijän yleissivistykseen kuuluvi sioit: Turingin kone, j siihen liittyen rtkevuus vs. rtkemttomuus, sekä ongelmien vikeusluokt, erityisesti P? = NP-ongelm. Emme mene yksityiskohtiin, mutt selvitämme mistä on krkesti otten kysymys. Tästä eteenpäin sit perustelln (jos perustelln linkn) käsien heiluttelull mtemttisen todistelun sijst. Siis: tsoll lskennn filosofi, vrsininen lskennn teori jää kurssille LAT. Asioit jotk on Hyvä Tietää, sillä näihin voi törmätä mitä erilisimmiss yhteyksissä eli hyödyllistä yleistieto. Lisämotivtio: termejä rtkemton j NP-täydellinen ti NP-kov käytetään usein täysin väärin, j tähän syyllistyvät myös monet oppineet. Siis erityisesti: kikki NP-täydelliset ongelmt ovt kyllä rtkevi, vikk joku muut väittäisikin. 6.1 Turingin kone Turingin kone on lkun mtemttisen logiikn trpeisiin kehitelty lskennn mlli. Trkoituksen oli vngit mhdollisimmn ljsti, millisi sioit voidn (peritteess) lske meknisesti. Mlli on sittemmin osoittutunut sopivksi myös oikeiden tietokoneiden ymmärtämiseen. Turingin koneiden keksijä Aln M. Turing oli keskeinen henkilö II milmnsodn ikn liittoutuneiden purkess skslisten Enigm-slkirjoituskoneell koodttuj viestejä j sodn jälkeen erään ensimmäisen oiken tietokoneen (ACEn) suunnitteluss Englnniss. Turingin kone (Turing mchine, TM) on utomtti, joss on peritteess rjoittmton määrä muisti. Toisin kuin pinoutomtti, Turingin kone s käsitellä tätä muistin täysin vpsti. Siten yksinkertisin tp päästä pinoutomteist Turingin koneisiin olisi viht pinon tilll pumuistin toimiv nuh, jot kone s käsitellä vpsti, kuten kuvss 27. Mutt kikkein yksinkertisin Turingin kone on yksinuhinen Turingin kone, joss 153

156 syötenuh tutkittv syöte... nuhpää ohjusyksikkö q 0 q 3 q 1 q 2 δ A B A A_ pumuistinuh Kuv 27: Pinoutomtist Turingin koneeksi. syötenuh toimii smll punuhn tämän inon nuhn nuhpää voi liikku vpsti kumpnkin suuntn ruutu kerrlln sekä luke j kirjoitt vpsti kohdll olevn ruudun merkin. Tällisen Turingin koneen peruskomponentit ovt 1. äärellinen joukko tiloj (stte) (kuten iemminkin) 2. rjoittmttomn pituinen nuh (tpe), jok luksi sisältää syötteen j lskennn ikn toimii pumuistin j 3. liikuteltv nuhpää (tpe hed, red/write hed, osoitin, pointteri ), jok osoitt seurvksi vuoross olev symoli nuhll. Turingin koneen yksityiskohdt (kuten nuhojen lukumäärä, onko nuh molempiin viko vin yhteen suuntn ääretön,... ) voidn määritellä monell eri tvll, mutt kikki ovt lskentvoimltn ekvivlenttej. Kuten muutkin käsittelemämme utomtit, Turingin kone s syötteenä merkkijonon, jonk sitten hyväksyy ti hylkää: 1. Aluksi syöte on nuhn luss, j nuhn loppu sisältää pelkkiä tyhjämerkkejä. Nuhpää osoitt nuhn lkuun. 2. Yhdessä lskent-skeless kone lukee nuhpään ll olevn symolin, 154

157 /, R B/B, R /, R C/C, R /A, R /B, R q 0 q 1 q 2 </<, L /A, R c/c, L q 4 A/A, R q 3 </<, L q 5 B/B, R B/B, R C/C, R C/C, L /, L B/B, L /, L Kuv 28: Esimerkki Turingin koneest. vlitsee seurvn tiln, kirjoitt nuhpään kohdlle uuden symolin (jolloin vnh häviää) j siirtää nuhpäätä vsemmlle ti oikelle. 3. Tilojen joukoss on hylkäävä j hyväksyvä lopputil, joihin päätyminen lopett lskennn välittömästi. Jos lskent ei koskn päädy hyväksyvään ti hylkäävään tiln, niin se on silmukss. Sivuutmme Turingin koneen formlin määrittelyn. Annetn kuitenkin yksi esimerkki Turingin koneest; kieli { k k c k : k N } (jok ei ole kontekstiton), voidn tunnist kuvn 28 Turingin koneell. Siirtymänuolen merkki /A, R trkoitt, että luetn nuhpään kohdlt merkki, kirjoitetn sen tillle merkki A, j siirrytään nuhll yksi skel oikelle (Right) jne. Merkki < ts ilmoitt, mihin syöte päättyy Koneen toimintperite: Kulje syötenuh...ccc...c< eteenpäin, j muut se kulkiesssi nuhksi A...B...Ccc...c< 155

158 jos mhdollist. Pl sitten tkisin lähimmälle kirjoittmllesi merkille A, j loit siitä smnlinen kulku eteenpäin. Tuloksen on AA...BB...CCc...c< eli toisetkin merkit muuttuivt pienistä isoiksi. Jtk näin, kunnes kikki pienet -merkit ovt muuttuneet isoiksi A -merkeiksi, j trkist ettei muitkn pieniä merkkejä ole enää jäljellä. Turingin koneist (kuten muistkin utomteist) tulee nopesti hyvin monimutkisi. Monimutkisten Turingin koneiden kvioesitysten piirtäminen ei ole sinänsä kiinnostv: Turingin kone on trkoitettu yleiseksi lskentformlismiksi, jot käyttäen voidn esittää mikä thns lgoritminen lskent. Mllin motivtio on siis erilinen kuin tietoisesti rjtuiss mlleiss (äärellinen utomtti, jne). 6.2 Algoritmin määritelmä Mitä lgoritmill yleensä trkoitetn? Peritteess: Yksiselitteisesti kuvttu jono (tietojenkäsittely)opertioit, jotk voidn toteutt meknisesti. Käytännössä: luonnollist kieltä, pseudokoodi yms. käyttävä esitys, jonk pätevä ohjelmoij os koodt ilmn suurempi ongelmi. Tämä trkkuustso ei ole riittävä, jos hlutn tutki lskettvuuden rjoj. Erityisesti kun hlumme väittää jostin ongelmst, että sille ei ole olemss rtkisulgoritmi, niin mitä oikestn väitämme? Huom, että tämä on oleellisesti eri si kuin todet, että ongelmlle ei ole (vielä toistiseksi) keksitty lgoritmi. Luontev äärellisyyden vtimus: Jokinen yksittäinen opertio lgoritmiss s tehdä vin äärellisen määrän työtä. Siis erityisesti yksi opertio s luke äärellisen määrän tieto, etsiä toimintohjeen äärellisestä sääntöjoukost j kirjoitt äärellisen määrän tieto. Ti kääntäen: Jos lgoritmin kuvuksess olisi jokin ääretöntä työtä vtiv skel, niin emme kutsuisi sitä lgoritmiksi milloin tuo skel vlmistuisi, j päästäisiin sitä seurvn skeleeseen? Toislt ei ole mitään syytä kieltää lgoritmi käyttämästä niin pljon pumuisti kuin se suinkin trvitsee. Huom: Edellisen äärellisyysvtimuksen nojll lgoritmi voi kuitenkin äärellisessä jss käyttää vin äärellisen määrän pumuisti! 156

159 Siis tässä peritteess ääretön trkoitt riittävän suurt pumuisti. Tämän esittäminen mtemttisesti joht suorn jtukseen, että mtemttiselt knnlt lgoritmi on sm si kuin Turingin kone. Tämä onkin (krkesti) lkuperäinen jtus Turingin koneen tkn. Käytännön tietojenkäsittelyn knnlt tärkeä hvinto on, että myös (idelisoitu) nykyikinen tietokone on Turing-ekvivlentti eli pystyy rtkisemn tsn smt ongelmt kuin Turingin kone. Toisin snoen: kikki Turingin koneit koskevt tulokset j rjoitukset koskevt myös oikeit tietokoneit. Tämä on lskennn teorin j lskennn vtivuusteorin ydin. Siis Turingin kone (j vstvt kieliluokt) on kiinnostv; sitä on mtemttisten todistusten knnlt helpompi käsitellä kuin oike tietokonett (ti ohjelmointikieliä). 6.3 Rtkemttomuudest Monet lskennlliset ongelmt ovt täysin rtkemttomi; jotkut osittin rtkevi (rekursiivisesti lueteltvt kielet). Itsestään selvää: kikki ongelmt joille osmme lti rtkisulgoritmin, ovt tietenkin rtkevi (j silloin kuuluvt luokkn rekursiiviset kielet). Emme käsittele si sen syvällisemmin tällä kurssill. Esimerkkinä luetelln muutm ongelm joit ei Turingin koneell (eikä siis tietokoneell) pysty rtkisemn edes peritteess: Pysähtyykö kone nnetull syötteellä? Hyväksyykö kone tyhjän syötteen? Hyväksyykö kone edes jonkin syötteen? Onko koneen tunnistm kieli säännöllinen? Jäsennysongelm (w L(G)?) yleisessä tpuksess, eli kun kielioppi G on täysin rjoittmton. Jne... Muistele johdntoluku 3.3: rtkemttomien ongelmien olemssolo on helppo todet, kosk ongelmi on enemmän kuin lgoritmej / Turingin koneit. Meditoitv: ongelmn rtkemttomuus on lskennllisesti rtkemton ongelm. Yleinen rtkemttomuustulos: Luse 19 (Ricen luse). Jokinen Turingin koneiden epätrivili semnttinen ominisuus on rtkemton. 157

160 Turingin koneiden M semnttinen ominisuus mikä thns sellinen ominisuus S, jok riippuu vin koneen M tunnistmst kielestä, ei koneen itsensä syntktisest rkenteest. Toisin snoen, intuitiivisesti: Jos meillä on koneet M j M, j L(M) = L(M ) eli ne hyväksyvät smn kielen, niin kysymykseen Onko koneell M ominisuus S? pitää vstt smoin kuin kysymykseen Onko koneell M ominisuus S? Mtemttisesti otten, semnttinen ominisuus S on mikä thns kokoelm rekursiivisesti lueteltvi kkoston {0, 1} kieliä j koneell M on ominisuus S, jos L(M) S. Semnttinen ominisuus on trivili jos vstus on in sm riippumtt kysyttävästä koneest M. Eli ominisuus S on trivili, jos jokisell koneell vstus on in kyllä eli jokisell koneell on tämä ominisuus S ei eli millään koneell ei ole tätä ominisuutt S. Kikki muut ominisuudet ovtkin sitten epätrivilej j Ricen luseen mukn siis rtkemttomi. Siis Ricen luseen mukn itse siss jokseenkin kikki ohjelmien toimint, ti trkemmin snoen niiden lskemi syöte/tulos-kuvuksi koskevt kysymykset ovt lskennllisesti rtkemttomi. Edellä luetellut ongelmt koskevt koneiden semnttisi ominisuuksi, j ovt siis rtkemttomi. Semnttisen ominisuuden vstkoht on syntktinen ominisuus, kuten kone sisältää siirtymän δ(q, ) = (q,, R) jotkut koneet M sisältävät sellisen, kun ts toiset koneet M eivät sisällä, j silti ne voivt hyväksyä smn kielen. Tälliset ominisuudet ovt (helpostikin) rtkevi. Rtkemttomuustodistukset ovt usein muoto Vstoletus: kone pysähtyy ; j tästä johdetn ristiriit: kone ei voi pysähtyä joten ongelm on rtkemton. Esimerkkinä olkoon pysähtymisongelmn rtkemttomuustodistus johdntoluvuss Jos ongelm on rtkev, koneen pitää pysähtyä in. Jos osittin rtkev, niin sen pitää pysähtyä kyllä tpuksess. 6.4 Lskennn vtivuusteorist Keskeinen (lgoritmisuunnittelun) kysymyksensettelu: Lskennn vtivuusteorin peruskysymykset ovt intuitiivisesti seurvn tyyppisiä (jn sijn voidn puhu muistist tms.): Annettu lskennllinen ongelm A j ikrj T : voiko ongelmn A rtkist jss T (ylärj ikvtivuudelle)? Annettu lskennllinen ongelm A j ikrj T : viekö ongelmn A rtkiseminen välttämättä vähintään jn T (lrj ikvtivuudelle)? 158

161 Ylärjoj todistetn tyypillisesti ltimll tehoks lgoritmi j nlysoimll sen ikvtivuus. Tietojenkäsittelytieteilijät ovt hyviä tässä (ti inkin siihen koulutuksemme pyrkii). Alrjojen todistminen on yleensä (hyvin) vike: tyypillisesti se onnistuu vin jos ongelm A on sopiv keinotekoinen ongelm; ti tehdään lisärjoituksi sille milliset lgoritmit ovt sllittuj. Esimerkiksi TRA II -kurssin Ω(n log n) lrj järjestämiselle olett lisäksi, että lgoritmi s vin vertill kokonisi tietolkioit toisiins. Siten lrj ei enää pädekään esimerkiksi silloin, jos näiden tietolkioiden yksittäisiä ittejäkin skin tutki. (Huomttkoon vielä, että tässä olln kiinnostuneit tiukoist lrjoist; esim. Ω(1) on täysin trivili lrj järjestämiselle, mutt ei kiinnostv.) Idelitpuksess ylärj j lrj ovt smt, jolloin on löydetty optimlinen lgoritmi. Lskennn vtivuusteoriss edellinen kysymyksensettelu muuntuu hiemn toiseen muotoon. Ylärjt j lrjt ovtkin vtivuusluokituksi, tyyliin: Voiko ongelmn A rtkist polynomisess jss deterministisellä Turingin koneell? Silloin jttelemme ongelmluokk kikki ne ongelmt, joille on polynomisess jss toimiv lgoritmi, kun snn lgoritmi täsmälliseksi määritelmäksi otmme Turingin koneet. Voiko ongelmn A rtkist polynomisess jss epädeterministisellä Turingin koneell? Siis on myös epädeterministisiä Turingin koneit, eli sellisi jotk voivt vlit seurvn lskent-skeleens usest eri vihtoehdost... Voiko ongelmn A rtkist polynomisess tilss? jne. Emme siis (välttämättä) ole kiinnostuneit yksittäisen lgoritmin täsmällisestä vtivuudest (edes) symptoottisess eli iso-o -mielessä, vn tietyn tyyppisten ongelmien vikeudest. Eräs Turingin koneiden yksinkertisuuden etu on, että niiden kuluttmien lskentresurssien määrä voidn määritellä suorn: Turingin koneen M syötemerkkijonoll w käyttämä ik on yksinkertisesti sen tekemien lskent-skeleiden lukumäärä ennen pysähtymistään til on yksinkertisesti niiden nuhpikkojen lukumäärä, joill sen nuhpää on vierillut ennen koneen pysähtymistä. 159

162 Silloin kun tyydymme trkstelemn vin rtkevi ongelmi, niin voimme olett nämä äärellisiksi. Rtkemttomien ongelmien resurssitrpeet ts ovt hrvoin kiinnostvi. Syötteen pituudell n nämä määritellään mksimirvoikseen, eli ik on pisin ik jok voidn käyttää millään syötteellä w jonk pituus w n til on suurin til jok... vstvsti. Smoin epädeterminismi voidn määritellä suorn: Smss tilss voidn vlit smll nuhmerkillä mont eri siirtymää. Jos kieli voidn tunnist jossin nykyikisen tietokoneen strktiss mlliss (kuten esimerkiksi ns. hjsntimuistikone eli RAM-kone) jss t(n) j tilss s(n), niin se voidn tunnist deterministisellä Turingin koneell jss O(t(n) 2 ) j tilss O(s(n)). Yleisemmin, ((lähes?) kikiss?) universleiss lskennn mlleiss ikvtivuudet j tilvtivuudet (kun ne määritellään järkevästi) ovt polynomisess suhteess: Jos jokin ongelm rtke jossin mlliss jss t(n), niin missä thns toisess mlliss se rtke jss O(t(n) k ), jollin vkioll k, jok riippuu käytetyistä mlleist mutt ei ongelmst. Erityisesti tämä trkoitt: jos ongelm rtke polynomisess jss (deterministisen) Turingin koneen vull, se rtke polynomisess jss myös oikell tietokoneell. (J päinvstoin.) Eli olemme kiinnostuneet rjst tehokkn eli polynomisen j tehottomn eli ylipolynomisen lskent-jn välillä emmekä trkst funktiost t(n). Käytännön lskennss ylipolynominen lgoritmi hidstuu liin rjusti ollkseen hyödyllinen, kun syötteen pituus n ksv vähänkään suuremmksi. Komintoriikn näkökulmst ylipolynomisuus trkoitt usein luettele kikki eri mhdollisuudet j vlitse niistä... -tyyppistä rtkisu, jot ei voine pitää lgoritmisesti kovinkn nokkeln... Ajtelln esimerkiksi seurv tehtävää: Meillä on n punnust, joiden pinot ovt p 1, p 2, p 3,..., p n N. Voidnko vk sd tspinoon niin, että yhteen sen vkkuppiin litetn os niistä j toiseen loput. Lskentongelmn se tunnetn nimellä Ositus (Prtition): Syötteenä nnetn luvut p 1, p 2, p 3,..., p n N. Onko olemss jokin indeksijoukko I {1, 2, 3,..., n} siten, että p i = p j? (17) i I j {1,2,3,...,n}\I 160

163 Deterministist peruslgoritmi 1 for ech I {1, 2, 3,..., n} 2 do if yhtälö (17) on tott 3 then return kyllä on 4 return ei ole ei voine pitää kovinkn nokkeln, sehän vin kokeilee läpi kikki 2 n eri vihtoehto. Epädeterministinen lgoritmi vin 1. ensin tuott jonkin osjoukon I {1, 2, 3,..., n} epädeterministisesti 2. sitten hyväksyy jos yhtälö (17) on tott j hylkää muuten. 6.5 Ongelmien vikeusluokitukset j plutukset Vikeusluokki j -luokituksi on pljon (ktso esim. edu/wiki/complexity_zoo) kosk lskentongelmi voidn vertill toisiins monin eri tvoin. Tärkeimmät tunte: P j NP. Puoli-formlisti: on nnettu lskennllinen päätösongelm A. Ongelm A kuuluu luokkn NP (nondeterministic polynomil time), jos se voidn tunnist epädeterministisellä Turingin koneell polynomisess jss = määrässä lskentskeleit. Tästä seur suorn, että jos ongelm A NP, niin se voidn tunnist deterministisellä Turingin koneell (.k.. tietokoneell) eksponentilisess jss (simuloimll epädeterminististä lskent, ts. käymällä kikki lskentpuun hrt läpi). Siis: tämä simuloinnin eksponentilisuus on ylärj; luokkn NP kuuluu myös helppoj ongelmi (esim. hierrkin pohjll säännölliset kielet), jotk voidn rtkist nopemmin. Luokn NP vikeimmt ongelmt sttvt kuitenkin in vti eksponentilisen jn, mutt tämä on voin ongelm. Ns. NP-täydellisille ongelmille ei tunnet tehokkmpi lgoritmej, mutt ei ole myöskään voitu todist etteikö sellisi voisi oll. Tämä on tärkeä kysymys, kosk erilisi (tärkeitä) NP-täydellisiä ongelmi on pljon, j niitä hluttisiin ost rtkist tehokksti ( polynomisess jss). Vstvsti luokk P, epäformlisti: päätösongelmt, jotk voidn rtkist deterministisellä Turingin koneell polynomisess jss. Siis, jos P = NP, niin kikki luokn NP ongelmt voitisiin rtkist polynomisess jss. Vltos tietojenkäsittelytieteilijöistä uskoo, että P NP. Mutt sitä ei siis ole vielä(kään) onnistuttu todistmn. Intuitiivisesti todistuksen vikeus on osoitt, ettei mikään ohjelmointitp, -kikk ti -temppu voi korvt epädeterminististä polynomist lskent deterministisellä hidstumtt smll eksponentilisesti. 161

164 Plutukset lskentongelmien välillä Ongelmi voidn plutt toisiin ongelmiin. Trivili esimerkki: kertolsku voidn plutt toistetuksi yhteenlskuksi, j päinvstoin. Lskentongelmn A pluttminen lskentongelmn B trkoitt sellist muunnosfunktiot f, että kysymykseen Onko x A viko ei? voidn vstt kysymällä sen sijn Onko f(x) B viko ei?. Tällöin ongelm A löytyy ongelmn B sisältä. Tällöin jttelemme että Eihän tämä A ollutkn inkn vikempi ongelm kuin tuo B!. Ti kääntäen Tuo ongelm B ei ole inkn helpompi kuin tämä ongelm A!. Sllitut plutukset f vlitn siten, etteivät ne hämärrä sitä rj, jot hlutn nyt tutki. Esimerkiksi jos rjn on rtkevuus/rtkemttomuus, niin silloin plutuksen f sllitn mikä thns Turingin koneell lskettv funktio. Silloin otetn ongelmksi A jokin rtkemttomksi jo tiedetty ongelm. Erityisesti pysähtymisongelm on todistettu rtkemttomksi suorn, vetomtt muihin ongelmiin. Siten se onkin usein luontev A. Silloin plutusfunktion f olemssolo osoitt myös ongelmn B rtkemttomksi ongelm A työntää ongelmn B rjn yli plutuksell f. Toisin snoen, ongelm B voidn osoitt rtkemttomksi seurvsti: 1. Oletetn, että ongelmll B olisi jokin rtkisulgoritmi. 2. Osoitetn, että sen vull stisiin rtkisulgoritmi myös jollekin rtkemttomksi tiedetylle ongelmlle A esimerkiksi pysähtymisongelmlle. 3. Tämä on ristiriit, eli myöskään B ei voi oll rtkev. Kun tutkitn rj P/NP, niin sllituiksi plutusfunktioiksi f vlitn deterministisillä Turingin koneille polynomisess jss lskettvt funktiot. Puhutn polynomisist (moni-yksi) plutuksist ( polynomil (mny-one) reductions ). Jos on siis nnettu formlit kielet A Σ A j B Σ B, voidn merkitä A p B jos x A f(x) B kikill x Σ A j plutusfunktio f : Σ A Σ B voidn lske polynomisess jss. Tämä A p B formlisoi intuitiomme ongelm A ei ole vikempi kuin ongelm B eli ongelm B ei ole helpompi kuin ongelm A. 162

165 Lskentongelm on NP-kov ( hrd ), jos kikki luokn NP ongelmt voidn plutt siihen polynomisesti. Lskentongelm on NP-täydellinen ( complete ), jos se on NP-kov j itsekin luokss NP. Toisin snoen, silloin se on luokn NP ktoll eli yksi sen vikeimmist ongelmist. Näillä määritelmillä P? = NP-ongelm rtke P = NP jos yhdellekin NP-täydelliselle (ti -kovlle) ongelmlle keksitään polynomisess jss toimiv deterministinen lgoritmi. Tämä on siis se vähemmän uskottv vihtoehto. P NP jos yhdellekin NP-täydelliselle ongelmlle pystytään osoittmn, ettei sellist lgoritmi voi oll olemss. Tämä on siis se vihtoehto, johon uskotn, mutt jonk todistus yhä puuttuu. Siis, ongelm A voidn osoitt NP-täydelliseksi (jos se on sellinen!) seurvsti: 1. Etsitään ensin kirjllisuudest tunnettu NP-täydellinen ongelm B (joit on tuhnsi), jok muistutt ongelm A josskin mielessä. 2. Osoitetn että B p A vditun plutuksen f löytämistä helpott se, että ongelmt muistuttvt toisin. 3. Osoitetn vielä että A NP mutt se on helppo: riittää esittää sille epädeterministinen polynomiikinen lgoritmi. Jos ongelm A on näin osoitettu NP-täydelliseksi, mutt sille pitää silti nt edes jonkinlinen rtkisu, niin sille voidn ryhtyä kehittämään esimerkiksi jotkin seurvist: Approksimointilgoritmi jok lskeekin jonkin likimääräisen rtkisun. Stunnislgoritmi jok todennäköisesti löytää rtkisun, muttei vrmsti. Heuristiikkoj jotk toimivt nopesti moniss sen erikoistpuksiss, mutteivät kikiss. NP-täydellisiä ongelmi NP-täydellisiä ongelmi on löytynyt tuhnsi sekä tietojenkäsittelytieteen sisältä että monilt muilt sellisilt tieteenloilt, joiss myös pitää rtko informtionkäsittelytehtäviä. Esimerkiksi seurvilt loilt, jotk on poimittu ln perusteoksest (Grey nd Johnson, 1979): Verkkoteori. Esimerkiksi Hmiltonin kehä (Hmiltonin Circuit): Voidnko syötteenä nnetun suuntmttomn verkon kri pitkin kulke niin, että käydään tsn kerrn jokisess sen solmuss, j lopuksi pltn tkisin lähtösolmuun? Ti Verkon väritys (Chromtic Numer): Voidnko nnetun suuntmttomn verkon solmut värittää r eri värillä siten, että jokinen sen kri kulkee eriväristen solmujen välillä? 163

166 Verkkojen suunnittelu. Esimerkiksi Kuppmtkustjn ongelm (Trvelling Slesmn Prolem, TSP): Edellinen Hmiltonin kehä joss on mukn myös krten pinot (eli teiden pituudet ) j ylärj kierroksen pituudelle. Joukot j niiden ositukset. Esimerkiksi edellä kuvttu Ositus. Tllennus j hku. Esimerkiksi Lyhyin yhteinen ylijono (Shortest Common Superstring): Annetn mont merkkijono s 1, s 2, s 3,..., s n sekä ylärj m. Onko olemss korkeintn m merkin mittinen merkkijono s, jok sisältää kikki nämä nnetut merkkijonot? Kiinnostv esimerkiksi molekyyliiologiss: Annetut merkkijonot ovt lortoriokokeill eristettyjä pätkiä tuntemttomn DNA-juosteen eri kohdist. Millinen se koko juoste voisi oll? Aiktulujen ldint. Esimerkiksi Lukujärjestys (Timetle) koko koululle, ti työjärjestys tehtn koneille j sen henkilökunnlle,... Mtemttinen ohjelmointi. Esimerkiksi Repunpkkus (Knpsck): On nnettu tvroit, joill on rvo j pino. Mitkä niistä murtovrkn knntt poimi reppuuns, jott niiden yhteinen rvo olisi mhdollisimmn suuri, mutt pino silti niin pieni, että hän vielä jks knt ne? Alger j lukuteori. Esimerkiksi Neliölliset Diofntoksen yhtälöt (Qudrtic Diophntine Equtions): Annetn,, c N. Onko olemss rtkisut x, y N yhtälölle x 2 + y = c? Pelit j pulmt. Esimerkiksi sellinen Ristisntehtävä (Crossword Puzzle Construction) joss nnetn ruudukko, joss os ruuduist on vlkeit j muut musti sekä list snoj jotk pitää kirjoitt näihin vlkeisiin ruutuihin. Logiikk. Esimerkiksi klssisen luselogiikn Toteutuvuusongelm (Stisfiility, SAT): Annetn klssisen luselogiikn kv. Voidnko siinä oleville muuttujille nt sopivt totuusrvot siten, että koko kvn totuusrvoksi tulee true? Tämä oli siinä mielessä ensimmäinen NP-täydellinen ongelm, että se todistettiin suorn NP-täydelliseksi lähtien polynomiikisist epädeterministisistä Turingin koneist. Pysähtymisongelm oli vstvss rooliss rtkemttomuudess. Tämä on ns. (Stephen) Cookin luse. Sen jälkeen nämä muut ongelmt voitiin todist NP-täydellisiksi helpommin sopivill plutuksill siitä j toisistn. Huom: Muillkin logiikoill on om toteutuvuusongelmns, j sen vtivuus vihtelee logiikst riippuen. Automtit j formlikielet. Monet tämän kurssin sioist johtvt vähintään NPkoviin ongelmiin, esimerkiksi Pienin esimerkeistä päätelty utomtti (Minimum Inferred Finite Stte Automton): Annetn kksi äärellistä merkkijonojoukko S, K Σ eli sllitut j kielletyt snt sekä kokorj m N. Onko olemss sellist m-tilist determinististä utomtti, jok hyväksyy inkin kikki nämä sllitut muttei yhtään noist kielletyistä snoist? Eli kuink vike tietokoneen on keksiä itse nnettuihin positiivisiin j negtiivisiin esimerkkeihin sopiv äärellinen utomtti? 164

167 Ohjelmien optimointi. Monet kääntäjän loppuviheen eli koodin generoinnin ongelmt kuten esimerkiksi Rekistereiden riittävyys (Register Sufficiency): Voidnko nnettu ohjelmkoodi kääntää selliseksi konekoodiksi, joss trvitn kerrlln vin korkeintn r eri rekisteriä? Onneksi on sittemmin ilmennyt, että jos ohjelm onkin kirjoitettu rkenteisesti eli siinä ei hypitäkään goto-käskyillä mielivltisesti sinne tänne, niin myös sen rekisterien käyttö pysyy kuriss. Tässä on esimerkki tilnteest, joss yleinen ongelm on vike, mutt sen käytännössä esiintyvät tpukset helppoj. Huom: Nämä ovt päätösongelmi, eli kyllä/ei-kysymyksiä ( kuuluuko kieleen? ). Trkkn otten, inostn päätösongelmversiot s sno NP-täydelliseksi. Usein olln kuitenkin kiinnostuneit etsintä- ti optimointi ongelmist, tyyliin Mikä on pienin määrä r rekistereitä, jonk tämä nnettu ohjelmkoodi trvitsee? Mikä on nnetun suuntmttomn pinotetun verkon lyhyin Hmiltonin kehä / kuppmtkustjn reitti? Tvllisesti (mutt ei välttämättä!) NP-täydellisen päätösongelmn j sitä vstvn optimointiongelmn vtivuus on oleellisesti sm, eli ne erovt vin jonkin polynomin verrn. Siksi usein puhutnkin jonkin optimointiongelmn NP-täydellisyydestä. 7 Summ summrum Kurssin sisältöä voidn trkstell (inkin) khdest näkökulmst: Perustiedot formleist kielistä j niiden tunnistmisest; esim. kielen määritteleminen äärellisenä utomtin, säännöllisen lusekkeen ti kontekstittomn kieliopin vull, näiden formlismien väliset yhteydet, (Turingin kone yleisenä lgoritmin mllin j) (rtkemttomuuden lkeet, kuten pysähtymisongelm). Johdtus tietojenkäsittelyteorin j sen metodiikkn; erityisesti Säännölliset kielet mtemtiikn soveltminen lskennn mllintmiseen j miten väitteet perustelln täsmällisesti. Käytännössä tärkeä tietää: tilsiirtymäkone lskennn mllin säännölliset lusekkeet j äärelliset utomtit Teoreettisi jtusmllej: epädeterministinen lskent (joitin käytännön sovelluksikin on) mllien väliset konversiot (NFA DFA) 165

168 lskulitteen j kuvusformlismin ekvivlenssi (DFA vs. säännöllinen luseke) luokn sulkeumominisuudet mhdottomuustodistukset (pumppuslemm) Kontekstittomt kielet Käytännössä tärkeä tietää: kielen kuvminen kieliopill jäsentämisen peruskäsitteet, erityisesti jäsennyspuu Teoreettisi jtusmllej: smt kuviot kuin säännöllisillä kielillä, teknisesti hstvmmss tilnteess Algoritmisi tekniikoit: itertiiviset lgoritmit (nollutuvt muuttujt jne.) CYK-lgoritmi j tulukointi (dynminen ohjelmointi) rekursion käyttö yksinkertisen kieliopin jäsentämiseksi Jtkoiheit: sovellukset ohjelmointikielissä j luonnollisess kielessä Turingin koneet j lskettvuus Käytännössä tärkeä tietää: Churchin-Turingin teesi rtkemttomuuden käsite Teoreettisi jtusmllej: vikk mitä (intross minittu inkin: numeroituvuus vs. ylinumeroituvuus; digonlisointi) Jtkoiheit: lskennn teori, lskennn vtivuus; (mtemttinen) logiikk (ei se kurssi... ) Teori j käytäntö Kurssi oli teoreettinen, mutt sit pitää ymmärtää syvällisesti, jott opittu voi tehokksti sovelt. THE BEST THEORY IS INSPIRED BY PRACTICE nd THE BEST PRACTICE IS INSPIRED BY THEORY. Donld Knuth. In theory prctice nd theory re the sme. In prctice they re not. Anonyymi (?) 166

169 Tentti Jotin tämän tpist: 1. Vst / selitä lyhyesti mitä trkoitt Determinisoi j minimoi oheiset utomtit: Muodost () oheist säännöllistä lusekett vstv epädeterministinen äärellinen utomtti () oheisest utomtist vstv säännöllinen luseke luennoll esitetyllä menetelmällä. 4. Olkoon nnettu kontekstiton kielioppi G. () Ldi kieliopin kuvmn kielen tunnistv äärellinen utomtti (jos kielioppi on oikelle linerinen) ti pinoutomtti (jos ei). () Onko kielioppi Chomskyn normlimuodoss? Jos ei, niin muut se selliseksi. (c) Selvitä CYK-lgoritmill, kuuluuko merkkijono w =... kieliopin kuvmn kieleen. Yleisesti: kuten hrjoitustehtävät, luentojen esimerkit j tehtävät. Siis kysymyksiä seurvien kertustehtävien tyyliin: Tehtävä 48. Esitä kullekin seurvist kkoston Σ = {,, c} kielistä kielen tunnistv deterministinen utomtti j vstv säännöllinen luseke: 1. merkkijonot, joiss -merkkien lukumäärä on korkeintn kolme 2. merkkijonot, jotk loppuvt c 3. merkkijonot, jotk eivät sisällä osmerkkijono c 4. merkkijonot, joiss ei ole kht sm merkkiä peräkkäin. 5. merkkijonot, jotk sisältävät kolmell jollisen lukumäärän merkkiä c. Tehtävä 49. Muodost epädeterministinen äärellinen utomtti kielelle (0 11). Muodost tästä edelleen deterministinen (minimoitu) äärellinen utomtti. Käytä luentomteriliss esitettyä täsmällistä menetelmää, j esitä myös väliviheet. Tehtävä 50. Minimoi ll olev deterministinen äärellinen utomtti kurssill opeteltu minimointimenetelmää käyttäen. 167

170 Tehtävä 51. Trkstelln oheist äärellistä utomtti: 1 2 0, Determinisioi utomtti kurssill opeteltu menetelmää käyttäen. 2. Minimoi deterministinen utomtti kurssill opeteltu minimointimenetelmää käyttäen. 3. Millisen kielen utomtti tunnist? Muodost (minimoidust) utomtist vstv säännöllinen luseke. Tehtävä 52. Trkstelln oheist äärellistä utomtti: Minimoi deterministinen utomtti kurssill opeteltu minimointimenetelmää käyttäen. 168

171 2. Millisen kielen utomtti tunnist? Muodost (minimoidust) utomtist vstv säännöllinen luseke. Tehtävä 53. Trkstelln oheist äärellistä utomtti: 1 1. Determinisoi utomtti kurssill opeteltu menetelmää käyttäen Minimoi deterministinen utomtti kurssill opeteltu minimointimenetelmää käyttäen. 3. Millisen kielen utomtti tunnist? Muodost (minimoidust) utomtist vstv säännöllinen luseke. Tehtävä 54. Erään ohjelmointikielen funktiomäärittelyt ovt seurvnlisi: ensin nnetn pluurvo, jok voi oll int, flot ti void. Sitä seur funktion nimi. Suluiss ennetn prmetrit, ensin tyyppi (joko int ti flot) j sitten prmetrin nimi. Prmetrit erotetn pilkull. Prmetrien puuttuminen ilmistn vrtull snll void. Funktioiden j muuttujien nimet koostuvt kirjimist,,c,...,z sekä numeromerkeistä 0,1,2,...,9, j lkvt in kirjimell. Lillisi määrittelyjä ovt esimerkiksi: int clc2(int x, int y), void print(flot menvlue), flot generte(void). 1. Ann kielen kuvv säännöllinen luseke. 2. Muodost kielen tunnistv deterministinen äärellinen utomtti lusekkeest. 3. Ann kielen kuvv kontekstiton kielioppi. Tehtävä 55. Olkoon kkosto Σ = {, }. Trkstelln kieltä L = {x : x ei sisällä merkkijono }. 1. Ldi äärellinen utomtti, jok tunnist kyseisen kielen. (Vihje: Ldi ensin utomtti sen komplementille.) 2. Lue utomtist vstv säännöllinen luseke. Ann kikki väliviheet! 3. Ann kontekstiton kielioppi, jok tuott kyseisen kielen. Tehtävä 56. Mitä trkoitt Äärellisen utomtin determinisointi? 2. Äärellisen utomtin minimointi?

172 3. Äärellisen utomtin muodostus säännöllisestä lusekkeest? 4. Todistus Pumppuslemmll? Tehtävä 57. Ovtko seurvt väittämät oikein vi väärin? Perustele lyhyesti. 1. Jos kieli ei ole säännöllinen, on se kontekstiton. 2. Jos kieli on kontekstiton, on se myös säännöllinen. 3. Jos kieli on säännöllinen, on se myös kontekstiton. 4. On olemss kieliä jotk ovt säännöllisiä mutt eivät kontekstittomi. 5. On olemss kieliä jotk voidn tunnist epädeterministisellä äärellisellä utomtill mutt joit ei void kuvt säännöllisellä lusekkeell. 6. Jos nnettun kielioppi G j merkkijono w {, }, niin w L(G) on lgoritmisesti rtkev ongelm. Tehtävä 58. Trkstelln seurv kielioppi G: S A B ε A B B A Ovtko seurvt väitteet tosi vi epätosi? 1. Merkkijonot j kuuluvt kieliopin kuvmn kieleen L(G). 2. G on Chomskyn normlimuodoss. 3. G kuv smn kielen kuin säännöllinen luseke () () () (). 4. G kuv smn kielen kuin säännöllinen luseke () (). 5. G on vsemmlle linerinen. 6. G kuv smn kielen kuin kielioppi G : S A B ε A A A B ε B B B A ε Tehtävä 59. Trkstelln seurvi formlej kieliä. Ovtko ne säännöllisiä? Jos joku niistä ei ole säännöllinen, osoit että se on kontekstiton. 1. { i j : i = , j = } 2. {w : w on :st j :stä koostuv merkkijono, jonk pituus on 3:ll jollinen} 3. {ww : w {, } } 4. { n n : n 0} 5. {w {, } : w sisältää prillisen määrän :t sekä vähintään yhden :n}. 6. { i j : j i 0} 7. {w {, } : w sisältää prillisen määrän :tä} 170

173 8. {w {, } : w sisältää prillisen määrän :tä} {w {, } : w sisältää kolmell jollisen määrän :t}. 9. {w {, } : w sisältää prillisen määrän :tä sekä vähintään yhden :n}. 10. { i j {, } : 2 i = j 4} 11. { i j : i = 2j} 12. { i j : i on prillinen j j on priton} 13. {w w : w {, } } 14. {w {, } : w sisältää merkkijonon sekä prittomn määrän :t}. 15. { m n : 0 m n 2m} Tehtävä 60. Olkoon nnettu säännölliset kielet L, L 1 j L 2. Osoit että myös seurvt kielet ovt säännöllisiä: 1. L 1 L 2 (kielten ktentio) 2. L 1 L 2 3. L 1 L 2 4. L Tehtävä 61. Mihin Chomskyn normlimuoto trvitn? Mitkä kielet voidn esittää Chomskyn normlimuodoss? Tehtävä 62. Olkoon nnettu kielioppi S A B A S A B B ε 1. Ldi kieliopin kuvmn kielen tunnistv äärellinen utomtti. 2. Ann vstv säännöllinen luseke. 3. Onko kielioppi Chomskyn normlimuodoss? 4. Jos ei, niin muut se selliseksi. 5. Kuuluuko merkkijono kieleen? Jos kuuluu, niin nn merkkijonon jäsennyspuu. Tehtävä 63. Simuloi Cocke Younger Ksmi (CYK) -lgoritmi sen rtkistess kuuluvtko merkkijonot, j kieliopin S AS A SA muodostmn kieleen. ( Simuloi = täytä lgoritmin ylläpitämä dynmisen ohjelmoinnin tulukko.) Jos kuuluu, niin nn vstvt jäsennyspuut. Tehtävä 64. Mitkä seurvt kkoston Σ = {, } kielistä ovt säännöllisiä, mitkä eivät: 171

174 1. L = { n n : n N} 2. L = { n n : n N} 3. L = {wuw R : w, u Σ + } Perustele vstuksesi. Tehtävä 65. Trkstelln kkoston {, } prillisen mittisten plindromien muodostm kieltä PAL = {ww R : w {, } }. 1. Ldi kielen tuottv kontekstiton kielioppi. 2. Muodost kielen tunnistv pinoutomtti. Tehtävä 66. Miten voit rtkist seurvt ongelmt? 1. Annettun säännölliset lusekkeet r 1 j r 2, onko L(r 1 ) = L(r 2 )? 2. Annettun säännöllinen luseke r j oikelle linerinen kielioppi G, onko L(r) = L(G)? 3. Annettun kontekstittomt kieliopit G 1 j G 2, onko L(G 1 ) = L(G 2 )? Tehtävä 67. Trkstelln ritmeettisi lusekkeit tuottv kontekstitont kielioppi G: E E + E E E (E). 1. Muodost luseelle ( + ) vsen johto. 2. Osoit että kielioppi on moniselitteinen (Vihje: + ). 3. Muunn kielioppi G Chomskyn normlimuotoon. 4. Tutki CYK-goritmill, kuuluvtko merkkijonot ( + ) j () + kieleen L(G). Tehtävä 68. Selitä lyhyesti seurvien käsitteiden merkitys. 1. Oikelle ti vsemmlle linerinen kielioppi. 2. Jäsennyspuu (prse tree). 3. Säännöllinen luseke (regulr expression). 4. Moniselitteinen kielioppi. 5. ε-utomtti. 6. Chomskyn normlimuoto. 7. Churchin-Turingin teesi. Loppu Muist kurssiplute! 172

Näytä lisää