Laskennan perusmallit (LAP)

Samankaltaiset tiedostot

Laskennan perusmallit (LAP)

ICS-C2000 Tietojenkäsittelyteoria Kevät 2015

ICS-C2000 Tietojenkäsittelyteoria Kevät 2016

Olkoon. M = (Q, Σ, δ, q 0, F)

T Syksy 2002 Tietojenkäsittelyteorian perusteet Harjoitus 5 Demonstraatiotehtävien ratkaisut. ja kaikki a Σ ovat säännöllisiä lausekkeita.

Säännöllisten operaattoreiden täydentäviä muistiinpanoja

Automaatin tunnistama kieli on sen hyväksymien merkkijonojen joukko. Täsmällinen muotoilu: δ,q 0,{q 2,q 3,q 6 }), missä

Laskennan mallit Erilliskoe , ratkaisuja (Jyrki Kivinen)

Laskennan mallit (syksy 2010) 1. kurssikoe, ratkaisuja

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 22. syyskuuta 2016

2.6 SÄÄNNÖLLISET LAUSEKKEET Automaattimalleista poikkeava tapa kuvata yksinkertaisia kieliä. Olkoot A ja B aakkoston Σ kieliä. Perusoperaatioita:

Riemannin integraalista

Q = {q 1, q 2, q 3, q 4 } Σ = {a, b} F = {q 4 },

6.2 Algoritmin määritelmä

Automaattimalleista poikkeava tapa kuvata yksinkertaisia kieliä. Olkoot A ja B aakkoston Σ kieliä. Perusoperaatioita:

3.3 KIELIOPPIEN JÄSENNYSONGELMA Ratkaistava tehtävä: Annettu yhteydetön kielioppi G ja merkkijono x. Onko

Laskennan perusmallit (LAP)

Matematiikan tukikurssi

LAP: Laskennan perusmallit

Laskennan mallit (syksy 2007) Harjoitus 5, ratkaisuja

Kuvausta f sanotaan tällöin isomorfismiksi.

OSA 1: POLYNOMILASKENNAN KERTAUSTA, BINOMIN LASKUSÄÄNTÖJÄ JA YHTÄLÖNRATKAISUA

II.1. Suppeneminen., kun x > 0. Tavallinen lasku

Q on automaatin tilojen äärellinen joukko; Σ on automaatin syöteaakkosto; δ : Q Σ Q on automaatin siirtymäfunktio; q 0 Q on automaatin alkutila;

Esimerkki 8.1 Määritellään operaattori A = x + d/dx. Laske Af, kun f = asin(bx). Tässä a ja b ovat vakioita.

10. MÄÄRÄTYN INTEGRAALIN KÄYTTÖ ERÄIDEN PINTA-ALOJEN LASKEMISESSA

M = (Q, Σ, Γ, δ, q 0, q acc, q rej )

5.3 Ratkeavia ongelmia

Automaatit. Muodolliset kielet

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

Ristitulo ja skalaarikolmitulo

Kognitiivinen mallintaminen I, kevät Harjoitus 1. Joukko-oppia. MMIL, luvut 1-3 Ratkaisuehdotuksia, MP

Kielenä ilmaisten Hilbertin kymmenes ongelma on D = { p p on polynomi, jolla on kokonaislukujuuri }

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 8: Integraalifunktio ja epäoleellinen integraali

Pythagoraan lause. Pythagoras Samoslainen. Pythagoraan lause

3 Mallipohjainen testaus ja samoilutestaus

Neliömatriisin A determinantti on luku, jota merkitään det(a) tai A. Se lasketaan seuraavasti: determinantti on

Riemannin integraali

Syksyn 2015 Pitkän matematiikan YO-kokeen TI-Nspire CAS -ratkaisut

MS-A010{2,3,4,5} (SCI, ELEC*, ENG*) Differentiaali- ja integraalilaskenta 1 Luento 8: Integraalifunktio ja epäoleellinen integraali

TEHTÄVÄ 1. Olkoon (f n ) jono jatkuvia funktioita f n : [a, b] R, joka suppenee välillä [a, b] tasaisesti kohti funktiota f : [a, b] R.

Chomskyn hierarkia ja yhteysherkät kieliopit

Pysähtymisongelman ratkeavuus [Sipser luku 4.2]

TAMPEREEN YLIOPISTO Valinnaisten opintojen syventäviin opintoihin kuuluva tutkielma. Lauri Kumpulainen. Büchin automaateista

Integraalilaskentaa. 1. Mihin integraalilaskentaa tarvitaan? MÄNTÄN LUKIO

Rekursiolause. Laskennan teorian opintopiiri. Sebastian Björkqvist. 23. helmikuuta Tiivistelmä

Todistus: Aiemmin esitetyn mukaan jos A ja A ovat rekursiivisesti lueteltavia, niin A on rekursiivinen.

Rekursiiviset palautukset [HMU 9.3.1]

ICS-C2000 Tietojenkäsittelyteoria Kevät 2016

Reaalinen lukualue. Millainen on luku, jossa on päättymätön ja jaksoton desimaalikehitelmä?

Numeeriset menetelmät TIEA381. Luento 9. Kirsi Valjus. Jyväskylän yliopisto. Luento 9 () Numeeriset menetelmät / 29

2.4 Pienimmän neliösumman menetelmä

Matematiikan tukikurssi

SARJAT JA DIFFERENTIAALIYHTÄLÖT Funktiojonot 1

Yhteydettömän kieliopin jäsennysongelma

1 Kurssin asema opetuksessa

1. Universaaleja laskennan malleja

TIEA241 Automaatit ja kieliopit, kevät 2011 (IV) Antti-Juhani Kaijanaho. 31. maaliskuuta 2011

MS-A010{3,4} (ELEC*) Differentiaali- ja integraalilaskenta 1 Luento 7: Integraali ja analyysin peruslause

Laskennan teoria

Kertausta: kielet ja automaatit. ICS-C2000 Tietojenkäsittelyteoria. Alue ja aiheet. Äärelliset automaatit

MS-A010{2,3,4,5} (SCI,ELEC*, ENG*) Differentiaali- ja integraalilaskenta 1 Luento 7: Integraali ja analyysin peruslause

(0 1) 010(0 1) Koska kieli on yksinkertainen, muodostetaan sen tunnistava epädeterministinen q 0 q 1 q 2 q3

Rajoittamattomat kieliopit (Unrestricted Grammars)

2.1 Vaillinaiset yhtälöt

Riemannin integraalista

Turingin koneet. Sisällys. Aluksi. Turingin koneet. Turingin teesi. Aluksi. Turingin koneet. Turingin teesi

Matematiikan johdantokurssi, syksy 2017 Harjoitus 6, ratkaisuista. 1. Onko jokin demojen 5 tehtävän 3 relaatioista

Automaattiteoria diskreetin signaalinkäsittelyn perusmallit ja -menetelmät ( diskreettien I/O-kuvausten yleinen teoria)

Vastaa tehtäviin 1-4 ja valitse toinen tehtävistä 5 ja 6. Vastaat siis enintään viiteen tehtävään.

Laskennan perusmallit (LAP)

Laskennan mallit

5 Epäoleellinen integraali

Polynomien laskutoimitukset

4 DETERMINANTTI JA KÄÄNTEISMATRIISI

Ongelma(t): Mikä on Turingin kone? Miten Turingin kone liittyy funktioihin ja algoritmeihin? Miten Turingin kone liittyy tietokoneisiin?

vaihtoehtoja TIEA241 Automaatit ja kieliopit, syksy 2016 Antti-Juhani Kaijanaho 13. lokakuuta 2016 TIETOTEKNIIKAN LAITOS

Output. Input Automaton

11. MÄÄRÄTTY INTEGRAALI JA TILAVUUS

Preliminäärikoe Pitkä Matematiikka

Transkriptio:

Lskennn perusmllit (LAP) Kimmo Fredrikssonin j Mtti Nykäsen luentomonisteest krsien muoknnut Pekk Kilpeläinen Tietojenkäsittelytieteen litos, Itä-Suomen yliopisto sähköposti: pekk.t.kilpelinen@uef.fi Lukuvuoden 2013 14 III periodi Sisältö 1 Kurssin sem opetuksess 1 2 Kurssin sem tietojenkäsittelytieteessä 2 2.1 Histori..................................... 3 2.2 Kurssin sisältö tästä eteenpäin......................... 4 3 Johdnto 5 3.1 Lskennlliset ongelmt............................ 6 3.2 Päätösongelmt j formlit kielet....................... 9 3.3 Lskennllisten ongelmien rtkevuus..................... 14 3.3.1 Pysähtymisongelmn rtkemttomuus................ 16 4 Säännölliset kielet j äärelliset utomtit 18 4.1 Äärellisen utomtin esitystpoj...................... 20 4.2 Äärellisen utomtin formli määrittely.................. 22 4.3 Säännöllinen kieli................................ 24 4.4 Äärellisen utomtin lskentvoimst.................... 27 4.5 Sovelluksist................................... 31 4.6 Epädeterministiset äärelliset utomtit................... 32 4.7 Säännölliset lusekkeet j kielet........................ 47 4.8 Säännölliset lusekkeet j äärelliset utomtit................ 54 4.8.1 Säännöllisestä lusekkeest utomtti................ 54 4.8.2 Automtist säännöllinen luseke.................. 55 4.9 Säännöllisten kielten sulkeumominisuudet................. 60 4.10 Säännöllisten kielten rjoituksist....................... 63 5 Kontekstittomt kielet j pinoutomtit 72 5.1 Kontekstittomien kielten sulkeumominisuuksist.............. 82 5.2 Säännölliset j kontekstittomt kielet..................... 83 5.2.1 Äärellistä utomtti vstv linerinen kielioppi........ 84 5.2.2 Linerist kielioppi vstv äärellinen utomtti........ 85 5.3 Pinoutomtti................................. 87 5.3.1 Deterministiset j epädeterministiset pinoutomtit........ 92 5.3.2 Pinoutomtit j kontekstittomt kielet............... 94 i

5.4 Kielioppien jäsennysongelm.......................... 99 5.5 Kontekstittomien kielten rjoituksist..................... 107 5.6 Cocke-Younger-Ksmi-lgoritmi....................... 111 5.7 LL(1)-kieliopit j rekursiivisesti etenevä jäsennys.............. 111 5.7.1 LR-kieliopeist............................. 124 6 Summ summrum 126 Viitteet Alfred V. Aho, Monic S. Lm, Rvi Sethi, nd Jeffrey D. Ullmn. Compilers: Principles, Techniques, nd Tools. Addison Wesley, second edition, 2007. John E. Hopcroft, Rjeev Motwni, nd Jeffrey D. Ullmn. Introduction to Automt Theory, Lnguges nd Computtion. Addison Wesley, second edition, 2001. John R. Levine, Tony Mson, nd Doug Brown. Lex & Ycc. O Reilly, second edition, 1992. Hrry R. Lewis nd Christos H. Ppdimitriou. Elements of the Theory of Computtion. Prentice-Hll, second edition, 1981. Michel Sipser. Introduction to the Theory of Computtion. Course Technology, second edition, 2005. Thoms A. Sudkmp. Lnguges nd Mchines: An Introduction to the Theory of Computer Science. Addison Wesley, second edition, 1997. ii

1 Kurssin sem opetuksess Tietojenkäsittelytieteen pääineopiskelijoille pkollinen ineopintokurssi (3 op). Esitietovtimukset: Johdtus tietojenkäsittelytieteeseen (JTT): Lskennn, lgoritmin j tietokoneen käsitteet. Diskreetit rkenteet (DSR): Sovelletn diskreetin mtemtiikn peruskäsitteitä, kuten joukkoj, reltioit, funktioit, puit j verkkoj. Lisäksi molemmill kursseill lähestymistp j jtusmilm on mtemttinen (eikä esimerkiksi ohjelmointitekninen). Tietorkenteet 1 (TRA1): Käytetään joitkin siellä selostettuj perustietorkenteit, kuten pinoj j puit. Lisäksi viittn joihinkin siellä esiteltyihin käsitteisiin, kuten symptoottiseen ikvtivuuteen. Kiinnostuneille lisää vlinnisill syventävien opintojen jtkokursseill: Algoritmien suunnittelu j nlyysi (ASA): Tätä kurssi ljemmt perustiedot ns. P? = NP-ongelmst sekä teoreettisest että lgoritmisuunnittelun näkökulmst. Lskennn teori (LAT): Syvällisemmin tästä ongelmst j muistkin tällä kurssill esitellyistä sioist. Tämä P =? NP-ongelm onkin tunnetuin esimerkki lskennn vtivuusteorin käsittelemistä ongelmist. Yksi (mutt ei läheskään ino!) tp luke se on: P = selliset lskentongelmt, joiden vstukset voi lske tvllisell tietokoneell tehokksti NP = voisi jos koneeseen lisättäisiin mginen konekäsky vlitse hyppäätkö nyt riville X viko riville Y jok jotenkin in osisi vlit juuri oikein. Silloin kysymys on: Voisiko tvllinen tietokone in löytää itsekin oiken vlinnn nopesti? Yleisesti uskotn, että ei voisi: Uskotn, että on sellisi ongelmi j tilnteit, joiss on väistämättä hidst löytää se oike vlint. Tämä P? = NP-ongelm on kuitenkin osoittutunut teoriss hyvin vikeksi rtkist se on yhä voin, j on stu tuloksi inkn menetelmällä X sitä ei voi rtkist erilisille lähestymistvoille X. käytännössä merkittäväksi, kosk monet käytännön ongelmt ovt osoittutuneet ns. NP-vikeiksi, eli sellisiksi että jos yksikin niistä voitisiin rtkist tehokksti (eli se kuuluisi luokkn P) niin sen vull ne kikki muutkin voitisiin rtkist tehokksti. 1

Cly Mthemtics Institute onkin vlinnut sen yhdeksi seitsemästä Millenniumongelmstn, j nt sen rtkisust plkinnoksi 1 000 000 USD! (http://www. clymth.org/millennium/) Jo tietojenkäsittelijän yleissivistykseen kuuluu tunte peruskäsitteet kuten lskentongelm jne., j tämän kurssin tvoitteen onkin tutustutt niihin. Oppimterili Nämä luentomuistiinpnot ovt wikissä: http://wiki.uef.fi tkt-wiki Kurssien kotisivuj - Course homepges LAP - Lskennn perusmllit (3621317, 3op). Pohjutuvt Kimmo Fredrikssonin j Mtti Nykäsen luentoihin edellisiltä vuosilt. Pelkät muistiinpnot eivät välttämättä riitä itseopiskeluun, vn voivt vti tuekseen joko luentojen ti jonkun oppikirjn seurmist. Esimerkiksi kirjn Hopcroft, John E., Motwni, Rjeev j Ullmn, Jeffrey D.: Introduction to Automt Theory, Lnguges nd Computtion, 2. pinos (Addison Wesley, 2001) luvut 1 8.2, 9 9.3 j 10 kttvt vltosn kurssin sioist (näitä luentoj yksityiskohtisemmin). Näistä sioist on julkistu moni muitkin oppikirjoj, kuten esimerkiksi Lewis nd Ppdimitriou (1981), Sipser (2005) j Sudkmp (1997), joit voi myös käyttää. 2 Kurssin sem tietojenkäsittelytieteessä Erään määritelmän mukn tietojenkäsittely tutkii 1. milliset tietojenkäsittelytehtävät on mhdollist utomtisoid j 2. miten tämä utomtisointi tulisi suoritt. Useimpien kurssien lähestymistp on yleensä konstruktiivinen, eli koht 2. Esimerkiksi TRA: Kehitetään nnetun lskentongelmn tehokksti rtkisev lgoritmi j sen trvitsemt tietorkenteet. Tällä kurssill pinolue onkin kohdss 1. Osoittutuu, että on olemss erilisi tehtäviä; sellisi 1. joit ei edes peritteess voi utomtisoid lgoritmin olemssolo on looginen mhdottomuus. 2. jotk voi utomtisoid, mutt vin tehottomsti tehokst lgoritmi ei voi oll olemss. 3. jotk voi utomtisoid j tehokksti tehokskin lgoritmi on keksitty: luokk P. 4. joist emme vielä tiedä ovtko ne tehokksti rtkistviss vi idosti työläitä; erityisesti päteekö NP P? 2

2.1 Histori Lskentongelmn käsitteen muotoilu sekä ongelmien erottelu utomtisoitumttomiin (eli tyyppiin 1) j utomtisoituviin tehtiin 1930-luvull. Siis jo ennen tietokoneit! (Ensimmäiset yleiskäyttöiset tietokoneet rkennettiin pin II milmnsodn jälkeen.) Motivtion oli mtemtiikn filosofin j formlin logiikn kehitys: Hluttiin erott toisistn selliset mtemttiset j loogiset ongelmt, jotk vtivt ito luovuutt, sellisist joihin riitti pelkkä lskeminen...... siis nt trkk formli määritelmä rkikielen käsitteelle mekninen lskent. Näin syntyi lskettvuuden teori yhdeksi keskeiseksi osksi mtemttist logiikk. Tällä kurssill esitetään mekniselle lskennlle trkk formli määritelmä käyttäen ns. Turingin koneit tietokonepioneeri Aln M. Turingin vuonn 1936 esittämää bstrkti mtemttist mlli hypoteettiselle lskulitteelle. Smn ikn oli muitkin loogikkojen ehdotuksi meknisen lskennn määritelmäksi, esimerkiksi: Kurt Gödel kehitti 1930-luvun lust lken rekursiivisten funktioiden teori osn kuuluisn (ensimmäisen) epätäydellisyysluseens todistust. Iden oli induktio: funktion seurv rvo f(n+1) voidn määritellä edellisen rvon f(n) vull, joss n N. Alonzo Church esitti vuonn 1936 omn λ-lskentns. Iden oli lskent lusekkeen sievennyksenä. Nämä ts olivt tärkeitä ohjelmoinnin j ohjelmointikielten kehitykselle. Tällä kurssill niitä ei käsitellä, mutt kurssill Johdtus funktionliseen ohjelmointiin (FOH) sivutn λ-lskent. Miksi vlittiin Turingin litelähtöinen lähestymistp meknisen lskennn määritelmäksi eikä Gödelin ti Churchin ohjelmointilähtöistä? Eksplisiittinen lite jok kulke rksutt kuin kello on konkreettisempi käsite kuin induktio ti sievennys joiden voisi epäillä sittenkin vtivn sitä ito luovuutt... Lskentn kuluv ik j til on helpompi määritellä litteen kuin siinä pyörivän ohjelmn kutt. Tietokoneiden yleistymisen myötä lettiin huomt, että tämä mekninen lskent jkutui edelleen vivlloiseen (eli tyypin 2) j vivttomn (eli tyypin 3) mekniseen lskentn. Yksi tp selventää tätä jko on tutki vielä yksinkertisempi lskulitteit kuin Turingin kone. Tätä utomttien teori on kehitetty 1960-luvult lähtien. Tällä kurssill tutustummekin sen keskeisiin käsitteisiin kuten äärellisiin j pinoutomtteihin. 3

Toinen tp on sett resurssirjoj Turingin koneille. Tätä lskennn vtivuusteori on kehitetty 1970-luvult lähtien. Sen keskeinen ongelm on juuri edellä minittu P? = NP. Vtivuusteori kuitenkin jätetään vltosin kursseille ASA j LAT. 2.2 Kurssin sisältö tästä eteenpäin 1. Johdnto: Yleisktsus lskennn teorin, lskennn vtivuusteorin j lskennn mlleihin. Kurssill käytettävien käsitteiden j nottioiden määritelmiä. 2. Säännölliset kielet: äärelliset utomtit j säännölliset lusekkeet. Äärelliset utomtit ovt mhdollisimmn yksinkertisi lskulitteit. Säännölliset kielet ts ovt sellisi merkkijonojoukkoj, joihin kuuluminen voidn rtkist näillä litteill. Säännölliset lusekkeet ts ovt nottio, joll niitä voidn kuvt lyhyesti. Kun esimerkiksi kirjoitt Linuxin komentoriville ls *.jr niin käytät säännöllistä lusekett *.jr kuvilemn säännöllisen kielen kikki selliset ASCII-merkkijonot, jotk päättyvät merkkijonoon.jr j kone list sinulle kikki ne tämän hkemiston tiedostonimet, jotk tämän kielen tunnistv utomtti hyväksyy sen jäseniksi. Käytännössä niihin törmää esimerkiksi merkkijonolgoritmeiss, hjutettujen järjestelmien mllintmisess sekä dokumenttirkenteiden kviokielissä (kuten XML DTD j XML Schem). 3. Kontekstittomt kielet j kieliopit sekä pinoutomtit. Vstvsti pinoutomtit ovt hiemn mutkikkmpi lskulitteit j kontekstittomt kielet niitä, joit ne voivt tunnist. Ne ovt käytännössä tärkeitä rkenteisen syötteen käsittelyssä. Esimerkiksi HTML, XML sekä rkenteisell ohjelmointikielellä kirjoitettu lähdekoodi ovt rkenteisi syötteitä, kosk niissä on mielivltisen mutkikkit sisäkkäisyyksiä, joist syötettä lukevn ohjelmn pitää ott selvää. Esimerkiksi HTML-syötettä lukevn ohjelmn pitää löytää korostuksen loittvlle tgille <em> juuri oike sitä vstv lopettv tg </em>, j niiden välissä voi oll muit senkltisi tgiprej, jotk pitää smoin pritt. Kontekstittomt kieliopit ts ovt näiden kielten kuvilutp, vstvsti kuin säännölliset lusekkeet ovt säännöllisille kielille. Lskettvuuden j vrsinkn lskennn vtivuuden teori emme vlitettvsti ennätä käsitellä juuri linkn. Lskennllisesti vtiviin ti jop kokonn rtkemttomiin ongelmiin törmää esimerkiksi tekoälyssä sekä ohjelmien j järjestelmien formliss verifioinniss. 4

3 Johdnto Lskennn teori (theory of computtion) käsittelee sitä, miten ongelm luokitelln rtkevuuden, vikeuden j tehokkuuden perusteell ennen kuin se rtkistn. Se jetn perinteisesti khteen os-lueeseen: Lskettvuuden teori (theory of computbility) tutkii, mitä tietokoneell ylipäänsä voidn rtkist j kuink vike nnettu ongelm on. Ongelmien vikeus määritellään melko krkell tsoll sen perusteell, kuink monimutkist lskennn mlli rtkisuss trvitn. Lisäksi lskettvuuden teori nt hyviä eväitä itse rtkisun ltimiseen. (LAP, LAT) Lskennn vtivuusteori (theory of computtionl complexity) tutkii, kuink tehokksti ongelm voidn rtkist. Lskennn vtivuusteori muistutt lgoritmien nlyysi, mutt siinä ei määritellä yksittäisen rtkisulgoritmin ik- ti tilvtivuutt, vn itse ongelmn phimmn tpuksen ik- j tilvtivuusluokk. Lskennn vtivuusteori nt myös hyvät eväät ongelmien pluttmiseksi toisiin, jo tunnettuihin ongelmiin. (LAT, ASA) Tällä kurssill käsitellään jonkin verrn lskennn teorin ensimmäistä os-luett eli lskettvuuden teori. Aihepiirinä ovt lskennlliset ongelmt j niiden rtkisun mekniset mllit, joit kutsutn lskennn mlleiksi. Käsittelemme kht eri lskennn mlli äärellisiä utomttej j pinoutomttej sekä tutkimme, mitä kullkin mllill voidn rtkist. Kurssin loppupuolell esitellään lyhyesti myös Turingin koneet (joist enemmän kurssill LAT). Lskettvuuden teorist Lskennn mekninen mlli, utomtisointi, trkoitt tämän kurssin knnlt lgoritmin esittämistä. Intuitiivisesti lgoritmi kuv tietojenkäsittelyprosessin niin täsmällisesti, että se voidn tämän kuvuksen perusteell suoritt meknisesti (ilmn luov jttelu ). Meknisen lskennn trkemmksi määrittelemiseksi, eli lgoritmikäsitteen mtemttiseksi formlisoimiseksi, on kksi lähestymistp: 1. Lähdetään liikkeelle tyhjästä j mietitään, mitä voidn pitää meknisen lskentn. 2. Otetn lähtökohdksi nykyiset tietokoneet, jotk selvästi suorittvt meknist lskemist, j pelkistetään pois epäolennisuudet. Kosk mekninen lskent on keskeistä mtemtiikn perusteiden trksteluss, mtemtikot j loogikot miettivät si pljon 1930-luvull. He sovelsivt luonnollisesti lähestymistp 1 kosk tietokoneit ei silloin vielä ollut. 5

Jos ts hlutn sovelt tuloksi käytännön tietojenkäsittelyyn, lähestymistp 2 tuntuisi lupvmmlt. Tämä on oleellisesti se tp, jot käytettiin esimerkiksi kurssill TRA, kun siellä lskettiin symptoottisi resurssitrpeit eli O-rvioit. Onneksi osoittutuu, että lähestymistvt 1 j 2 johtvt smn lgoritmikäsitteen formlisointiin. Siis mtemttist logiikk j tietokoneit koskevill peritteellisill rjoituksill on syvällinen yhteys. Lskettvuuden teori trkstelee näitä rjoituksi, eli sitä millisille ongelmille on olemss rtkisulgoritmi. Automttiteori Kun on stu vlmiiksi bstrkti mlli tietokoneelle, voidn kysyä, mikä muuttuu, jos mllist jätetään jokin piirre pois. Rjoitettujen mllien trksteleminen utt ymmärtämään yleisempiä mllej. Äärellinen utomtti on hyvin yksinkertinen (bstrkti) lskentlite, joll kuitenkin voi tehdä mielenkiintoisi sioit. Teoreettisen mielenkiinnon lisäksi se on hyödyllinen käytännössä ohjelmointi- j mllinnustekniikkn. Kontekstittomt kieliopit ovt hiemn äärellisiä utomttej ilmisuvoimisempi meknismi, joll on tärkeitä sovelluksi esimerkiksi ohjelmointikielten määrittelemisessä j kääntämisessä j luonnollisen kielen mllintmisess. 3.1 Lskennlliset ongelmt Lskennllinen ongelm = mikä thns tehtävä, jok voidn mllint rtkistvksi digitlisell tietokoneell. (Kuv 1.) Lskennllisi ongelmi: kokonislukujen kertolsku kirjstokortiston kkostminen yrityksen plknlskent yliopistollisen kurssin kurssitietojen ylläpito nnetun kokonislukulistn järjestäminen... Ongelmn rtkisev ohjelm on sen yksi esitystp. Mihin sijoittuu ongelm Onko oikein huijt tentissä? Jos mielestäsi tentissä huijminen on kikiss olosuhteiss väärin, niin silloin ongelm on trivilisti lskennllinen j tehokksti rtkistviss: Tietenkin voidn kirjoitt ohjelm, jok ei lue syötettään, vn tulost heti Ei!. 6

ONGELMA LASKENNALLINEN ONGELMA EI LASKENNALLINEN ONGELMA RATKEAVA ONGELMA RATKEAMATON ONGELMA TEHOKKAASTI RATKAISTAVISSA TEHOKASTA RATKAISUA EI OLE MISSÄ NÄIDEN VÄLINEN RAJA KULKEE? OSITTAIN RATKEAVA TÄYSIN RATKEAMATON (useit eri steit) Kuv 1: Ongelmien hyvin krke luokittelu Jos ts mielestäsi tentissä huijminen voi oll oikein joisskin lieventävissä olosuhteiss niin silloin on mietittävä jtkokysymystä Voiko nämä olosuhteet kuvill tyhjentävästi snllisesti? Jos mielestäsi näiden olosuhteiden kikki relevntit spektit voi kuvill vikkp jollkin sopivll logiikll, niin silloin ongelm on lskennllinen: Jos olosuhteet ovt kuten tämä kv φ kuvilee, niin onko silloin oikein huijt tentissä viko ei? Tämä φ on se syöte, jok luetn, j jonk perusteell rtkistn onko vstus Kyllä! viko Ei!. Ongelm on rtkev, jos tämä käytetty logiikk on riittävän yksinkertinen; muuten rtkemton. Esimerkiksi luselogiikk on rtkev, predikttilogiikk rtkemton. Vikk ongelm olisikin rtkev, se tuskin on tehokksti rtkistviss; looginen päättely on yleensä työlästä tietokoneellekin. Esimerkiksi luselooginen päättely on NP-vike eli luultvsti työlästä. Jos ts ktsot todellisuuden olevn niin monimutkinen j hienosyinen, että on mhdotont kuvill loogisesti kikki tälliseen morliseen päätöksentekoon vikuttvi spektej, niin silloin ongelm ei ole lskennllinen: Silloin meillä ei ole riittävän ilmisuvoimist kieltä joll voisimme kuvill olosuhteet riittävän kttvsti j trksti syötekvksi φ. Siis lgoritminen tietojenkäsittely eli lskent on oleellisesti syntktist mnipulointi. Ongelmn esitys Lskennllinen ongelm = kuvus äärellisesti esitettävien tpusten joukost äärellisesti esitettävien vstusten joukkoon Ongelmll on potentilisesti ääretön joukko tpuksi ( syötteitä ). 7

Syötteet Tulosteet π (1,1) (1,3)... (2,2) (2,4)... (1,2) (2,3) jne. 1 3 4 8... 2 6 Kuv 2: Kertolskuongelmn syötteet j tulosteet. Ongelmn rtkisu on lgoritmi, jok liittää kuhunkin tpukseen sen oiken vstuksen ( tulosteen ). Jokisen yksittäisen tpuksen j sen vstuksen on oltv äärellisesti esitettäviä (muutenhn lskent ei päättyisi). Esimerkki 1. Kokonislukujen kertolskuongelmss (kuv 2) tpuksi ovt kikki kokonislukuprit (p, q) (merkkijonoiksi koodttun) vstus nnetulle tpukselle on kyseisen lukuprin tulo p q (merkkijonoksi koodttun) rtkisu on mikä thns yleinen kertolskulgoritmi (esimerkiksi kouluss opittu lkkin lskeminen ). Äärellinen esitys Kikki tietokoneen käsittelemä tieto täytyy viime kädessä koodt bittijonoiksi. On luontev slli koodukseen käytettävän myös muit merkkejä kuin bitit 0 j 1 (kosk nämä muut merkit voidn tietenkin trvittess edelleen esittää bittijonoin). Määritelmä: äärellinen esitys = äärellisen pituinen merkkijono (eli jono merkkejä) josskin äärellisessä kkostoss. Peruskäsitteitä: Akkosto Akkosto on äärellinen, epätyhjä joukko lkeismerkkejä eli symboleit. Esimerkiksi binäärikkosto B = {0, 1} j ltinlinen kkosto {A, B, C,..., Z}. Akkosto voidn määritellä ihn miten hlutn, esim: {HiiriVsenNppi, HiiriOikeNppi, HiiriKeskiNppi, HiiriRullYlös, HiiriRullAls}. 8

Peruskäsitteitä: Merkkijonot Merkkijono (eli sn) on äärellinen järjestetty jono jonkin kkoston merkkejä. Esim. 01001 j 000 ovt binäärikkoston B merkkijonoj, j LAP j XYZZY ovt ltinlisen kkoston merkkijonoj. Merkintä Σ trkoitt kikkien niiden merkkijonojen joukko, jotk voidn muodost nnetun kkoston Σ eli merkkien merkeistä. Siis B = {ε, 0, 1, 00, 01, 10, 11, 000,... }. Tyhjä merkkijono ε ei sisällä yhtään merkkiä. (Huom! Eri si kuin välilyönti ). Merkkijonon x pituus x on siihen sisältyvien merkkien määrä. Esim. 01001 = XYZZY = 5 j ε = 0. Merkkijonojen ktenointi j kääntäminen Ktentio on merkkijonojen kirjoittmist peräkkäin, esimerkiksi: jos x = 00 j y = 11, niin xy = 0011 j yx = 1100; kikill x on xε = εx = x; kikill x j y on xy = x + y. Toisto eli merkkijonon ktentio itsensä knss voidn merkitä potenssin: 3 = (b 2 ) 3 = (bb) 3 = bbbbbb. Itse siss merkintä (...) voidnkin luke toisto mielivltisen (mutt äärellisen) mont kert. Käänteismerkkijono x R Esim. (bbc) R = cbb. on merkkijono x kirjoitettun tkperin. 3.2 Päätösongelmt j formlit kielet Yleisesti lskennllinen ongelm π on kuvus eli funktio π : Σ Γ joss Σ j Γ ovt kkostoj: syötekkosto Σ on se joll kysymys, j tuloskkosto Γ on se joll vstus kirjoitetn. Päätösongelmt ovt lskennllisten ongelmien liluokk, joss kunkin ongelmn tpuksen vstus on kyllä ti ei. Formlisti päätösongelm on muoto π : Σ B. Intuitio: Yksinkertistetn mutkikst yleiskäsitettä tietokoneohjelm selliseksi, jok... 1. lukee syötteenä smns tekstitiedosto 9

Σ A π A 0 1 Kuv 3: Kielen A Σ päätös- eli tunnistusongelm π A. 2. käsittelee sitä (eräjon, siis omin päin keskustelemtt käyttäjän knss tms.) 3. tulost lopuksi vstuksenn kyllä ti ei. Esimerkiksi päätösongelm onko nnettu kymmenjärjestelmän luku lkuluku? voidn esittää syötekkoston Σ = {0, 1, 2,..., 9} kuvuksen π : Σ B { 1 jos merkkijonon x esittämä luku on lkuluku, π(x) = 0 jos ei. Yleisesti, jokist päätösongelm π : Σ B vst merkkijonojoukko A π = {x Σ π(x) = 1} eli niiden ongelmn tpusten joukko, joihin vstus on kyllä. Kääntäen, jokist merkkijonojoukko A Σ vst päätösongelm (kuv 3) { 1, jos x A; π A : Σ {0, 1}, π A (x) = 0, jos x / A. Tätä π A kutsutn joukon A krkteristiseksi funktioksi kosk se kertoo kuuluuko nnettu x Σ joukkoon A viko ei. Akkoston Σ (formli) kieli on mikä thns merkkijonojoukko A Σ Olemme kiinnostuneit siitä, kuuluuko nnettu merkkijono nnettuun merkkijonojoukkoon, eli kuuluuko nnettu sn nnettuun kieleen. Kielen A Σ tunnistusongelm on merkkijonojoukkoon A liittyvä päätösongelm π A : Tässä on merkkijono x Σ. Päteekö x A? Jtkoss käsittelemme vin päätösongelmi. Huom että tämä ei peritteess ole rjoitus, kosk monimutkisemmt kysymykset voi in pilkko joukoksi kyllä-ei -kysymyksiä... 10

Esimerkiksi monimutkisempi kysymys Mikä on lukujen x j y tulo? voidn pilkko kysymyksiin Onko lukujen x j y tulo = z viko ei? Esimerkki 2. Olkoon A kkoston {+,, 0, 1, 2,..., 9} kieli, jok koostuu yksinkertisist kokonislukuvkioist (esim. Jv-kielessä). Siis 0 A, +7326 A j 32 A, mutt 2 + 3 A. Tämä kieli A on esimerkki säännöllisestä kielestä. Esimerkki 3. Olkoon B kkoston {+,,, (, ), 0, 1, 2,..., 9} kieli, jok koostuu lillisist kokonislukulusekkeist. Esim. 1 + 1 B j (1 + 2 + 3) 4 5 B, mutt (1 + 2)) B j 3+ B. Tämä kieli B on esimerkki kontekstittomst kielestä. Esimerkki 4. Muodostukoon ASCII-kkoston kieli C niistä Jv-kielisistä ohjelmist, jotk tyhjällä syötetiedostoll joutuvt ikuiseen silmukkn. Kieli C on esimerkki rtkemttomst kielestä. Sitä siis ei void tunnist millään tietokoneohjelmll. Esimerkki 5. Kieli { k k N } on säännöllinen; kieli { k b k k N } on kontekstiton; kieli { k b k c k k N } on kontekstillinen (eli sen kuvminen vtii kontekstitont voimkkmmn kieliopin). Ongelmn vikeuden rviointi päätösongelmll Trkstelln mielivltist lskentongelm π: Syötteellä x, plut y = π(x) j vstv päätösongelm: Päteekö syötteellä (x, y), että y = π(x)? Tätä vst kielen tunnistmisen ongelm. L π = {(x, y) y = π(x)} Ongelm π voisi esim. oll neliöjuuren lskent π(x) = x ). (vikk lspäin pyöristäen, eli Tiedämmekö yleisesti jotin näiden välisestä suhteest? Jos lskentongelm π on rtkev, on sitä vstv päätösongelm myös rtkev: Syötteellä (x, y) voidn ensin lske z = π(x), minkä jälkeen riittää trkist onko z = y. Kääntäen: Jos päätösongelm ei ole rtkev, myöskään vstv lskentongelm ei ole rtkev. Lskentongelmn pluttminen päätösongelmn Toislt lskentongelmn voi rtkist soveltmll vstvn päätösongelmn rtkisu (M 3, kuv 4). Jos päätösongelm (komponentti M 3 ) on rtkev niin ongelmkin on rtkev helppo (josskin mielessä) niin ongelmkin on helppo (smss mielessä; inkin jos testttvi rtkisuehdokkit y ei ole liik). 11

input x M 1 M 3 Aset Onko y = 0 π(x) = y on M 4 Tulost rtkisu y ei Generoi seurv y M 2 Kuv 4: Lskentongelm päätösongelmn. Kurssin rtkevuustuloksi Erityisesti, jos kieli A kuuluu säännöllisiin kieliin, niin sen tunnistusongelm π A voidn rtkist helposti rkentmll sen rtkisev äärellinen utomtti; kontekstittomiin niin rkentmll pinoutomtti; rekursiivisiin niin rkentmll Turingin kone. Jos kieli A ei kuulu edes rekursiivisiin kieliin, niin sen π A ei ole rtkev linkn. Silloin se voi oll joko osittin rtkev eli voidn tehdä Turingin kone jok os vstt kyllä mutt ei -vstuksen sijst voi myös jäädä ikuiseen silmukkn, ti sitten vieläkin vikempi jolloin se ei enää ole tietojenkäsittelyn vn esimerkiksi mtemttisen logiikn ongelm. Päätösongelmien rtkisemisest käytännössä Käytännössä päätösongelmn rtkiseminen ei useinkn poikke pljon vstvn lskentongelmn rtkisemisest. Hrvoin esim. voidn tehdä päätöstä vikkp jonkin reitin olemssolost ilmn että löydetään sellinen (mikäli on olemss). Kurssill käsiteltäviin tunnistusmenetelmiin liitetään käytännössä yleensä myös muut lskent. Esimerkiksi tietokoneohjelmn syntksin trkistminen kontekstittomn kielen tunnistusongelm. Ohjelmn jäsennyksen yhteydessä kuitenkin yleensä myös tuotetn käännöksen kohdekoodi (ti siihen trvittvt tietorkenteet). Kielten vikeusluokt Chomskyn kielihierrki (kuv 5) määrittelee seurvt kielten vikeusluokt: Tyyppi 3: säännölliset kielet (erikoistpuksenn äärelliset kielet). 12

rtkemttomt ongelmt tyyppi 0: rjoittmttomt kielet rekursiivisesti lueteltvt kielet tunnistus: universli Turingin kone (pysähtyy "kyllä" tpuksess) rekursiiviset kielet tunnistus: Turingin kone + riittävän mittinen työnuh (pysähtyy in), RAM kone, ohjelmointikielet tyyppi 1: kontekstiset kielet tunnistus: Turingin kone + kohtuullisen (eli polynomisen) mittinen työnuh tyyppi 2: kontekstittomt kielet tunnistus: pinoutomtti tyyppi 3: säännölliset kielet; tunnistus: äärellinen utomttivkiomäärä muisti äärelliset kielet Kuv 5: Chomskyn kielihierrki. Tyyppi 2: kontekstittomt kielet (ti yhteysvpt ti yhteydettömät ). Tyyppi 1: kontekstilliset kielet (ti kontekstiset ti yhteyksiset ). Tyyppi 0: rjoittmttomt kielet = rekursiiviset j rekursiivisesti lueteltvt (ti rekursiivisesti numeroituvt ) kielet. Nom Chomsky on merkittävä kielitieteilijä. Niinpä hänen hierrkissn on vstv kieliopillinen näkökulm: esimerkiksi kontekstittomill kielillä on suor yhteys tietynlisiin formleihin kielioppeihin j kontekstillisillä kielillä sellisiin kielioppeihin, joiss huomioidn myös luseyhteys. Esimerkki 6. Joillekin yksinkertisille ohjelmointikielille (kuten Pscl) pätee Leksiklisesti oikeiden ( muodostuu oikeist snoist ) ohjelmien joukko voidn esittää säännöllisillä kielillä ( oikelle linerinen kielioppi ). Syntktisesti oikeiden ( snt järkevässä järjestyksessä ) ohjelmien joukko voidn esittää kontekstittomill kielillä. Kontekstilliset j rekursiiviset kielet eivät kuulu kurssin lueeseen, mutt näillä voitisiin kuvt ohjelmn suorittm lskent... Toislt kikkien ohjelmien joukko jotk rtkisevt jonkin ongelmn ei voi kuvt kieliopill. Rjoittmttomt kielet koostuvt rekursiivisist kielistä, joiden tunnistusongelm on rtkev 13

Lskennlliset ongelmt Kikki binäärijonot Σ={0,1} Päätösongelmt Lilliset konekieliohjelmt Rtkevt päätösongelmt Päätösongelmien rtkisuohjelmt Kuv 6: Lskennlliset ongelmt vs. ohjelmt. rekursiivisesti lueteltvist kielistä, joiden tunnistusongelm on osittin rtkev. Sellisell kielellä on ohjelm, jok tulost sen merkkijonot luettelon x 0, x 1, x 2,.... 3.3 Lskennllisten ongelmien rtkevuus Läheskään kikki lskennllisi(kn) ongelmi ei void rtkist tietokoneell yksinkertisesti jo siksi, että ongelmi on ylinumeroituvn mont ( yhtä mont kuin relilukuj R ) mutt rtkisuohjelmi vin numeroituvn mont ( yhtä mont kuin luonnollisi lukuj N ). Perustelu... 1. Tietokoneohjelmt ovt merkkijonoj. 2. Minkä thns kkoston merkkijonojen joukko on numeroituv (luse 1). 3. Ongelmn rtkisevi tietokoneohjelmi on korkeintn numeroituv määrä. 4. Lskennllisi ongelmi on vähintään yhtä pljon kuin päätösongelmi. 5. Minkä thns kkoston päätösongelmien joukko on ylinumeroituv (luse 2). 6. Lskennllisi ongelmi on ylinumeroituvn mont. 7. Jokiselle lskennlliselle ongelmlle ei millään riitä sen rtkisev tietokoneohjelm. Akkoston merkkijonoj on numeroituv määrä Luse 1. Minkä thns kkoston Σ merkkijonojen joukko Σ on numeroituv. Todistus: Olkoon Σ = { 1, 2,..., n }. Kiinnitetään merkeille jokin kkosjärjestys, esim. 1 < 2 < < n. Joukon Σ merkkijonot voidn järjestää seurvsti (knoniseen järjestykseen): 14

1. Ensin luetelln 0:n mittiset merkkijonot (= ε), sitten 1:n (= 1, 2,..., n ), sitten 2:n (= 1 1, 1 2, 1 3,..., 1 n, 2 1, 2 2, 2 3,... ) jne. 2. Kunkin pituusryhmän sisällä merkkijonot luetelln kkosjärjestyksessä. Jokiseen merkkijonoon voidn siis liittää yksikäsitteinen luonnollinen luku, joten Σ on numeroituv. Kuvttu luonnollisten lukujen j merkkijonojen vstvuus luseess 1: 0 ɛ 1 1 2 2. n n n + 1 1 1 n + 2 1 2. 2n 1 n 2n + 1 2 1. 3n 2 n. n 2 + n n n n 2 + n + 1 1 1 1 n 2 + n + 2 1 1 2 Päätösongelmi on ylinumeroituv määrä Luse 2. Minkä thns kkoston Σ päätösongelmien joukko on ylinumeroituv. Todistus: Merkitään kkoston Σ kikkien päätösongelmien kokoelm Π = {π π on kuvus Σ B}. Tehdään vstväite: Oletetn, että Π onkin numeroituv, eli että on olemss numerointi Π = {π 0, π 1, π 2,...}. Olkoot Σ :n merkkijonot knonisess järjestyksessä lueteltuin x 0, x 1, x 2,... Muodostetn uusi päätösongelm ˆπ: { 1, jos ˆπ : Σ πi (x B, ˆπ(x i ) = i ) = 0; 0, jos π i (x i ) = 1. Kosk oletuksen mukn ˆπ Π (kosk Π on kikkien päätösongelmien joukko), niin ˆπ = π k jollkin k N. Tällöin { 1, jos πk (x ˆπ(x k ) = k ) = ˆπ(x k ) = 0; 0, jos π k (x k ) = ˆπ(x k ) = 1. Tämä on ristiriit. Siis vstoletus, että joukko Π on numeroituv, on väärä. 15.

Todistus 2 kuvn: Ajtelln (ääretöntä) tulukko ongelmist π 0, π 1, π 2,... j merkkijonoist x 0, x 1, x 2,.... Ongelm ˆπ poikke kikist muist ongelmist π i tulukon digonlill, vikk i ksvisi äärettömään: ˆπ π 0 π 1 π 2 π 3 x 0 0 0 0 1 1 0 x 1 0 1 0 0 0 x 2 1 1 1 1 1 x 3 0 0 0 0........ Suomeksi: ˆπ ei voi esiintyä tulukon millään srkkeell, joten päätösongelmi (j yleisemmin lskennllisi ongelmi) on ylinumeroituv määrä. (Eli ˆπ ero jokisest srkkeest inkin yhdessä koht.) Tämä todistustekniikk on ns. Cntorin digonlirgumentti, joll hän todisti, että relilukuj 0 x < 1 on idosti enemmän kuin luonnollisi lukuj. Käytännössä tämä merkitsee sitä, että kikist lskentongelmist voidn esimerkiksi Jv-ohjelmill rtkist vin häviävän pieni os: ylinumeroituvn joukon numeroituv osjoukko. Sm pätee kikill ohjelmointikielillä, sillä kikki riittävän vhvt ohjelmointikielet määrittävät täsmälleen smn rtkevien ongelmien luokn (ns. Churchin Turingin teesi; Tämä teesi pätee jop hypoteettisiin kvnttitietokoneisiin, vikk ne vikuttvtkin rtkisevn joitkin lskenttehtäviä oleellisesti tehokkmmin kuin muut lskentmllit.). Useimmt lskennlliset ongelmt ovt siis bsoluuttisesti rtkemttomi. Vlitettvsti rtkemttomt ongelmt käsittävät myös moni mielenkiintoisi / käytännöllisiä ongelmi, erityisesti pysähtymisongelmn: jos on nnettu ohjelm P j sen syöte w, niin pysähtyykö ohjelmn P lskent syötteellä w vi jääkö se ikuiseen silmukkn? (Tämä ongelm on kuitenkin osittin rtkev... ) 3.3.1 Pysähtymisongelmn rtkemttomuus Näimme edellä, että vltos päätösongelmist on rtkemttomi lskemll, että niitä on pljon enemmän kuin rtkisulgoritmej. Osoitetn nyt yksi konkreettinen päätösongelm rtkemttomksi eli että rtkemttomuus on joidenkin oikeidenkin ongelmien piirre, eikä pelkkä mtemttinen ilmiö. 16

Kiinnitetään lskentmlliksemme vikkp C-ohjelmointikieli. Church Turingin teesin nojll sm pätee myös muillkin yhtä ilmisuvoimisill lskentmlleill. Pysähtymisongelmn C-kielinen tulkint on: Ei ole olemss totlist (in pysähtyvää) C-ohjelm, jok rtkisisi, pysähtyykö nnettu C-ohjelm P nnetull syötteellä w. Tehdään vstoletus, että voitisiinkin kirjoitt totlinen C-funktio bool h(chr p[],chr w[]) jonk syöteprmetrit ovt p: merkkijono, jok sisältää tutkittvn C-kielisen ohjelmn P lähdekoodin w: merkkijono, jok sisältää tutkittvn syötteen w j jonk tulos on true jos ohjelmn p suoritus syötteellä w pysähtyisi flse jos se jäisi ikuiseen silmukkn. Vstoletust käyttäen voitisiin kirjoitt toinen C-funktio void g(chr p[]){ if (h(p,p)) while (true); } jok siis pysähtyy täsmälleen silloin, kun C-lähdekoodi p ei pysähtyisi sdessn syötteenään omn itsensä. Olkoon q tämän funktion g lähdekoodi merkkijonon. Mitä tphtuu kutsuss g(q)? Sdn hluttu ristiriit: g(q) pysähtyy h(q,q) plutt flse g(q) ei pysähdykään! Niinpä tehty vstoletus ei pädekään. Tässä todistuksess istutetn ns. vlehtelijn prdoksi Tämä luse on vlhett! totuuden sijst lskennn pysähtymiseen. Sm ide käytti jo Kurt Gödel kuuluisiss epätäydellisyysluseissn istuttmll se totuuden sijst todistuvuuteen: Tällä väitteellä ei ole todistust! 17

4 Säännölliset kielet j äärelliset utomtit Äärellinen utomtti (engl. Finite (Stte) Automton, FSA (ti FA)) on hyvin yksinkertinen lskennn mlli (eli bstrkti lskentlite). Säännölliset kielet (engl. regulr lnguges) on se luokk lskentongelmi, jonk näin yksinkertisell litteell pystyy rtkisemn. Näillä on sovelluksi esim. tekstihuss j ohjelmien syötteiden tunnistmisess. Tvoitteet: oppi mitä ovt äärelliset utomtit j säännölliset lusekkeet j mikä on niiden välinen suhde muodostmn yksinkertisi äärellisiä utomttej j säännöllisiä lusekkeit (engl. regulr expressions) tekemään muunnoksi determinististen j epädeterminististen äärellisten utomttien j säännöllisten lusekkeiden välillä. osoittmn kieli joko säännölliseksi ti ei-säännölliseksi. Esimerkki 7. Khviutomtti, jok ei nn vihtorh, hyväksyy vin 50 sentin j yhden euron kolikoit j minimimksu on 2 euro. Millisi syötejonoj khviutomtti hyväksyy? Kelvollisi syötejonoj ovt esim. seurvt (yksikkönä snt): 50 + 50 + 50 + 50 100 + 100 50 + 100 + 100 100 + 50 + 50 + 100 Ts. khviutomtti hyväksyy syötejonot, jotk ovt muoto 50 senttiä + 50 senttiä + 50 senttiä + 50 senttiä + [0 ti usempi 50 sentin ti 1 euron kolikoit] 1 euro + 1 euro + [0 ti usempi 50 sentin ti 1 euron kolikoit] 50 senttiä + 1 euro + 1 euro + [1 ti usempi 50 sentin ti 1 euron kolikoit] 1 euro + 50 senttiä + 50 senttiä + 1 euro + [1 ti usempi 50 sentin ti 1 euron kolikoit] jne... Khviutomtin toimint voidn kuvt äärellisenä utomttin. Automtin syötteitä ovt 50 sentin j 1 euron kolikot j utomtti hyväksyy syötejonon, jos siihen sisältyvien rhojen summ on vähintään 2 euro Automtti voidn esittää tilsiirtymäkvion (kuv 7). 18

50, 100 q 100 0 q 2 100 q 4 50 50 50 50, 100 q 1 100 q 3 Kuv 7: Khviutomtti. Tämä kvio on suunnttu verkko jonk kret on pinotettu syötekkosill. Automtill on tiloj (5 kpplett), jotk on esitetty ympyröinä j nimetty q 0,... q 4, siirtymiä jotk on esitetty tilojen välisinä krin; kkosto jonk symboleill siirtymät on merkitty; lkutil (til q 0 ) jok on merkitty tyhjästä tulevll krell; j lopputil (til q 4 ) jok on rengstettu. Tilojen nimet ovt vpvlintisi, utomtin toimintn ne eivät vikut. Jokiseen kuvn 7 khviutomtin tiln liittyy se tilnne, johon syötetyt lntit ovt koneen settneet: q 0 : Asiks ei ole syöttänyt vielä yhtään rh lkutil(nne) joss lite on, kun siks tulee sen luo j lk syöttää siihen lnttejn q 1 : Asiks on syöttänyt tsn 50 senttiä rh. q 2 : Asiks on syöttänyt tsn 1 euro rh. q 3 : Asiks on syöttänyt tsn 1 euro 50 senttiä rh. q 4 : Asiks on syöttänyt vähintään 2 euro rh joten lite voi hyväksyä sneens trpeeksi rh, j ryhtyä nnostelemn khvi. Kun nnetn tehtäväksi suunnitell utomtti hyväksymään jonkin formlin kielen A Σ niin knntt miettiä 1. ensiksi mitä tilnteit utomtin pitää muist, jott se voisi tehdä oiken päätöksen siitä, kuuluuko sen nykyinen syöte x Σ kieleen A viko ei. Näin sdn utomttiin trvittvt tilt. Kuvn 7 khviutomtiss muistetn tähän mennessä syötetty rhsumm. 2. toiseksi miten näiden tilnteiden välillä siirrytään, kun syötettä x luetn merkki merkiltä. Näin sdn utomttiin trvittvt siirtymät. Kuvn 7 khviutomtiss jokinen lntti on om merkkinsä, j se vie nykyisestä rhsummst seurvn. 19

q Til q q 0 Alkutil Lopputil eli hyväksyvä til q q Tilsiirtymä δ(q, ) = q Kuv 8: Tilsiirtymäkvion merkinnät. 4.1 Äärellisen utomtin esitystpoj Tilsiirtymäkvion eli kuvien 7 j 8 mukisen piirroksen. Tilsiirtymätulukkon joss jokisell tilll on om rivinsä jokisell syötekkosell on om srkkeens tiln p srke c ilmoitt tiln (eli rivin) jonne siirrytään tilst p merkillä c. Kuvn 7 khviutomtin tilsiirtymätulukko: 50 snt 1 euro q 0 q 1 q 2 q 1 q 2 q 3 q 2 q 3 q 4 q 3 q 4 q 4 q 4 q 4 q 4 50, 100 q 100 0 q 2 100 q 4 50 50 50 50, 100 q 1 100 q 3 Esimerkki 8. Etumerkillisen kokonisluvun tunnistminen. Tilsiirtymäkvion (joss d = {0, 1,..., 9} ovt 10-järjestelmän lukumerkit): 20

d +, d q 0 q 1 q 2 d Tilsiirtymätulukkon: d +, q 0 q 2 q 1 q 1 q 2 q 2 q 2 Tulukon puuttuvt kohdt vstvt virhetil Error. Tehtävä 1. C-kielessä 0-lkuiset luvut tulkitn oktliluvuiksi (jolloin merkkejä 8 j 9 ei sllit linkn), j 1... 9-lkuiset 10-kntisiksi luvuiksi. Muut esimerkin 8 utomtti siten, että nämä tpukset erotelln, eli että ne johtvt eri hyväksyviin tiloihin. Tehtävä 2. (Jtko tehtävään 1.) C-kielessä 0x-lkuiset luvut tulkitn heksdesimliluvuiksi. Ot tämäkin huomioon. Ohjelmn (esim. C:llä): int q=0; int c; while ((c=fgetc(stdin))!= EOF) switch (q) { cse 0: if (c== + c== - ) q=1; else if (isdigit(c)) q=2; else q=3; brek; cse 1: if (isdigit(c)) q=2; else q=3; brek; cse 2: if (isdigit(c)) q=2; else q=3; brek; cse 3: brek; } Esimerkki 9. C-kielen etumerkittömän liukulukuvkion tunnistus: d. E, e +, 1 3 2 2 4 3 3 4 5 4 4 5 5 7 6 6 7 7 7 21

1. d 2 3. d e,e 4 d e,e 5 d 7 d d +, 6 d 4.2 Äärellisen utomtin formli määrittely Äärellinen utomtti M koostuu seurvist osist: ohjusyksiköstä joss on äärellinen määrä tiloj j jonk toimint ohj utomtin siirtymäfunktio δ syötenuhst jok on jettu yhden syötemerkin kokoisiin pikkoihin. nuhpäästä jok kullkin hetkellä osoitt yhtä syötenuhn merkkipikk. i n p u t q 1 q 2 q 0 δ Automtin toimint Automtti käynnistetään erityisessä lkutilss q 0, siten että trksteltv syöte on kirjoitettun syötenuhlle j nuhpää osoitt sen ensimmäistä merkkiä. Yhdessä toimint-skeless utomtti lukee nuhpään kohdll olevn syötemerkin, päättää ohjusyksikön tiln j luetun merkin perusteell siirtymäfunktion mukisesti ohjusyksikön uudest tilst, j siirtää nuhpäätä yhden merkin eteenpäin. 22

Automtti pysähtyy, kun viimeinen syötemerkki on käsitelty. Jos ohjusyksikön til tällöin kuuluu erityiseen (hyväksyvien) lopputilojen joukkoon, niin utomtti hyväksyy syötteen, muuten hylkää sen. Automtin tunnistm kieli on sen hyväksymien merkkijonojen joukko. Määritelmä 1. Äärellinen utomtti on viisikko M = (Q, Σ, δ, q 0, F ), missä Q on utomtin tilojen äärellinen joukko; Σ on utomtin syötekkosto; δ : Q Σ Q on utomtin siirtymäfunktio; q 0 Q on utomtin lkutil; F Q on utomtin hyväksyvien tilojen joukko. Siirtymäfunktio δ on määritelmän 1 kiinnostvin os. Intuitiivisesti: Jos utomtti on nyt tilss q j seurvksi tulee merkki c niin silloin siirrytään tiln δ(q, c), eli siihen jonk siirtymäfunktio ilmoitt. Toisin snoen: Siirtymäfunktion rvo δ(q, c) = tilsiirtymätulukon sisältö sen rivillä q j srkkeell c. Esimerkki 10. Kokonislukuutomtin (esimerkki 8) formli esitys on joss δ on kuten tulukoss; esim. M = ({q 0, q 1, q 2, error}, {0, 1,..., 9, +, }, δ, q 0, {q 2 }), jne. δ(q 0, 0) = δ(q 0, 1) = δ(q 0, 2) = = δ(q 0, 9) = q 2 δ(q 0, +) = δ(q 0, ) = q 1 δ(q 1, +) = δ(q 1, ) = error Automtin lskennn mtemttinen esitys Automtin tilnne on pri (q, w) Q Σ joss q = utomtin nykyinen til w = syötemerkkijonon vielä käsittelemätön loppuos. Erityisesti utomtin lkutilnne syötteellä x on pri (q 0, x) joss q 0 on utomtin lkutil. Tilnne (q, cw), joss c Σ on seurv syötemerkki, joht suorn tilnteeseen (δ(q, c), w). Tätä merkitään lyhyesti (q, cw) (δ(q, c), w). 23

Tilnne (q, w) joht tilnteeseen (q, w ) jos on olemss tilnnejono (q 0, w 0 ) (q 1, w 1 ) (q 2, w 2 ) (q 3, w 3 ) (q n, w n ) missä (q 0, w 0 ) = (q, w) j (q n, w n ) = (q, w ) (jollkin n N). Tätä merkitään lyhyesti (q, w) (q, w ). Jos hlutn merkitä näkyviin minkä utomtin M tilnnejonoist on kyse, niin voidn käyttää lindeksiä: siis M j M. Automtti M hyväksyy syötemerkkijonon x Σ, jos j muuten hylkää sen. (q 0, x) (q f, ε) jollin q f F Toisin snoen, utomtti M hyväksyy syötteen x, jos sen vstv lkutilnne (q 0, x) joht johonkin hyväksyvään lopputilnteeseen, joss koko syöte on luettu. Vstv tilnnejono (q 0, x) M (q, ε) kutsutn utomtin M lskennksi syötteellä x. Se on siis hyväksyvä lskent jos lopputil q F j hylkäävä jos q F. Vihtoehtoisesti voidn ljent siirtymäfunktion δ yksittäisiltä merkeiltä Σ kokonisille merkkijonoille w Σ (j niin teemmekin jtkoss): δ (q, w) = q silloin kun (q, w) (q, ε). (1) Siis δ (q, w) on se til, johon päästään loittmll tilst q j lukemll merkkijono w loppuun skk. Erityisesti δ (q, ε) = q j δ (q, ) = δ(q, ), kun Σ. Automtti siis hyväksyy merkkijonon w, jos δ (q 0, w) F. Tämä on helppo määritellä myös rekursiivisesti: { δ q jos w = ε (q, w) = δ (δ(q, ), v) jos w = v joss Σ Tästä sdn suorn rekursiivinen lgoritmi, jonk rekursio on niin yksinkertist (ns. häntärekursiot), että se on helppo toteutt while-silmukkn. 4.3 Säännöllinen kieli Automtti M tunnist kielen { } L(M) = x Σ (q 0, x) (q f, ε) jollkin q f F M = {x Σ δ (q 0, x) F } eli niiden merkkijonojen x joukon, jotk M hyväksyy. Snomme, että kieli A on säännöllinen, jos jokin äärellinen utomtti tunnist sen, ts. A = L(M) jollin M. 24

Huom, että säännöllisyys on kielen, eli merkkijonojoukon ominisuus, ei yksittäisen merkkijonon. Ei ole mielekästä kysyä yksittäisestä merkkijonost, onko se säännöllinen. (Mistä thns merkkijonost w Σ voidn toki muodost yksilkioinen kieli {w} Σ, jok on selvästi säännöllinen.) Esimerkki 11. Merkkijonon +1210 hyväksyminen esimerkin 8 (s. 20) kokonislukuutomtill: (q 0, +1210) (q 1, 1210) (q 2, 210) (q 2, 10) (q 2, 0) (q 2, ε) Nyt jäätiin hyväksyvään lopputiln q 2 eli +1210 L(M). Littomn merkkijonon 12 + 10 lskent onkin hylkäävä: (q 0, 12 + 10) (q 2, 2 + 10) (q 2, + 10) (error, 10) eli päädyttiin virhetiln error eli 12 + 10 L(M). Äärelliseen utomttiin voidn helposti lisätä muutkin tulostust j toimintoj kuin pelkkä hyväksyminen ti hylkääminen. Nämä ovt pelkkiä sivuvikutuksi eivätkä ne vikut utomtin toimintn siihen, miten se vlitsee tilsiirtymänsä...... ti jos ne vikuttvt, niin silloin kyseessä ei enää olekn äärellinen utomtti, vn jokin muu sitä vhvempi lskennn mlli. Tälliset modifiktiot eivät tämän kurssin knnlt tuo mitään kovin oleellist uutt sin. Muiss yhteyksissä ne voivt kuitenkin oll hyvinkin hyödyllisiä. Esimerkki 12. Lisätään esimerkin 8 etumerkillisen kokonisluvun tunnistmiseen toiminto, jok lskee luvun rvon muuttujn vlue eli muunt syötemerkkijonon sitä vstvksi kokonisluvuksi. int q=0; int c; int sign=1; int vlue=0; while ((c=fgetc(stdin))!= EOF) switch (q) { cse 0: if (c== + ) q=1; else if (c== - ) { q=1; sign=-1; } else if (isdigit(c)) { q=2; vlue=c- 0 ; } else q=3; brek; cse 1: if (isdigit(c)) { q=2; vlue=sign*(c- 0 ); } else q=3; brek; cse 2: if (isdigit(c)) { q=2; vlue=10*vlue+sign*(c- 0 ); } else q=3; brek; cse 3: brek; } 25

Sivuhuomutus: Äärellisen utomtin tämän tpinen formlimpi ljennus on nimeltään äärellinen trnsduktori (finite stte trnsducer). Tässä jokiseen tiln liittyy pitsi yhden syötemerkin lukeminen, niin myös yhden (ti usemmn) tulostemerkin kirjoittminen erilliselle tulostenuhlle (ti syötteen päälle). Ohjelmointikielten kääntämisessä ensimmäinen vihe on leksiklinen nlyysi eli selus. Trkoituksen on poimi j erotell ohjelmn lähdekoodist erityyppiset lkiot, kuten kokonislukuvkiot (rvoineen), vrtut snt (if, else, while, jne.), muuttujien nimet, jne. Siis esimerkiksi nähtyään merkit for tällinen selin lukee vielä yhden merkin c eteenpäin. Jos tämä c on jokin muuttujn nimessä sllittu merkki, niin se tietää kokovns nyt muuttujn nimeä muoto forc... ; muuten se tietääkin löytäneensä vrtun snn for j tämä c kuuluukin seurvn lkioon. Selin voidn toteutt (j usein toteutetn) yhtenä äärellisenä trnsduktorin, jok lukee lähdekooditiedosto merkki merkiltä j nähtyään jonkin kokonisen lkion tulost vstvn tiedon. Selint ei kuitenkn (yleensä) koodt käsin, vn sen koodi voidn tuott utomttisesti ohjelmointikielen kuvuksest jollin sopivll työklull (esim. lex j sen GNU-versio flex), jok myös voi utomttisesti liittää hyväksyviin tiloihin käyttäjän määrittelemän toimintokoodin (tulostuksen yms.). fredriks@cs ~$ ct ex.lex %{ #include <stdio.h> %} %option noyywrp %% [0-9]+ { printf("kokonisluku: %s\n",yytext); } lp { printf("lap!\n"); } /* Tunnistetn "lp" */. { } /* Sivuutetn muu */ %% int min(void) { yylex(); return 0; } fredriks@cs ~$ flex ex.lex fredriks@cs ~$ gcc lex.yy.c -o foo fredriks@cs ~$./foo bc123def456lpxxxxx Kokonisluku: 123 Kokonisluku: 456 LAP! Tehtävä 3. Tee prnneltu versio esimerkin 7 khviutomtist: utomtti hyväksyy vin tsrhn, mutt lisäksi siihen on lisätty sellinen peruutusnppi, jok plutt kikki syötetyt kolikot (ntmtt khvi). Tehtävä 4. Ldi kkoston Σ = {, b} äärellinen utomtti jok tunnist kielen {w w sisältää täsmälleen kksi :t}. Tehtävä 5. Edellisen komplementti: ldi äärellinen utomtti jok tunnist kielen {w w ei sisällä täsmälleen kht :t}. 26

Tehtävä 6. Ldi utomtti kielelle: {w w ei muodostu pelkästä :st ti b:stä} Tehtävä 7. Ldi utomtti kielelle: {w w ei sisällä jono b} Tehtävä 8. Osoit että kieli {(b) n n > 0} on säännöllinen. Tehtävä 9. Trkstelln kieltä, jok koostuu niistä merkkijonoist, joiss jokinen priton (eli ensimmäinen, kolms, viides,... ) merkki on. Osoit, että se on säännöllinen. Tehtävä 10. Ldi äärellinen utomtti, jok tunnist kielen L = {0 n 1 m n, m N} {1 n 0 m n, m N}. 4.4 Äärellisen utomtin lskentvoimst Kieli L 1 = {0 n 1 m n, m N} on helppo tunnist äärellisellä utomtill, eli se on säännöllinen. Äärellinen utomtti on hyvin rjoittunut lskennn mlli. Vikkp niinkin yksinkertinen kieli kuin L 2 = {0 n 1 n n N} (eli merkkijonot joiss on ensin jono nolli j sitten smn verrn ykkösiä) ei olekn säännöllinen! (Tähän pltn.) Mikä on se perustv ero näiden kielten välillä, jok tekee toisest helpon j toisest mhdottomn tunnist äärellisellä utomtill? Intuitiivisesti, kielen L 1 = {0 n 1 m n, m N} tunnistminen vtii vin vkiomäärän muisti. Kieli L 1 = merkkijonot joss on ensin pelkkiä nolli j sitten pelkkiä ykkösiä. Siis niiden lukumäärällä ei ole väliä, j riittää muist mikä oli edellinen merkki (til). Toislt, kielen L 2 = {0 n 1 n n N} tunnistmiseen ei riitäkään vkiomäärä muisti. L 2 = merkkijonot joss on ensin jokin määrä n nolli j sitten yhtä mont ykköstä. Tässä tämä yhteinen n voi oll kuink suuri thns sehän riippuu syötteen pituudest. Äärellinen utomtti -prk ehtii unoht montko noll se on nähnyt ennen kuin ykköset lkvt, kun n on riittävän suuri. Formlisoimme tämän myöhemmin niin snottun pumppuslemmn. Toislt ominisuutt vkiomäärä muisti käyttävät kikki utomttimme, esim. khviutomttimme esimerkissä 7 muist syötetyn kokonisrhsummn, jos se on < 200 senttiä. Muuten se muist vin että syötetty summ on 200 senttiä. Eli se muist vin äärellisen mont eri vihtoehto. 27

Esimerkki 13. Tunnistetn binäärijonot, joiden toiseksi viimeinen merkki on noll: 0?? 1 0 0 0 0?0 00 10?1 1 0 1 0 1 01 11 1 1 Automtti muist kksi viimeistä lukemns bittiä. Tilt on nimetty näiden mukn: tilss 01 viimeisin luettu bitti oli 1 j edeltävä oli 0. Akkostot Akkosto Σ voidn määritellä vrsin vpsti j sovellukseen sopivksi. Esim. ti Γ = {omen,päärynä,ppelsiini} Σ = {[ 0 0 0 ], [ 0 0 1 ], [ 0 1 0 ], [ 0 1 1 1 ],..., [ 1 1 1 ]}. Akkoston Σ muodostvt siis kolmebittiset binäärivektorit; Σ = 2 3 = 8. Akkoston Σ syötteitä voidn kutsu kolmiurisiksi. Esimerkiksi 4-merkkisessä syötteessä [ 0 0 0 ] [ 1 0 0 voidn mieltää kolme rinnkkist ur: 28 ] [ 0 0 1 ] [ 0 1 0 ]

ylin ur joll on 0100, keskimmäinen ur joll on 0001, j lin ur joll on 0010. Automtti lukee näitä uri smn thtiin rinnkkin, sillähän on vin yksi lukupää. Tehtävä 11. Jono kkoston Σ symbolej määrittelee kolme riviä ykkösiä j nolli. Tulkitn nämä binäärilukuin, joiss eniten merkitsevä bitti on oikell. Olkoon L = {w Σ lin rivi on khden ylemmän rivin summ} Esimerkiksi eli [ 1 1 0 ] [ 1 0 0 ] [ 0 0 1 ] L mutt [ 1 0 1 ] [ 0 0 1 ] L Osoit että tämä kieli L on säännöllinen. Rtkisu: 3 + 1 = 4 mutt 1 + 0 3. Todistetn kieli (määritelmän mukn) säännölliseksi osoittmll, että sillä on sen tunnistv äärellinen utomtti: A D B 0 1 C A = {[ 0 0 0 D = {[ 1 0 0 ] ], [ 1 0 1, [ 0 1 0 ] ], [ 0 1 1, [ 1 1 1 ]} ]} B = {[ 1 1 0 C = {[ 0 0 1 ]} ]} Tiln nimi = muistibitin (crry bit) rvo. Siirtymä suoritetn, kun muistibitin + ylimmän urn bitin + keskiurn bitin summss vähemmän merkitsevä bitti = limmn urn bitti, j enemmän merkitsevä bitti = seurv muistibitti eli kohdetil. 29

Tehtävä 12. Olkoon Σ = {[ 0 0 ], [ 0 1 ], [ 1 0 ], [ 1 1 Jono kkoston Σ symbolej määrittelee kksi ur ykkösiä j nolli. Tulkitn nämä binäärilukuin, joiss eniten merkitsevä bitti on oikell. Olkoon ]}. L = {w Σ lin rivi on kolme kert ylin rivi} Esimerkiksi [ 1 1 ] [ 0 1 ] [ 1 1 ] [ 1 0 ] [ 0 0 ] [ 0 1 ] L j [ 1 1 ] [ 0 1 ] L eli Osoit että tämä kieli L on säännöllinen. Rtkisu: 13 3 = 39 j 1 3 = 3. Smn tpn kuin edellinen tehtävä, mutt nyt muistibittejä voi oll kksi: 0 0 1 1 0 1 10 1 0 1 1 0 1 0 0 0 3 = 0, 1 3 = 3 = (11) 2, eli tulokseen tulee 1 j muistiin litetn 1. Jos muistiss on 1, j lsketn 0 3, tulokseksi tulee 1 (muistist), jos ts 1 3, tulos on 4 = (100) 2, joten tulosbitti on 0 j muistiin jää 10, jne... Tämän (j edellisen) tehtävän rtkisu tunnist kuuluuko syöte kieleen. Jos hluisi oikesti tehdä yhteenlskukoneen (ti syötteen vkioll kertovn koneen), niin rtkisu voidn helposti muutt trnsduktoriksi, jonk syötteenä luettisiin vin ylintä (j keskimmäistä) ur, j tulosteen kirjoitettisiin lint ur. (Khden syöteluvun kertolsku ei kuitenkn voine toteutt äärellisenä utomttin.) Jos ei käytettäisikään ur-kkosto, vn kkoston olisikin Σ = {0, 1, +, =}, niin kieli L = {x + y = z x, y j z ovt binäärilukuj j luku z on lukujen x j y summ} ei olekn säännöllinen: jos x j y ovt trpeeksi suuri lukuj, niin äärellinen utomtti ehtii unoht ne lukiessn syötettä. 30

4.5 Sovelluksist Äärelliset utomtit sellisenn ovt hyödyllisiä merkkijonojen käsittelyssä, mistä myöhemmin lisää... Lisäämällä tilsiirtymiin stunnisuutt sdn Mrkovin ketjut eli stunnisprosessit, joill on äärellinen muisti. Perusversioss Mrkovin ketjuihin ei tosin liity mitään syötettä. Mrkovin piilomllit (hidden Mrkov models) ovt lähempänä tässä esitettyjä äärellisiä utomttej. Tilsiirtymäjärjestelmiä käytetään (etenkin hjutettujen järjestelmien) spesifioinniss j verifioinniss. Sovellus: viestinvälitysprotokollt Erilisi protokolli voidn kuvt äärellisinä utomttein ti tilkonein. Trkstelln yksikertist vuorottelevn bitin protokoll, joss lähettäjäprosessi S j vstnottjprosessi R kommunikoivt. S lähettää pkettej d 0, d 1, d 2,.... Pketti voi hukku mtkll (kuten kuvss d 1 ). R kuitt sdun pketin (viestillään ) j S lähettää seurvn pketin lähetetään vst kun on snut edellisestä kuittuksen. Jos kuittust ei kuulu sovituss jss, niin pketti lähetään uudestn: S timeout d 0 d 1 d 1 d 2 R Ongelm: Jos kuittus hukkuu, niin R voi sd duplikttiviestin: S timeout d 0 d 1 d 1 d 2 R Rtkisu 1: Numeroidn viestit j kuittukset: timeout S d 0, 0 d 1, 1 d 1, 1 d 2, 2 R, 0, 1, 1, 2 31

Mutt tällöin trvittisiin yhä suurempi j suurempi numeroit 0, 1, 2... Protokolln prnnus Riittää käyttää kht numero (0 j 1 prillinen/priton viesti ): timeout S d 0, 0 d 1, 1 d 1, 1 d 2, 0 R, 0, 1, 1, 0 S j R voidn mllint tilsiirtymäjärjestelminä: Vuorottelevn bitin protokoll tilkonein lähettäjä S, 1 vstnottj R, 1 d, 1 timeout timeout d, 0 d, 1 d, 1 d, 0 d, 1 d, 0, 0 d, 0, 0 Jos S ei s joiss symboli, niin se lukee sen sijn timeout-symbolin. 4.6 Epädeterministiset äärelliset utomtit Epädeterminismi trkoitt, ettei koskn trvitse myöntää olevns väärässä. Anon. Epädeterministisellä utomtill siirtymäfunktio δ liittää nykyisen tiln j syötemerkin priin (q, x) äärellisen joukon vihtoehtoisi seurvi tiloj. Epädeterministinen utomtti hyväksyy merkkijonon x jos sille on olemss jokin hyväksyvä lskent. Siis se hylkää merkkijonon x vin jos kikki sen lskennt ovt hylkääviä. Ihn loogisesti: kosk niin kääntäen x hyväksytään sille on jokin hyväksyvä lskent x hylätään ei niin, että sille olisi jokin hyväksyvä lskent sen kikki lskennt hylkäävät. 32

Esimerkiksi epädeterministinen utomtti b q 0 q 1 q 2 q 3 b b hyväksyy syötemerkkijonon bbb, kosk sillä on hyväksyvä lskent (q 0, bbb) (q 0, bbb) (q 0, bb) (q 0, b) (q 1, b) (q 2, ) (q 3, ε). Sillä on myös hylkääviä lskentoj kuten (q 0, bbb) (q 0, bbb) (q 0, bb) (q 0, b) (q 0, b) (q 0, ) (q 0, ε) mutt niitä ei siis otet huomioon. Determinismi vs. epädeterminismi Deterministisessä utomtiss siirtymä trkoitt, että nykyisestä tilst mennään in kohdetiln sen δ(q, ). Epädeterministisessä utomtiss siirtymä r δ(q, ) trkoittkin, että tilst q syötemerkillä on mhdollist mennä tiln r. Mutt voi oll muitkin mhdollisuuksi s δ(q, ). Deterministinen utomtti hyväksyy, jos se ino mhdollinen lopputilnne on hyväksyvä. Epädeterministinen utomtti hyväksyy, jos on mhdollist päätyä hyväksyvään lopputilnteeseen. Eli jos on jokin tp vlit in sopivsti nykyiselle tillle q i seurv til q i+1 δ(q i, i ) siten, että syötteen 0 1 2... n loputtu olln josskin hyväksyvässä tilss q n. Tämä näyttää epäilyttävän epämekniselt: miten nykyisessä tilss q i voitisiin ost tehdä juuri oike vlint näkemättä syötteen loppuos i+1 i+2 i+3... n? Epädeterminismillä onkin erilisi tulkintoj, kuten: Spesifiktion, joss kuvilln minkäliset merkkijonot pitäisi hyväksyä, kertomtt trksti miten niiden hyväksyntä etenisi skel skeleelt. Etsintänä, joss on opertio etsi reitti tästä tilnteest johonkin hyväksyvään lopputilnteeseen. Tämä voitisiin meknisoid vikkp TRA-kurssin keinoin syvyyssuuntisen etsintänä kikkien tilnteiden verkost: 33

DFS(q, x) : 1 if merkkijono x = ε 2 then return onko til q hyväksyvä viko hylkäävä 3 else olkoon x = y joss Σ j y Σ 4 for ech r δ(q, ) 5 do if DFS(r, y) 6 then return true 7 return flse Epädeterministinen utomtti M = (..., q 0, F ) hyväksyy syötteen w jos kutsu DFS(q 0, w) plutt rvon true. Rinnkkisuuten, joss epädeterministinen utomtti seur mhdollisi lskentojn rinnkkin: Deterministinen lskent Epädeterministinen lskent...... hyväksy ti hylkää hyväksy hylkää Epädeterministiset lskennt muodostvt siis kokonisen lskentpuun, jonk hrt vstvt eri vlintkohti. Ilmisen neuvon. Epädeterministisen utomtin voidn jtell svn jokisess vlinttilnteessn Mihinköhän seurvist mhdollisist tiloist δ(q, ) minun knnttisi siirtyä? jostkin ulkopuolelt vstuksen Siirry tiln r, luot minuun! Silloin utomtin itsensä tehtäväksi jää vin vrment että sen smt neuvot olivt oikein. Ti jos jtelln etsintää, niin utomtti ei itse joudu tekemään rskst työtä, vn työn tekee neuvonntj j utomtti s työn tulokset ilmiseksi. Tämän tulkint tulee erityisen kiinnostvksi silloin kun trkstelln utomttej vhvempi lskentmllej mutt rjoitetn niille nnettvien resurssien määrää esimerkiksi P? = NP-ongelm s silloin tulkinnn jos jokin vstus voidn vrment nopesti, niin voisiko sen myös lske nopesti ilmn neuvojkin?. 34

0 b 1 2 3 b ε b Kuv 9: Epädeterministinen utomtti joss on siirtymä tyhjällä merkkijonoll. Tärkeä tulos Deterministiset ( Deterministic Finite Automt, DFA) j epädeterministiset (Nondeterministic Finite Automt, NFA) utomtit tunnistvt täsmälleen smt kielet (eli säännölliset kielet). DFA j NFA ovt ilmisuvoimltn yhtä vhvoj lskennn mllej niillä voidn hyväksyä smt kielet. Epädeterminismiä käyttämällä kielen esitystä voidn kuitenkin usein selkeyttää j yksinkertist. Epädeterministisessä utomtiss sllitn myös ε-siirtymiä kuten kuvss 9. Tällisen ε-siirtymän kuten 1 ε 2 tulkint on, että sitä pitkin pääsee tilst 1 tiln 2 lukemtt yhtään syötemerkkiä. 0 Esimerkkinä kuvn 9 utomtti j syöte bbb Vknuolet kuvvt ε-siirtymiä, joiss ei siis luet syötettä. Automtti hyväksyy syötteen, kosk sillä on kksikin hyväksyvää lskent. b b b 0 0 1 2 0 1 2 3 0 2 2 0 1 2 3 3 Seurv NFA hyväksyy kkoston {, b, c} merkkijonot, joiss on osjonon ensin bb j sen jälkeen c ti c. Huom konstruktion modulrisuus: ε-siirtymien vull utomtti voidn muodost helposti osrtktkisuist 35

,b,c,b,c ε "bb moduuli" b b "mitä thns moduuli" ε ε "c moduuli" c ε,b,c ε c ε "c moduuli" Määritelmä 2. Epädeterministinen äärellinen utomtti on viisikko M = (Q, Σ, δ, q 0, F ) joss Q on äärellinen tilojen joukko, Σ on äärellinen syötekkosto, δ : Q Σ P(Q) on joukkorvoinen siirtymäfunktio siis sen rvot δ(q, ) Q ovt tiljoukon Q osjoukkoj q 0 Q on lkutil j F Q hyväksyvien lopputilojen joukko. Muist: Mtemtiikss merkintä P(S) (joskus myös 2 S ) trkoitt joukon S potenssijoukko {X X S} eli kikkien niiden joukkojen X joukko, jotk voidn muodost joukon S lkioist. Esimerkiksi Esimerkki 14. P({,, }) = {, { }, { }, { }, {, }, {, }, {, }, {,, }}. b q 0 q 1 q 2 q 3 b b b q 0 {q 0, q 1 } {q 0 } q 1 {q 2 } q 2 {q 3 } q 3 {q 3 } {q 3 } Nyt virhetilnne on helposti ilmistviss tyhjän seurjtiljoukon vull. Siirtymätulukoss voidn jättää joukkosulut poiskin: siis joukko {q 0, q 1 } voidn merkitä myös suorn sen lkioiden listn q 0, q 1. Tilnne (q, w) voi joht suorn tilnteeseen (q, w ), jot merkitään smoin kuin ennen eli (q, w) (q, w ), jos w = w j q δ(q, ). Silloin (q, w ) on tilnteen (q, w) M mhdollinen välitön seurj. Muutoin määritelmät epädeterministisille utomteille ovt smt kuin iemmin. 36

Tärkeän tuloksemme DFA NFA perustelu : Selvästikin deterministiset utomtit ovt epädeterminististen erikoistpus joss in δ(q, ) 1. Siten kikki edellisillä tunnistettvt kielet ovt tunnistettviss myös jälkimmäisillä. : Mutt myös kääntäen (j tämä on se yllättävämpi j vikempi suunt): Jokiselle epädeterministiselle utomtille M on olemss smn kielen tunnistv deterministinen utomtti M. Tämä osoitetn myöhemmin kehittämällä menetelmä, joll syötteenä sdust utomtist M voidn muodost sitä vstv M eli menetelmä determinisoid M. Tehtävä 13. Ldi sellinen kkoston Σ = {, b} epädeterministinen utomtti, jok hyväksyy täsmälleen ne merkkijonot, joiss esiintyy sekä merkkijono bb että merkkijono bb. Huom, että nämä esiintymät svt oll päällekkäinkin: siis esimerkiksi merkkijono bbbbbb hyväksytään, kosk siinä on lle- j ylleviivuksell merkityt esiintymät. Tehtävä 14. Ldi deterministinen utomtti edellisen tehtävän 13 kielelle. 37

Epädeterministisen utomtin simulointi Pltn iempn esimerkkiin kuvss 9. Kirjoitetn lgoritmi, jok käy läpi lskentpuut leveyssuuntisesti. Algoritmi pitää muuttujss NykyisetTilt list niistä tiloist, joiss se tällä hetkellä voisi oll (lskentpuun tso). Kullkin skeleell sitä päivitetään lskemll 1. stu syötemerkkiä vstvt seurjtilt j 2. ne tilt, joihin niistä päästään ε- siirtymillä. 0 b 1 2 3 b ε b 0 0 b 0 1 2 b 0 1 2 3 0 2 2 b 0 1 2 3 3 Tiljoukon R Q ε-sulkeum E(R) koostuu niistä tiloist, joihin tiljoukost R pääsee ε-kri pitkin. Siis R E(R) kosk jokisest tilst pääsee suorn itseensä ilmn yhtään (edes ε-)siirtymää, j jos tilst s E(R) on ε-siirtymä s ε t niin myös sen kohdetil t E(R). Muut sitten ei kuulukn joukkoon E(R). 38

SimulteNFA(M, syöte): 1 NykyisetTilt E(q 0 ) // lkutiln ε-sulkeum 2 while syötettä on yhä jäljellä 3 do lue seurv syötemerkki 4 SeurjTilt 5 for q NykyisetTilt 6 do SeurjTilt SeurjTilt δ M (q, ) 7 SeurjTilt E(SeurjTilt) 8 NykyisetTilt SeurjTilt 9 return F NykyisetTilt // onko svutettu joku lopputil? Algoritmi SimulteNFA tulkk epädeterministisen lskennn deterministiseksi. Yksittäinen syötemerkki käsitellään (phimmss tpuksess) jss O( Q 2 ). Tästä tulkkuksest päästään eroon kääntämällä, eli muodostmll deterministinen utomtti, jok tunnist smn kielen. Menetelmä muodost DFA:n siirtymätulukon siis etukäteen. Muuttujn NykyisetTilt rvot kuuluvt potenssijoukkoon P(Q). Siten sillä on korkeintn P(Q) = 2 Q mhdollist rvo joten voimme muodost äärellisen DFA:n littmll kukin mhdollinen NykyisetTiltrvo omksi tilkseen j siirtymät kuten SimulteNFA ne lskisi. Siis muodostmme NFA:st M DFA:n M seurvsti: Akkosto on molemmill sm Σ. Tiljoukko Q cm = P(Q M ). Siirtymäfunktio koostuu siirtymistä NykyisetTilt SeurjTilt joss nämä muuttujt NykyisetTilt, j SeurjTilt ovt kuten tulkkilgoritmin SimulteNFA riveillä 4 7. Eli kun nnetn til NykyisetTilt Q cm ( P(Q M )), niin käydään läpi jokinen Σ, j lsketn sille vstv SeurjTilt P(Q M ) ( Q cm ). Alkutil on kuten sen rivillä 1: E(q 0 ), missä q 0 on NFA:n M lkutil. Hyväksyvät tilt ovt kuten sen rivillä 9: ne tilt, joihin sisältyy inkin yksi NFA:n M lopputil. 39

1 Alust tulos M sisältämään lkutil nimeltä E(NFA:n M lkutil q 0 ) ilmn yhtään krt, j merkitse se uudeksi 2 while tuloksess M on uusi tiloj 3 do NykyisetTilt ot jokin niistä j merkitse se vnhksi 4 if joukkoon NykyisetTilt kuuluu inkin yksi epädeterministisen utomtin M hyväksyvä til 5 then merkitse NykyisetTilt hyväksyväksi tilksi 6 else merkitse NykyisetTilt hylkääväksi tilksi 7 for ech Σ 8 do lske SeurjTilt kuten lgoritmin SimulteNFA riveillä 4 7 9 if til nimeltä SeurjTilt puuttuu tuloksest M 10 then luo sellinen j merkitse se uudeksi 11 Lisää tulokseen M siirtymä NykyisetTilt SeurjTilt Esimerkki 15. Determinisoidn epädeterministinen utomtti M b q 0 q 1 q 2 q 3 b b Esimerkiksi tiln s 2 = {q 0, q 2 } seurj syötemerkillä on til s 3 = {q 0, q 1, q 3 }, sillä s 3 sisältää täsmälleen kikki joukkoon s 2 kuuluvien lkioiden seurjt merkillä : s 3 s 2 q 0 q 2 q 0 q 3 q 1 1. Aloitetn lisäämällä lkutil {q 0 } j lskemll siitä lähtevät siirtymät. Jtketn uudell tilll {q 0, q 1 }. 2. Lsketn tiln {q 0, q 1 } siirtymät: Jtketn uudell tilll {q 0, q 2 }. b {q 0 } = s 0 {q 0, q 1 } {q 0 } b {q 0 } = s 0 {q 0, q 1 } {q 0 } {q 0, q 1 } = s 1 {q 0, q 1 } {q 0, q 2 } 40

3. Lsketn tiln {q 0, q 2 } siirtymät: b {q 0 } = s 0 {q 0, q 1 } {q 0 } {q 0, q 1 } = s 1 {q 0, q 1 } {q 0, q 2 } {q 0, q 2 } = s 2 {q 0, q 1, q 3 } {q 0 } 4. Stiin uusi til {q 0, q 1, q 3 } j jtketn sillä... 5.... j iknn sdn lopputulos: b {q 0 } = s 0 {q 0, q 1 } {q 0 } {q 0, q 1 } = s 1 {q 0, q 1 } {q 0, q 2 } {q 0, q 2 } = s 2 {q 0, q 1, q 3 } {q 0 } {q 0, q 1, q 3 } = s 3 {q 0, q 1, q 3 } {q 0, q 2, q 3 } {q 0, q 2, q 3 } = s 4 {q 0, q 1, q 3 } {q 0, q 3 } {q 0, q 3 } = s 5 {q 0, q 1, q 3 } {q 0, q 3 } b q 0 q b 0, q 1 q 0, q 2 q 0, q 1, q b 3 q 0, q 2, q 3 b b q 0, q 3 b Esimerkki 16. Determinisoidn kkoston Σ = {M, I, U} seurv epädeterministinen utomtti: M,I,U M,I,U M I U 0 1 2 3 Rtkisu: Kun generoidn koko potenssijoukko eli käytetään suor mtemttist määritelmää eikä while-lgoritmi niin sdn tulokseksi: 41

M I U A {0} {0, 1}=E {0}=A {0}=A B {1} {2}=C C {2} {3}=D D {3} {3}=D {3}=D {3}=D E {0, 1} {0, 1}=E {0, 2}=F {0}=A F {0, 2} {0, 1}=E {0}=A {0, 3}=G G {0, 3} {0, 1, 3}=L {0, 3}=G {0, 3}=G H {1, 2} {2}=C {3}=D I {1, 3} {3}=D {2, 3}=J {3}=D J {2, 3} {3}=D {3}=D {3}=D K {0, 1, 2} {0, 1}=E {0, 2}=F {0, 3}=G L {0, 1, 3} {0, 1, 3}=L {0, 2, 3}=M {0, 3}=G M {0, 2, 3} {0, 1, 3}=L {0, 3}=G {0, 3}=G N {1, 2, 3} {3}=D {2, 3}=J {3}=D O {0, 1, 2, 3} {0, 1, 3}=L {0, 2, 3}=M {0, 3}=G joss S P(Q) ovt svutettvt tilt ne jotk myös while-lgoritmi tuottisi P(Q) \ S ovt svuttmttomt tilt ne jotk while-lgoritmi jättäisi tuottmtt. Tulos tilsiirtymäkvion johon on piirretty vin svutettvt tilt: I,U M I,U M I A E F U M U G I M L U I M I,U M M Sm minimoitun: I,U M M,I,U A M I E U M F I U G Tehtävä 15. Determinisoi seurv utomtti: 42

, b 1 2 Esimerkki 17. Determinisoidn 0 0 b ε c 0 1 1 ε b d Siinä on sekä ε-siirtymiä että tvllinen epädeterministinen siirtymä (tilst merkillä 0). 1. Alkutilksi sdn 2. Alkutilst päästään tiloihin E({}) = {, c, d} δ({, c, d}, 0) = E(δ(, 0) δ(c, 0) δ(d, 0)) = E({, b} {c} ) = E({, b, c}) = {, b, c, d} ensimmäinen uusi til δ({, c, d}, 1) = {d} toinen uusi til. 3. Käsitellään uudet tilt {, b, c, d} j... δ({, b, c, d}, 0) = {, b, c, d} δ({, b, c, d}, 1) = {c, d} sm vnh til kolms uusi til. 43

4. sitten til {d}: δ({d}, 0) = δ({d}, 1) = neljäs uusi til. 5. Sitten tiln {c, d} seurjt: δ({c, d}, 0) = {c, d} δ({c, d}, 1) = {d} sm vnh til toinen vnh til. 6. Ei enää uusi tiloj; Lopputulos: til 0 1 {, c, d} {, b, c, d} {d} {, b, c, d} {, b, c, d} {c, d} {c, d} {c, d} {d} {d} {, c, d} 0 1 0 {, b, c, d} {d} 1 1 0 1 0 {c, d} 0 1 Tehtävä 16. Determinisoi utomtti: b 1 ε 2 3, b Tehtävä 17. Determinisoi utomtti: 44

ε 1 2, b 3 b Hhmonsovituksest Epädeterministisellä utomtill voi helposti kuvt hhmonsovitusongelmi: esiintyykö nnettu merkkijono y syötteessä x? Mikä thns yksittäinen merkkijono (eli yksilkioinen kieli) y = y 1 y 2 y 3... y m Σ voidn tunnist yksinkertisell epädeterministisellä utomtill: y 1 y 2 y 3 y m... Σ Σ Kun tällinen utomtti determinisoidn, tilojen lukumäärä m+1 ei muutu. (Vrt. esimerkki 16.) Tällisen epädeterministisen utomtin kikki lskentpolkuj voi myös simuloid tehokksti, jos m = O(tietokoneen bittisyys eli nykyään 32 ti 64) ns. shift-or/shift-nd lgoritmill. Mutt yleisessä tpuksess (eli kun kyseessä on mielivltinen säännöllinen kieli) voi tilojen määrä ksv phimmilln eksponentiliseksi, onhn P(Q) = 2 Q. Toislt yksinkertiselle hhmonsovitusongelmlle ostn muodost deterministinen utomtti suornkin jss O(m), ns. Knuth-Morris-Prtt lgoritmi. Ensimmäinen ekskursio: NFA:n simulointi Olkoon pitkä teksti t j lyhyt merkkijono p ASCII-kkoston merkkijonoj, j n = t, m = p, j m w, missä w on bittien lukumäärä int-muuttujss (esim. 32 ti 64). Seurv C-kielinen funktio kertoo kikki kohdt missä p esiintyy t:ssä. Algoritmi perustuu NFA:n simuloimiseen, j se toimii jss O(n) (nyt kun m w). Yleisesti otten mielivltisen NFA:n tehoks simuloiminen on kuitenkin voin ongelm. Miten lgoritmi toimii??? Tämä ei kuulu kurssiin. 45

Ongelm on mhdollist rtkist myös keskimääräisessä jss O(n log Σ (m)/m)... void shift_or (chr * t, int n, chr * p, int m) { unsigned b [256], d = ~0, mm = 1 << (m - 1); int i; } for (i = 0; i < 256; i++) b [i] = ~0 >> (sizeof (int) * 8 - m); for (i = 0; i < m; i++) b [p [i]] &= ~(1 << i); for (i = 0; i < n; i++) { d = (d << 1) b [t [i]]; if ((d & mm)!= mm) printf("löytyi, kohdst %d\n", i); } Toinen ekskursio: Knuth Morris Prtt Olkoot edelleen t j p ASCII kkoston merkkijonoj, j n = t, m = p. Seurv C-kielinen funktio kertoo kikki kohdt missä p esiintyy t:ssä. Algoritmi perustuu deterministiseen utomttiin. Tässä on kuitenkin ε-siirtymiä, mutt näitä ei seurt jos on toinenkin vihtoehto, joten hrutumist ei tphdu... Algoritmi toimii jss O(n+m). Miten se täsmällisesti otten toimii??? Tämäkään ei kuulu kurssiin. void kmp (chr * t, int n, chr * p, int m) { int i = 0, j = -1, b [m]; b [i] = j; while (i < m) { while (j >= 0 && p [i]!= p [j]) j = b [j]; b [++i] = ++j; } i = j = 0; while (i < n) { while (j >= 0 && t [i]!= p [j]) j = b [j]; i++; j++; if (j == m) { printf("löytyi, kohdst %d\n", i); j = b [j]; } } } Epädeterminismin sovelluksi Näemme pin, että epädeterminismi yksinkertist huomttvsti moni utomttikonstruktioit. Sillä on käyttöä tietojenkäsittelytieteessä ljemminkin, esim. 46

Rinnkkisjärjestelmät: Asynkronisess lskennss eri prosessien suoritusjärjestys ei ole tiuksti kontrolloitviss. Ajttelemme siis, että suoritusjärjestys määräytyy epädeterministisesti j vdimme esim. että järjestelmä ei s lukkiutu millään suoritusjärjestyksellä. Lskennn vtivuus: Monille tärkeille etsintä- j optimointiongelmille on helppo esittää epädeterministinen rtkisu, mutt sen tehoks simuloiminen deterministisellä (eli oikell) tietokoneell on voin ongelm. Vrt. edellä: NFA:n muuntminen DFA:ksi stt iheutt tilojen lukumäärän eksponentilisen ksvun. (Mutt ei in, kuten nähtiin.) 4.7 Säännölliset lusekkeet j kielet Säännöllisellä lusekkeell (regulr expression) voi kuvill, minkä muotoisi merkkijonoj hyväksytään. XML-dokumenttien kvioformlismeiss käytetyt elementtien sisältömllit ovt oleellisesti säännöllisiä lusekkeit. Esim. XHTML-kielen tulukkoelementtien rkennekuvus: <!ELEMENT tble (cption?, (col* colgroup*), thed?, tfoot?, (tbody+ tr+))> XHTML-tulukko voi sisältää ll olevss järjestyksessä vlinnisen otsikon mielivltisen jonon srke- ti srkeryhmä-elementtejä vlinnisen ylä- j ltunnisteen epätyhjän jonon body- ti rivielementtejä. Tekstinhku säännöllisillä lusekkeill Unix-komennoll grep (=globl regulr expression prser) voidn etsiä tiedostost säännöllisellä lusekkeell kuviltuj rivejä. Esim. Etsi tekstitiedostost lp.txt rivit, joill esiintyy sn utomtti : egrep utomtti lp.txt Etsi tekstitiedostost lp.txt rivit, joill esiintyy sn utomtti ti sn kieli : egrep \(utomtti\ kieli\) lp.txt Etsi tekstitiedostost lp.txt rivit, joill esiintyy äärellinen utomtti ti khviutomtti : egrep \(äärellinen \ khvi\)utomtti lp.txt Etsi tekstitiedostost tiedosto.txt osoitteit, jotk ovt muoto... ktu ti... tie jot seur sunnon numero: 47

egrep [A-ZÅÄÖ][-zåäö]*\(ktu\ tie\) [0-9][0-9]* tiedosto.txt Monien editoreiden serch j serch & replce -komennot sllivt myös säännölliset lusekkeet; smoin jotkut ohjelmointikielet sisältävät regexp kirjstoj. Eräs mhdollisuus grep-toiminnon toteuttmiseksi olisi seurv: 1. Muodostetn äärellinen utomtti, jok hyväksyy tsn selliset merkkijonot, joiss esiintyy nnettu hhmo. 2. Seltn syöte rivi kerrlln käyttämällä tätä utomtti, j tulostetn hyväksytyt rivit. Kysymys: Kuink monimutkisi hhmoj tällä peritteell voidn käsitellä? Esim. edellä muodostettiin hhmoist utomtti j kieli uusi hhmo tioperttorill. Smoin sllittiin hhmon iterointi eli ktenointi itsensä knss ([0-9]*). Kuink voimkkt operttorit voidn siis slli? Kielten yhdiste, tulo j sulkeum Olkoot A j B kkoston Σ kieliä, eli A, B Σ. Kielten A j B yhdiste on kieli suorn joukko-opist. A B = {x Σ x A ti x B} Jos yhdistettä jttelee eräänlisen yhteenlskun niin sen noll on kosk sen lisäämisellä ei ole vikutust: X = X = X. Kielten A j B ktentio eli tulo on kieli AB = {xy Σ x A, y B} eli ne merkkijonot xy jotk lkvt jollkin kielen A merkkijonoll x j jtkuvt jollkin kielen B merkkijonoll y. Jos tulo jttelee eräänlisen kertolskun niin sen ykkönen on {ε} kosk Vstvsti nollll kertominen noll : {ε} X = X {ε} = X. X = X =. Tyhjä kieli j tyhjä merkkijono ε ovt eri sioit, niillähän on eri tyyppikin. Kielessä {ε} on yksi lkio, nimittäin ε, joten se ei ole tyhjä. 48

Kielen A potenssit A k, joss k N, määritellään itertiivisesti: A 0 = {ε} A k = AA k 1 = AAA... A } {{ } k kert = {x 1 x 2 x 3... x k x i A kikill i = 1, 2, 3,..., k} (k 1) Kielen A sulkeum on kieli A = k N = {ε} A AA AAA... A k = {x 1... x k k 0, x i A kikill i = 1, 2, 3,..., k} Tässä vihdoin on moniss pikoissä käyttämämme merkinnän potenssiin trkoitettu sisältö: (...) koostuu niistä merkkijonoist, jot sdn liimilemll yhteen äärellisen mont tämän kuvuksen (...) mukist merkkijono. Erikoistpuksen = {ε}... = {ε} kosk noll(kin) potenssiin noll on yksi. Esimerkki 18. Trkstelln kkoston {,... z, 0,..., 9} kieliä A = {, bb} j B = {01, 02}. Nyt A B = {, bb, 01, 02} Säännöllinen luseke (syntksi) AB = {01, 02, bb01, bb02} A = {ε,, bb,, bb, bb, bbbb,, bb, bb, bbbb, bb,...} Määritelmä 3. Akkoston Σ säännölliset lusekkeet (regulr expressions) määritellään induktiivisesti säännöillä: Vkiot j ε ovt jokisen kkoston säännöllisiä lusekkeit; kkoston jokinen merkki Σ on sen säännöllinen luseke; jos r j s ovt kkoston Σ säännöllisiä lusekkeit, niin myös (r s), (rs) j r ovt sen säännöllisiä lusekkeit; j muit kkoston Σ säännöllisiä lusekkeit ei ole. 49

Säännöllisen lusekkeen merkitys Määritelmä 4. Akkoston Σ säännöllinen luseke r kuv kielen L(r) Σ : L( ) = L(ε) = {ε} L() = {} kikill Σ L((r s)) = L(r) L(s) L((rs)) = L(r)L(s) L(r ) = (L(r)) Esimerkki 19. Akkoston {, b} säännöllisiä lusekkeit ovt esimerkiksi r 1 = ((b)b), r 2 = (b), r 3 = (b ), r 4 = ((b (bb))). näiden lusekkeiden kuvmt kielet ovt L(r 1 ) = ({}{b}){b} = {b}{b} = {bb}; L(r 2 ) = {b} = {ε, b, bb, bbb,...} = {(b) i i 0}; L(r 3 ) = {}({b}) = {, b, bb, bbb,...} = {b i i 0}; L(r 4 ) = ({}{b, bb}) = {b, bb} = {ε, b, bb, bb, bbb,...} = {x {, b} kutkin -kirjint x:ssä seur 1 ti 2 b-kirjint } Lyhennysmerkintäsopimuksi Sulkumerkkejä voidn vähentää seurvill säännöillä: Operttoreist sitoo vhvimmin, sitten tulo, j heikoimmin. Yhdiste- j tulo-opertioiden ssositiivisuus: L(((r s) t)) = L((r (s t))) L(((rs)t)) = L((r(st))). Käytetään tvllisi kirjsimi mikäli seknnuksen vr merkkijonoihin ei ole. Esim. edellisen esimerkin 19 lusekkeet r 1 = ((b)b), r 2 = (b), r 3 = (b ), r 4 = ((b (bb))) yksinkertisemmin: r 1 = bb, r 2 = (b), r 3 = b, r 4 = ((b bb)) Lyhennysmerkintä r + trkoitt toist r inkin kerrn. Siten r + = rr = r r. Esim. jos d = (0... 9), niin d + (ti dd ) trkoitt, että merkkijono koostuu yhdestä ti usemmst numeromerkistä. 50

Säännöllinen kieli (uudelt knnlt) Voimme määritellä säännöllisen kielen A myös sellisen, jok voidn kuvt jollkin säännöllisellä lusekkeell r, eli A = L(r). Osoitmme pin, että tämä on yhtenevää iemmn määritelmämme ( äärellisen utomtin hyväksymä kieli ) knss. Esimerkki 20. Olkoon kkosto Σ = {, b, c,...}. Säännöllisen lusekkeen Σ utomttiσ kuvm kieli on niiden merkkijonojen joukko jotk sisältävät osmerkkijonon utomtti. Siis tämä kieli on säännöllinen. Esimerkki 21. Olkoon Σ = {A, B, C,..., Ö,, b, c,..., ö, 0, 1, 2,..., 9, }. Osoite on muoto (Ll )(ktu tie) dd (l ε)(dd ε) ddddd Ll joss d on lyhenne lusekkeelle (0 1 2... 9) l on lyhenne lusekkeelle ( b c... ö) eli pienille kirjmille ( letters ), j L on lyhenne lusekkeelle (A B C... Ö) eli suurille kirjimille ( LETTERS ). Huom: Monet regexp -kirjstot j -työklut lisäävät ominisuuksi jotk eivät ole säännöllisiä (kuten esimerkiksi rjoittmttomt viitteet tksepäin, NP-täydellinen ongelm... ). Tällä kurssill käsitellään vin itoj säännöllisiä lusekkeit ilmn tällisi lisäyksiä. Esimerkki 22. Ohjelmointikielen C etumerkittömät liukuluvut (jotk ovt tyyppiä flot, double ti long double) määritellään seurvsti: (kokonisos).(desimlios) (e ti E) [+ ti ] (eksponentti) [suffiksi] merkintä [... ] trkoitt että kyseinen os voi myös puuttu kokonisos j desimlios koostuvt numeroist joko kokonisos ti desimlios voi puuttu (mutt eivät molemmt) joko (i) desimlipiste ti (ii) (e ti E) j eksponentti voivt puuttu (mutt eivät molemmt) suffiksi: F ti f: flot, L ti l: long double, muuten double Säännöllinen luseke (ilmn suffiksej): (d +.d.d + )(ε ((e E)(+ ε)d + )) d + (e E)(+ ε)d + Kieleen kuuluvt esim. seurvt merkkijonot: 12.,.12, 1.2, 1.2E3, 1.2e3, 1E2, 1e23. 1.2E-3, Tehtävä 18. Trkstelln seurvi kkoston Σ = {, b} säännöllisiä lusekkeit. Esitä kunkin lusekkeen kuvmst kielestä kksi merkkijono, jotk kuuluvt kieleen, j kksi, jotk eivät kuulu kieleen! 51

1. b 2. (b) b 3. b 4. () 5. (ε )b 6. Σ Σ Σ Σ Tehtävä 19. Etsi lyhyin merkkijono, jok kuuluu seurvn lusekkeen kuvmn kieleen! 1. (b bb)b b 2. b b( (b) ) b 3. ( b)( b) b Tehtävä 20. Muodost seurvi kieliä vstvt säännölliset lusekkeet: 1. {w {, b} w:n kolmnneksi viimeinen merkki on } 2. {w {, b} w sisältää joko merkkijonon b ti b} 3. {w {, b} w sisältää prillisen määrän merkkiä } 4. {w {, b} w:n pituus on priton} 5. {w {, b} w:ssä on 3:ll jollinen määrä merkkiä b} Tehtävä 21. Esitä yksinkertisemmss muodoss seurvt lusekkeet (eli nn luseke, jok yhä kuv smn kielen, mutt joss on vähemmän operttoreit): 1. (0 1 01 11) 2. (0 10 ) 3. 1 (011 ) 1 (011 ) 0 Säännöllisten lusekkeiden sieventäminen Säännöllisillä kielillä on yleensä useit vihtoehtoisi kuvuksi, esim.: Σ = L(( b) ) = L(( b ) ) = L( b ( b) b( b) ) =... Merkitään r s, kun L(r) L(s), eli kun säännollisen lusekkeen r kuvm kieli on os säännöllisen lusekkeen s kuvm kieltä. Säännölliset lusekkeet r j s ovt ekvivlentit, merkitään r = s, silloin kun r s j s r, eli kun L(r) = L(s). Lusekkeen sievennys = yksinkertisimmn ekvivlentin lusekkeen määritys. Tässä luontev yksinkertisuuden mitt on sen sisältämien operttoreiden lukumäärä sen pituus kirjoitettun. 52

Sievennyssääntöjä Muistisääntö: on hiemn kuin yhteenlsku, j on hiemn kuin 0. Tulo on hiemn kuin kertolsku, j ε on hiemn kuin 1. r r = r (mutt rr r kun r, ε) r (s t) = (r s) t r(st) = (rs)t r s = s r r(s t) = rs rt (r s)t = rt st r = r = r εr = r = ε r = r r ε = r + ε r = (r ε) (r ) = r (mutt ε r = r vin jos ε L(r)) Tvlliset joukko-opertiot vs. säännöllisten kielten opertiot Olkoot A = {, b} j B = {c, d}. Joukot Kielet A B = {, b, c, d} A B = {, b, c, d} krteesinen tulo A B = tulo AB = {(, c), (, d), (b, c), (b, d)} {c, d, bc, bd} potenssijoukko P(A) = sulkeum A = {, {}, {b}, {, b}} {ε,, b,, b, b, bb,, b, b, bb, b, bb, bb, bbb,, b, b, bb,...} P(X) = 2 n, kun X = n X =, jos X {ε} Miten osoitt, että L(r) = L(s)? Mtemttinen rtkisutp on osoitt, että 1. L(r) L(s) eli r s, j 2. L(s) L(r) eli s r. Ti helpommin (mutt ehkä työläämmiin) vstvill utomteill: 1. Muodost lusekkeille r j s deterministiset utomtit M r j M s. 2. Tutki hyväksyvätkö utomtit smn kielen. (Tämän voi tehdä joko tutkimll tuottko niiden minimointi identtisen tuloksen sivuutmme minimoinnin ti trkstelemll niiden ns. tuloutomtti.) Miten lusekkeest voidn muodost utomtti? 53

r = : r = s t: r = ε: ε ε M s ε r =, Σ ε M t ε r = st: r = s : ε M s M t ε M s ε ε Kuv 10: Säännöllisestä lusekkeest äärelliseksi utomtiksi. 4.8 Säännölliset lusekkeet j äärelliset utomtit Osoitetn seurv tärkeä tulos: 1. Jokisen säännöllisen lusekkeen r kuvm kieli voidn tunnist äärellisellä utomtill M r : Muodostetn lusekett r vstv (epädeterministinen) ε-utomtti. Hluttess tämä epädeterministinen utomtti voidn vielä determinisoid (j minimoid). 2. Jokisen äärellisen utomtin M tunnistm kieli L(M) voidn kuvt säännöllisellä lusekkeell r M : Redusoidn utomtti 2-tiliseksi ns. lusekeutomtiksi, jost voidn luke vstv säännöllinen luseke. 4.8.1 Säännöllisestä lusekkeest utomtti Säännöllinen luseke on käytännöllinen tp määritellä esim. tekstinhku- ti tyypintrkistustehtäviä. Miten näin määritelty tehtävä sdn suoritettu? Luse 3. Säännöllisen lusekkeen kuvm kieli voidn tunnist äärellisellä utomtill. Todistus: Annetn kuvn 10 eräs menetelmä, joll voidn muodost mielivltist säännöllistä lusekett r vstv ε-utomtti M r, joll L(M r ) = L(r). (Tämä on ns. Thompson-konstruktio. Muitkin menetelmiä on.) Esimerkki 23. Muodostetn säännöllistä lusekett ((b ) (b )) vstv äärellinen utomtti. 54

ε ε M b ε ε ε ε ε ε M (b ) (b ) ε ε ε M b ε ε ε ε b ε ε, b ε ε b b b ε b Tehtävä 22. Muodost säännöllistä lusekett (0 1) 0 (0 1) 01 = (0 1) (0 01) = (0 1 ) (0 01) vstv äärellinen utomtti. Tehtävä 23. Muodost C-kielen liukuluvut tunnistv utomtti säännöllisestä lusekkeest (d +.d.d + )(ε ((e E)(+ ε)d + )) d + (e E)(+ ε)d + joss d = {0, 1, 2, 3, 4, 5, 6, 7, 8, 9} ovt 10-järjestelmän numeromerkit. Toislt ekvivlentti säännöllinen luseke voidn esittää monell tp, j osutomtit jost lopullinen rtkisu sdn voivt oll erilisi. Eli rtkisuj on erilisi (siihen skk kunnes on determinisoitu j minimoitu). 4.8.2 Automtist säännöllinen luseke Luse 4. Jokinen säännöllinen kieli voidn kuvt säännöllisellä lusekkeell. Todistus: Esitetään menetelmä, joll utomtist M voidn kirjoitt ekvivlentti säännöllinen luseke r M, eli joll L(r M ) = L(M). Menetelmä toimii poistmll välitiloj, jotk esiintyvät utomtin lkutilst lopputiln johtvill poluill. Menetelmän edetessä polku tilst i tiln j korvtn oikotiellä eli yhdellä suorll siirtymällä. Tällisen oikotien pitää yhä kuvt kikki smt merkkijonot jotk kerätään kuljettess tilst i tiln j lkuperäisiä siirtymiä pitkin. Niinpä oikotie i merkkijonot. r j nimetään säännöllisellä lusekkeell r, jok kuv nämä 55

ε ε f ε Kuv 11: Lopputilojen korvminen yhdellä uudell. Menetelmässä käytetään siis ns. lusekeutomttej, joiss siirtymillä on yksittäisen syötemerkin sijst kokoninen säännöllinen luseke intuitio on, että siirtymässä i r j 1. luetn jäljellä olevn syötteen lust jokin lusekkeen r mukinen merkkijono, j 2. jtketn jäljelle jääneen syötteen loppuosn käsittelyä tilst j. Tvlliset utomtit j ε-utomtit ovt lusekeutomttien erikoistpuksi, kosk yksittäiset merkit j ε ovt myös säännöllisiä lusekkeit. Ohitmme formlin määritelmän (vikkei se olekn hnkl). Olkoon utomtin lkutil s. Yksinkertistetn käsittelyä olettmll, että utomtill on täsmälleen yksi lopputil, jost lisäksi ei lähde siirtymiä eikä se myöskään ole lkutil s. (Jos näin ei ole, korvtn vnht lopputilt yhdellä uudell, johon lisätään ε-siirtymät vnhoist lopputiloist. Ks. kuv 11.) Oikoteiden muodostminen: 1. Poistetn ensin kikki rinnkkiset siirtymät: Jos on kksi smojen tilojen p q välistä siirtymää i j j i j, korv ne yhdellä yhteisellä siirtymällä i p q j kuten kuvss 12. Selvästi tämä säilyttää smoin ne merkkijonot, jotk kerättäisiin kulkemll näitä siirtymiä pitkin solmust i solmuun j. 2. Sitten poistetn utomtist välitilt: Snotn, että til k s on välitil, til i sen edeltäjä j til j sen seurj, p i r j jos utomtiss on siirtymät i k j k j, j k i, j. (Edeltäjä j seurj voivt kuitenkin keskenään oll sm til.) Millisi merkkijonoj pitää välitiln k ohittvn oikopolun i R i,j j hyväksyä? V: Niitä, joiden lkuos hyväksytään krell (i, k) j loppuos krell (k, j). Lähtökohtisesti sdn siis suor siirtymä i p i.r j j. 56

p i j = i p q j q Kuv 12: Kksi rinnkkist siirtymää yhdeksi. Jos välitilst k on lisäksi silmukksiirtymä k q k tkisin itseensä, tällist voidn kulke mielivltisen mont kert. Tällöin oikopoluksi tulee i p i.q.r j j (2) kuten kuvss 13. Jos välitiln edeltävän i j seurjn j välillä oli jo suor siirtymä i r i,j j, niin oikopolun luseke lisätään siihen uuten vihtoehton: ti (jos välitilll oli silmukksiirtymä) i r i,j p i r j j (3) i r i,j p i q r j j (4) Jos välitiln edeltäjä j seurj ovt sm til, niin oikopolku on silmukksiirtymä. Kun välitillle on muodostettu oikopolku sen jokisest edeltäjästä sen jokiseen seurjn, niin tämä välitil k j kikki siihen liittyvät siirtymät voidn poist. Kun rinnkkiset siirtymät j välitilt on poistettu, niin: Automtiss on jäljellä sen lkutil s j lopputil f. Jos lkutilst ei ole siirtymää lopputiln, utomtti vstv luseke on : Alkuperäisessä utomtiss ei ole millään syötteellä lopputiln johtv polku. Muuss tpuksess redusoiduss lusekeutomtiss on siirtymä s r f. Jos tilst s on lisäksi silmukk s q s tkisin itseensä, tunnistettu kieltä kuvv luseke lk itertioll q. Tällöin tulos on q r (5) Jos tällist lkutiln silmukk ei ole, niin sitä vstv os q jää pois lopputuloksest (5). 57

q i. p i k r j. j p i q r j Kuv 13: Oikotie välisolmun k ohi. q r s r f q Kuv 14: Luseke kutistuneest utomtist. 58

Esitetään tämä menetelmä vielä lgoritmin: 1 Lisää kuvn 11 mukinen uusi hyväksyvä til f ellei sellist jo ole p q 2 while on rinnkkiset siirtymät i j j i j 3 do korv ne yhdellä siirtymällä i p q j 4 while on välitiloj s, f 5 do k jokin (mikä thns) välitil p i 6 for ech siirtymä i k joss i k 7 do for ech siirtymä k r j j joss j k 8 do if on siirtymä k q k 9 then t p i q r j 10 else t p i r j 11 u if on siirtymä i j 12 then päivitä se muotoon i u t j 13 else lisää siirtymä i t j 14 poist til k j kikki nämä siihen liittyvät siirtymät 15 if on siirtymä s r f 16 then if on siirtymä s q s 17 then return q r 18 else return r 19 else return Otetn esimerkki tästä menetelmästä: (i) lkuperäinen utomtti: (ii) lisätään uusi lopputil: 0 0 0 0 0 0 s 1 s 1 1 1 1 (iii) yhdistetään rinnkkiset: 1 1 ε 1 f (iv) poistetn til: ε s 1 0 1 0 1 s 1 0 1 0 1 ε f ε 0 1 ε (0 1)ε f 59

(v) poistetn til: (vi) poistetn til: s 1 (0 1)(ε (0 1)ε) s 1(0 1)(ε (0 1)ε) 0 1 f 0 1 f Nyt voidn luke lopputulos (0 1) 1(0 1)(ε (0 1)ε) jot voidn vielä hiemn sieventää muotoon (0 1) 1(0 1)(ε 0 1) jost voidn luke vstus: lkuperäinen utomtti hyväksyy ne binäärijonot, joiden toiseksi ti kolmnneksi viimeinen merkki on 1. Lusekkeit voi j knnttkin sievennellä jo menetelmän ikn. Tehtävä 24. Muodost seurvn utomtin tunnistm kieltä kuvv säännöllinen luseke:, b 1 2 b 3 b 4.9 Säännöllisten kielten sulkeumominisuudet Mtemtiikss snotn että joukko X on suljettu jonkin opertion suhteen, jos soveltmll opertiot joukon X lkioihin sdn tulokseksi in joukon X lkioit eli jos opertio ei vie pois joukost X. Esimerkiksi luonnollisten lukujen joukko N on suljettu yhteenlskun suhteen, kosk m + n N jokisell m, n N. Se ei kuitenkn ole suljettu vähennyslskun suhteen, kosk esimerkiksi 5 8 N, vikk 5, 8 N. Trkstelln säännöllisten kielten joukko (s.o. merkkijonojoukkojen joukko). Minkälisten opertioiden suhteen se on suljettu? 60

Luse 5. Olkoot L 1 j L 2 kkoston Σ säännöllisiä kieliä. Tällöin myös seurvt ovt säännöllisiä kieliä: yhdiste L 1 L 2 leikkus L 1 L 2 ktentio eli tulo L 1 L 2 komplementti L 1 = Σ \ L 1 erotus L 1 \ L 2 (Kleenen) sulkeum (L 1 ) käänteiskieli (L 1 ) R = {w R w L 1 } eli kielen L 1 merkkijonot tkperin kirjoitettuin. Toisin snoen säännöllisten kielten joukko on suljettu kikkien näiden opertioiden suhteen. Todistus: Perustelln ll. Huom että luse 5 on yksisuuntinen: Esimerkiksi yhdiste L 1 L 2 voi oll säännöllinen, vikk sen ost L 1 j L 2 eivät ole. Esimerkiksi säännöllinen kieli voidn muodost osist j L( b ) = L 1 L 2 L 1 = { i b j i j} L 2 = { i b j i > j} joist kumpikn ei ole säännöllinen (mikä voidn osoitt pumppuslemmll ). Sulkeum säännöllisten operttoreiden suhteen Sännölliset kielet nähdään helposti suljetuiksi säännöllisten lusekkeiden operttoreiden suhteen: Olkoot A j B säännöllisiä kieliä, eli A = L(p) j B = L(q) joillin säännöllisillä lusekkeill p j q. Tällöin A B = L((p q)) AB = L((pq)) j A = L(p ) Kukin on ilmistviss säännöllisellä lusekkeell, eli kukin on säännöllinen kieli. 61

Sulkeum komplementoinnin suhteen Esimerkki 24. Lditn utomtti, jok tunnist kielen L(M) = {w {, b} w ei sisällä merkkijono bb}. Lditn ensin deterministinen utomtti, jok tunnist sen komplementtikielen L(M) = {w {, b} w sisältää merkkijonon bb}. Hluttu utomtti sdn vihtmll hyväksyvät tilt hylkääviksi j päinvstoin. b,b b,b b b 0 1 2 3 b b 0 1 2 3 Huom: virhetilojen on oltv mukn, kosk niistä tulee komplementtiutomtin hyväksyviä tiloj. Sm voidn tehdä jokiselle deterministiselle utomttille j siten jokiselle säännölliselle kielelle. Muistutus: De Morgnin säännöt Tuttuj koulumtemtiikst ti diskreeteistä rkenteist ti mtemttisest logiikst. Ilmisevt joukko-opiss, että komplementointi kääntää yhdisteet leikkuksiksi j päinvstoin: A B = A B A B = A B. Osoitetn näiden nojll, että säännöllisten kielten A j B leikkus on säännöllinen: 1. A B = A B 2. De Morgn: A B = A B 3. Säännöllisten kielten komplementtein A j B ovt säännöllisiä. 4. Siten myös niiden yhdiste A B on säännöllinen, j smoin sen komplementti. Säännölliset kielet nähdään edellisen nojll suljetuiksi myös joukkoerotuksen suhteen, kun lähdetään liikkeelle tiedost A \ B = A B. Säännöllisten kielten leikkus/yhdiste/erotus utomtill Vihtoehtoisesti säännöllisten kielten A j B joukko-opillinen yhdistelmä L (yhdiste, leikkus ti erotus) voidn tunnist ns. tuloutomtill. Olkoot M 1 = (Q 1, Σ, δ 1, q 1, F 1 ) j M 2 = (Q 2, Σ, δ 2, q 2, F 2 ) deterministiset utomtit, joill A = L(M 1 ) j B = L(M 2 ). Muodostetn uusi utomtti M, jonk 62

tiloj ovt lkuperäisten utomttien tilojen prit (p, q) Q 1 Q 2 siirtymäfunktio δ muodostuu komponenttitilojen siirtymistä: δ ((p, q), ) = (δ 1 (p, ), δ 2 (q, )) lopputilt F vlitn sen mukn mitä joukko-opertiot toteutetn: Jos L = A B, niin F = {(p, q) p F 1 ti q F 2 } Jos L = A B, niin F = {(p, q) p F 1 j q F 2 } Jos L = A \ B, niin F = {(p, q) p F 1 j q F 2 }. Säännöllisen kielen käänteiskieli Miksi säännöllisen kielen L käänteiskieli (L) R olisi säännöllinen? Olkoon M = (Q, Σ, δ, q 0, F ) kielen L tunnistv DFA. Kuten iemmin, voidn olett (sllimll ε-siirtymiä), että utomtill on yksikäsitteinen lopputil f. Muodostetn käänteiskielen hyväksyvä NFA M settmll sen lkutilksi f j lopputilksi q 0 j kääntämällä utomtin M siirtymät päinvstisiksi. Formlisti utomtin M siirtymäfunktio δ : Q (Σ {ε}) P (Q) määräytyy säännöllä δ (q, ) := {p Q δ(p, ) = q}. 4.10 Säännöllisten kielten rjoituksist Kysymys: Kuink voidn hvit, ettei ongelm rtkekn äärellisillä utomteill? Eli ettei vstv formlikieli olekn säännöllinen? Esimerkki 25. Onko sisäkkäisten sulkulusekkeiden muodostm kieli L ( ) = {( k ) k k 0} säännöllinen? Yritetään tehdä sille utomtti: ( ( ( ( q 0 q 1 q n 1 q n ) ) ) ) q 2n q 2n 1 q n+2 q n+1 ) ( ( ( ( q 0 q 1 q n 1 q n ) ) ) ) Mutt entäpä jos sisäkkäisiä sulkuprej onkin n + 1 kpl? 63

Automttien rjllinen muisti Ääärellinen utomtti muist syötteen lkuosn vin tilojens vull. Se ei siis voi pitää kirj kikist näkemistään merkeistä. Ääretön kieli voi oll säännöllinen vin jos siinä on jokin toistuv rkenne. Automtiss silmukk, säännöllisessä lusekkeess sulkeum (...). Säännöllisten kielten pumppuslemm formlisoi tämän hvinnon. Kielen osoittminen säännölliseksi ei ole lskennllisesti rtkev ongelm, vn siihen trvitn ihmisen mtemttist intuitiot on keksittävä sille utomtti ti luseke ti todistettv se sulkeumominisuuksien vull säännöllisiksi tiedetyistä kielistä ti... Stt näyttää ilmeiseltä, että äärellisen muistin jtuksen soveltminen olisi jotenkin intuitiivisesti selvää, eli että muistivtimukset näkisi jotenkin suorn. Kieli A = {w {0, 1} w sisältää yhtä mont noll j ykköstä} ei ole säännöllinen (todistetn pin... ). Mutt kieli onkin säännöllinen. B = {w {0, 1} w:ssä esiintyy 01 j 10 yhtä mont kert} Tehtävä 25. Todist että tämä kieli B on säännöllinen. Vihje: Mieti millä merkillä jono w B voi lk j millä loppu. Luse 6. Kieltä C = {0 n 1 n n N} ei voi tunnist äärellisellä utomtill. Todistus: Osoitetn, että vstoletuksest C = L(M) jollin äärellisellä utomtill M seur ristiriit: Olkoon M vstoletuksen mukinen utomtti j siinä k = Q til, j m = k/2. Kosk L(M) = C, niin silloin myös syöte s = 0 m 1 m L(M). Tämän syötteen s pituus s = 2m k. Merkitään sen merkkejä s = s 1 s 2... s 2m. Syötteellä s utomtti käy yhteensä 2m + 1 tilss, mukn lukien lkutil (joist os (ti kikki) voivt oll smoj). Toisin snoen, utomtti käy tiloiss: r 1 0 r 2 0 0 r 1 m+1 r 1 1 m+2 r 2m+1. Eli lkutil q 0 = r 1 j δ(r i, s i ) = r i+1, missä r i Q. Hvinto: Q = k < 2m + 1 joten jonoss r 1... r 2m+1 inkin yksi til esiintyy usemmin kuin kerrn, eli r i = r j jollin i < j. Automtti tekee merkkijonoll s i... s j 1 silmukn tilst r i tkisin tiln r i = r j : 64

x = s 1... s i 1 r i = r j z = s j... s 2m r 1 r 2m+1 y = s i... s j 1 Automtti siis hyväksyy lkuperäisen jonon s = xyz = xy 1 z kiertämällä silmukn yhden kerrn. Merkitään vstv hyväksyvää lskent lyhyesti: r 1 x r i y ri z r 2m+1. Silmukn sisältävästä hyväksyvästä lskennst sdn uusi hyväksyvä lskent ohittmll silmukk: r 1 x r i z r 2m+1 Siis utomtti hyväksyy myös merkkijonon xy 0 z = xz. Silmukk voidn myös toist mielivltisen mont kert: r 1 x r i y ri y ri z r 2m+1. r 1 x r i y ri y ri y ri z r 2m+1. Siis utomtti hyväksyy myös merkkijonot xy 2 z = xyyz, xy 3 z = xyyyz, xy 4 z = xyyyyz,... Kysymys: Kuuluuko merkkijono xy l z kieleen C = {0 n 1 n n N} jokisell mhdollisell toistokertojen lukumäärällä l N? Trkstelln silmukn mhdollisi sijintej merkkijonon s keskikohdn suhteen: 1. i < j m + 1: nyt y = 0 j i. 2. i < m + 1 < j: nyt y = 0 m+1 i 1 j m 1. 3. m + 1 i < j: nyt y = 1 j i. Missään näistä tpuksist esimerkiksi xy 2 z ei kuulu kieleen C: tpuksess 1 siinä on liik nolli tpuksess 2 se on muoto 0... 01... 10... 01... 1 tpuksess 3 siinä on liik ykkösiä. Kosk utomtti kuitenkin hyväksyy merkkijonon xy 2 z, tämä on ristiriit oletuksen C = L(M) knss. 65

Siis kieltä C ei voi tunnist k-tilisell äärellisellä utomtill millään k, eli kieli C ei ole säännöllinen. Edellisen todistuksen peruside oli osoitt, että jos M on k-tilinen utomtti, niin kielellä L(M) on pumppuspituus k: Määritelmä 5. Kielellä A on äärellinen pumppusominisuus, jos on olemss sellinen p, että mikä thns s A, joll s p, voidn esittää muodoss s = xyz, missä 1. xy i z A kun i = 0, 1, 2,..., 2. y > 0 j 3. xy p. Tällöin p on (eräs) kielen A pumppuspituus. Siis x = ε j z = ε ovt sllittuj, mutt y ε (ehto 2, kosk muuten pumpttvuus olisi trivili). Kun kielellä on äärellinen pumppusominisuus, millä thns riittävän pitkällä merkkijonoll s on epätyhjä keskios y, jot pumppmll sdn uusi kieleen kuuluvi merkkijonoj xy 2 z, xy 3 z,... Luse 7 (Säännöllisten kielten pumppuslemm). Jokisell säännöllisellä kielellä on äärellinen pumppusominisuus. Todistus: Sivuutetn; vstv kuin edellisen luseen todistuksess. Intuitiivisesti: Äärettömän säännöllisen kielen tunnistvss utomtiss on silmukk siten, että 1. xy i z A: silmukk voidn kiertää mielivltisen mont (i) kert, j silti voidn päästä jonoll z hyväksyvään tiln. 2. y > 0: silmukk ei ole tyhjä, vn siihen kuuluu vähintään yksi ei-tyhjä siirtymä. 3. xy p: lskennn täytyy joutu silmukkn ennen kuin utomtist loppuvt tilt. Pumpputuvuusehto 1 trkoitt, että kieli sisältää merkkijonot xz, xyz, xyyz, xyyyz,... Ehdost 2 seur, että nämä jonot ovt toinen toistn pidempiä. Siis merkkijono y pumppmll sdn rjttomsti uusi kieleen kuuluvi merkkijonoj. Ehdon 3 nojll tämä osjono y löytyy snn s lkuosst, jonk pituus on p. Kielen pumpputuvuus trkoitt, että jokinen trpeeksi pitkä kieleen kuuluv merkkijono on pumpputuv jollin ehdot täyttävällä osjonolln y. 66

Pumppuslemmn soveltminen Kiinnostv vin äärettömille kielille (äärelliset kielet ovt in säännöllisiä). Pumppuslemmn mukn millä thns säännöllisellä kielellä A on pumppusominisuus, toisin snoen jollkin p N mille thns selliselle s A jok on riittävän pitkä eli s p on olemss jko s = xyz joll pumppusehdot 1 3 toteutuvt. Pumppuslemmll ei voi osoitt kielen säännöllisyyttä, vin ei-säännöllisyyden. (Eikä in sitäkään, kosk on olemss ei-säännöllisiä kieliä, joill on äärellinen pumppuspituus... ) Iden todistus kontrpositioll, eli lemm käytetään käänteisesti ; A on säännöllinen A on pumpttviss A ei ole pumpttviss A ei ole säännöllinen Toisin snoen, on osoitettv, että mille thns p N on olemss sellinen s A, että s p j mille thns sen jolle s = xyz jokin pumppusehdoist 1 3 jää toteutumtt. Siis luksi voimme itse vlit snn s sopivsti helpottmn todistust, mutt sitten meidän pitää käydä läpi kikki mhdolliset tvt jk se osiin x, y j z j osoitt, että mikään jko ei toteut pumppusehtoj. Toisin snoen, kun hlutn todist kieli ei-säännölliseksi, tehdään vstoletus että se olisikin säännöllinen, j osoitetn että tästä seur ristiriit...... jonk voi osoitt käyttämällä pumppuslemm...... mutt jonk voi osoitt muutenkin: Esimerkiksi sulkeumominisuuksien vull ( plutetn ongelm tunnettuun kieleen). Esimerkki 26. Kieli C = {0 n 1 n n N} ei ole säännöllinen. Todistus: Tehdään vstoletus että C olisikin säännöllinen. Silloin sillä olisi äärellinen pumppusominisuus, eli jokin vkio p siten, että jokinen inkin niin pitkä merkkijono s C (eli s p) jkutuu jotenkin osiin s = xyz jotk täyttävät ominisuuden 3 ehto. Me emme tiedä vkion p rvo, mutt me smme vlit sellisen merkkijonon s kuin hlumme (kunhn vlitsemme trpeeksi pitkän). Kun olemme vlinneet merkkijonomme s, niin me emme tiedä sen jost s = xyz muut kuin nämä 3 ominisuutt. Kosk tvoittelemme ristiriit, niin useimmiten knntt vlit s siten, että ehdot 2 j 3 ovt voimss, j osoitt että silloin ehto 1 ei enää sdkn voimn. 67

Tässä todistuksess knntt vlit s = 0 p 1 p (ti jokin vielä pidempi) kosk silloin ehdot 2 j 3 kertovt meille pljon osien xy rkenteest: joss k > 0 mutt j + k p. x = 0 j y = 0 k z = 0 p (j+k) 1 p Kosk tämä järkeilymme ei olet näistä rvoist j j k mitään muut, niin olemme tulleet käyneeksi läpi smll kert kikki mhdolliset jot. Nyt ehdon 3 mukn (vikkp) i = 0 kert pumpttu merkkijono 0 j 0 p (j+k) 1 p = 0 p k 1 p C. Mutt toislt kielen C määritelmän mukn pitäisi oll kosk k > 0. smll merkkijonoll 0 p k 1 p C Tässä on etsimämme ristiriit jok todist, että vstväite olikin väärin, eli että lkuperäinen väite olikin oikein. Pumppuslemmn ohell käytössämme ovt myös säännöllisten kielten sulkeumominisuudet (luse 5) j muut säännöllisiksi j ei-säännöllisiksi tunnetut kielet. Esimerkki 27. Osoit, että ei ole säännöllinen. D = {w {0, 1} w sisältää yhtä mont noll j ykköstä} Todistus: Tehdään ts vstoletus: D on säännöllinen. Kieli 0 1 on selvästi säännöllinen (joko kuvvn lusekkeens ti tunnistvn utomttins kutt). Siten kieli (0 1 ) D on säännöllinen (tunnettu sulkeumominisuus). Tämä on ristiriit, kosk (0 1 ) D on sm kuin C = {0 n 1 n iemmin todistettu ei-säännölliseksi esimerkissä 26. Esimerkki 28. Osoit (toistmiseen), että kieli ei ole säännöllinen. D = {w {0, 1} w sisältää yhtä mont noll j ykköstä} n N}, jok on Todistus: Tehdään jälleen se vstoletus että D on säännöllinen. Edetään tällä kert pumppuslemmll: Vlitn s = 0 p 1 p. Olkoon s = xyz D, missä y ε j xy p. Nyt y koostuu yhdestä ti usemmst nollst. Kosk xyz D, niin xyyz sisältää nolli enemmän kuin ykkösiä, joten xyyz D. Ristiriit. Miten vlitn sopiv s? Jos olisi vlittu s = (01) p, ei olisi stu ristiriit, kosk tätä voidn pumpt (esim. x = ε, y = 01, z = (01) p 1 ). Pitäisi siis keksiä (sille tuntemttomlle) utomtille hnkli tpuksi. 68

Heuristisi ohjeit ei-säännöllisyystodistuksiin Mikä ominisuus tekee kielen ei-säännölliseksi?. Usein ominisuus koskee kht snn os, joiden välillä vllitsee jokin ehto. Tämä ominisuus voi koske esim. tiettyjen merkkien lukumäärien keskinäistä suhdett, esim. L 1 = { k b m c m k, m = 0, 1, 2,...} L 2 = { m b 2m m = 0, 1, 2,...} snn eri osi, esim. snn lku- j loppuos riippuvt jotenkin toisistn: L 3 = {ww R w Σ } L 4 = {ww w Σ }. Mikä on yksinkertisin, mielivltisen pituinen merkkijono, joss tämä ominisuus esiintyy? Joskus kielessä on todistuksen knnlt täysin turhi (säännöllisiä) osi, esim. kielessä L 1 merkin lukumäärällä ei ole mitään väliä voidn vlit merkkijono b m c m. Mutt jos ehdon ospuolten välissä on tuollinen säännöllinen os, se stt oll trpeen ospuolien erottmiseen toisistn, esim. kielessä L 5 = { m b k m m, k = 0, 1, 2,...} trvitn inkin yksi b erottmn lkuosn j loppuos merkit. Vlitn esim. m b m. Jos kielen lku- j loppuos riippuvt jotenkin toisistn, mutt muuten ne svt oll mitä thns, riittää erott lku- j loppuos toisistn. Esim. kielen L 4 kohdll voidn vlit m b m b ti b m b m. Vlitse sn s siten, että pumpttv osjono y kuuluu sen ensimmäiseen p merkkiin. Test kikki pumppuslemmn mukiset jot s = xyz, xy p j y ε. Jokisell joll kokeile pumppust kierroslskurin i rvoill 0, 2, 3,... kunnes löytyy sellinen rvo i, että xy i z ei kuulu kieleen yleensä i = 0 ti i = 2 riittää. Tutkittvien tpusten vähentämiseksi knntt vlit sn s siten, että sen erilisi jkoj osiin xyz olisi mhdollisimmn vähän. Tätä käytimme esimerkin 26 todistessmme, että kieli C = {0 n 1 n n N} ei ole säännöllinen: vlitsimme merkkijonon s niin pitkäksi, että lkuos x j pumpputuv os y olivt molemmt 0-jonoj. Säännöllisten kielten luokk on suljettu (erityisesti) leikkuksen j komplementin suhteen. On nnettu kieli A, jok pitäisi osoitt ei-säännölliseksi. 69

Vlitn jokin säännöllinen kieli B, Jos nyt A B ei ole säännöllinen, niin myöskään A ei ole säännöllinen. (On kuitenkin oltv trkkn, esim. khden ei-säännöllisen kielen leikkus voi oll säännöllinen.) Jos A (komplementti) on ei-säännöllinen, niin myös A on ei-säännöllinen. Voidn siis sovelt pumppuslemm kieliin C = A B ti D = A mutt jos C ti D on jokin tunnetusti ei-säännöllinen kieli, erillistä pumppuslemmtodistust ei trvit. Pikkertus: tähän mennessä... Deterministinen äärellinen utomtti (DFA): yksinkertinen lskentlite, muisti vin vkiomäärä, syötteen pituudest riippumtt. Säännölliset kielet: niiden kielten luokk, jok voidn tunnist DFA:ll. Epädeterministinen äärellinen utomtti (NFA): kieli voidn tunnist DFA:ll jos j vin jos se voidn tunnist NFA:ll. NFA on hyödyllinen kuvusformlismi. DFA voi vti eksponentilisesti enemmän tiloj kuin NFA. Kieli voidn tunnist DFA:ll jos j vin jos se voidn kuvt lusekkeell. säännöllisellä Kikki kielet eivät ole säännöllisiä. Pumppuslemm voidn käyttää kielen epäsäännöllisyyden osoittmiseen. Eräs esimerkki ei-säännöllisestä kielestä on {w {, b} w = w R } Tähän mennessä: säännölliset kielet, tunnistus äärellisellä utomtill Seurvksi: kontekstittomt kielet, tunnistus pinoutomtill Myöhemmin (LAT-kurssill): kontekstilliset j rekursiiviset kielet: tunnistus Turingin koneell ( tietokoneell ) Kikki muut kielet: vin osittin rtkevi ( kyllä -tpuksess) ti täysin rtkemttomi. Koetehtäviä? Yleisesti, smntyylisiä kuin luentojen esimerkit j kotitehtävät. Perustehtäväprototyyppi: Tehtävä 26. Ldi DFA / NFA jok tunnist kielen X. Determinisoi utomtti käyttäen luennoill nnettu menetelmää. Mikä on utomtti / kieltä vstv säännöllinen luseke? Muunn säännöllinen luseke utomtiksi ti utomtti lusekkeeksi käyttäen luennoill nnettu menetelmää. Jne... Soveltvmp: 70

Tehtävä 27. Säännöllinen kieli A voidn tunnist deterministisellä äärellisellä utomtill M A. Kielen A komplementtikieli A voidn tunnist utomtill M A, jok sdn utomtist M A vihtmll hyväksyvät tilt ei-hyväksyviksi, j ei-hyväksyvät hyväksyviksi. Toisin snoen säännöllisten kielten luokk on suljettu komplementin suhteen. Edelleen, olkoon M A epädeterministinen utomtti, jok tunnist kielen A. Voidnko utomtist M A viht hyväksyvien j ei-hyväksyvien tilojen roolit edellä kuvtull tvll, j sd tulokseksi epädeterministinen äärellinen utomtti jok tunnist kielen A? Onko epädeterminististen utomttien tunnistmien kielten luokk suljettu komplementoinnin suhteen? Tehtävä 28. Miten mielivltisest NFA:st sdn NFA joss on vin yksi hyväksyvä til? Tehtävä 29. Voiko säännöllistä kieltä 0 1 tunnist deterministisellä äärellisellä utomtill, joss on vin yksi hyväksyvä til? Perustele. Tehtävä 30. Osoit, että säännöllisten kielten luokk on suljettu leikkuksen suhteen. Tehtävä 31. Olkoon A säännöllinen kieli. Osoit, että myös A R = {w R säännöllinen. w A} on Tehtävä 32. Olkoot kielet A j B säännöllisiä. Onko kieli C = A B = (A B) (B A) säännöllinen? (Siis w C, jos w kuuluu joko kieleen A ti B, mutt ei molempiin.) Perustele. Tehtävä 33. Mitkä seurvt kkoston Σ = {, b} kielistä ovt säännöllisiä? 1. E = { n n n N} 2. F = {wuw R w, u Σ + } 3. G = {ww w Σ } 4. H = { i b j i j} 71

5 Kontekstittomt kielet j pinoutomtit Kontekstittomt kielet (context-free lnguges, yhteydettömät kielet) voidn kuvt kontekstittomill kieliopeill (context-free grmmr) j tunnist epädeterministisillä pinoutomteill (pushdown utomton). Verrttun edelliseen lukuun, korvmme säännölliset lusekkeet näillä kieliopeill, j epädeterministiset äärelliset utomtit näillä pinoutomteill. Pinoutomtti on kuten äärellinen utomtti, johon on lisätty rjoittmttomn suuri muisti. Tämä muisti on TRA-kurssilt tuttu pino (stck). Tämä rjoittmttomn suuri muisti trkoitt, että pino-opertiot eivät koskn jumiudu virheilmoitukseen Out Of Memory Error. Tvoitteet: Opitn mitä ovt kontekstittomt kielet j pinoutomtit, j mikä on niiden välinen suhde. Opitn muodostmn kielioppi yksinkertisille kontekstittomille kielille. Opitn jäsentämisen perusidet. Johdttelev esimerkki: Miten kuvisit seurvt kielet? Sisäkkäisten sulkulusekkeiden kieli: if else-prien muodostm kieli: L ( ) = { ( k ) k k 0 } L if-else = { if k else l l k } Ne eivät ole säännöllisiä, joten säännöllisillä lusekkeill se ei onnistu. Rtkisuyritys: Annetn kielelle L ( ) rekursiivinen kuvus: Merkitään S = mielivltinen sisäkkäinen sulkuluseke. Tällöin S on sisäkkäinen sulkuluseke, jos 1. S = ε ti 2. S on muoto (S ), missä myös S on sisäkkäinen sulkumerkkijono. Toinen kuvustp (ensimmäinen kontekstiton kielioppimme): 1. S ε 2. S (S) Esimerkiksi merkkijonon ((())) tuottminen: S (S) ((S)) (((S))) (((ε))) = ((())) Vstv jäsennyspuu (tähän pltn vielä): 72

S S S ( ( ( ε ) ) ) Kontekstittomn kieliopin ide Joukko muuttujsymboleit j muunnossääntöjä tämän muuttujn esiintymän s korvt tuoll merkkijonoll jok voi vuorostn sisältää uusi muuttujsymbolien esiintymiä. Yksi näistä muuttujsymboleist on erityinen loitussymboli. Muunnetn merkkijono näillä säännöillä, kunnes siinä ei enää esiinny muuttujsymboleit. Näin on tuotettu lopullinen merkkijono. Esimerkki 29. Yksinkertinen kielioppi ritmeettisille lusekkeille: E T E + T T F T F F (E). Esimerkiksi ensimmäinen rivi luetn muuttujsymboli E voidn korvt merkkijonoll T ti merkkijonoll E + T joss T on toinen muuttujsymboli j + merkki. Se tuott vikkp ritmeettisen lusekkeen ( + ) seurvsti: E T T F F F (E) F (E + T ) F (T + T ) F (F + T ) F ( + T ) F ( + F ) F ( + ) F ( + ) Kusskin viheess on korvttu lleviivttu muuttujsymbolin esiintymä. Kontekstittomn kieliopin formli määritelmä Määritelmä 6. Kontekstiton kielioppi on nelikko joss G = (V, Σ, P, S) äärellinen joukko V on kieliopin kkosto; Σ V on kieliopin päätemerkkien joukko; sen komplementti N = V \ Σ on kieliopin välikemerkkien eli -symbolien joukko (joit edellä kutsuimme muuttujsymboleiksi); 73

äärellinen joukko P N V on kieliopin sääntöjen eli produktioiden joukko; j S N on kieliopin lähtösymboli. Sääntöä (A, ω) P merkitään A ω. Sen voi luke välike A voi tuott/joht merkkijonon ω. Intuitiivisesti kontekstiton kielioppi G = (V, Σ, P, S) tuott merkkijonoj Σ seurvll epädeterministisellä lgoritmill: 1 r S 2 while r sisältää välikesymbolej 3 do vlitse jokin A N (siis vikk ensimmäinen ti viimeinen) jonost r = αaβ, missä α V on sitä ennen tulev os, j β V on sen jälkeen tulev os 4 vlitse jokin välikkeen A sääntö A ω P 5 r αωβ 6 tulost näin stu r Silloin kieliopin G tuottm formli kieli L(G) muodostuu merkkijonoist r, jotk tämä lgoritmi voi tulost vlitsemll säännöt sopivsti rivillään 4. Kontekstittomn kielen formli määritelmä Merkkijono αaβ V, joss A N, voi tuott ti joht suorn merkkijonon αωβ V, jos kieliopiss G on sääntö A ω P. Tätä merkitään Esimerkiksi sekä että αaβ G αωβ T F G F F T F G T esimerkin 29 kieliopiss G ritmeettisille lusekkeille. Merkkijono γ 0 V, voi tuott ti joht merkkijonon γ n V, jos on olemss jono merkkijonoj V siten, että γ 0 γ 1 γ 2 G G G G γ n eli jos merkkijono γ 0 voi tuott suorn merkkijonon γ 1 jok voi tuott suorn merkkijonon γ 2 jok voi tuott suorn merkkijonon... jok voi tuott suorn merkkijonon γ n. 74

Tätä merkitään γ 0 γ n G Esimerkiksi ritmeettisten lusekkeiden kieliopill G pätee kosk siinä voidn joht T F (E) G T F G F F G (E) F G (E). Erikoistpuksen jokinen merkkijono γ V voi tuott itsensä eli γ γ G tyhjällä jonoll (joss n = 0). Esimerkiksi T F T F. G Merkkijono γ V on kieliopin G lusejohdos, jos γ voidn joht sen lähtösymbolist S: S γ. G Esimerkiksi (E) j ( + ) ovt lusejohdoksi esimerkin 29 kieliopiss ritmeettisille lusekkeille. Kieliopin G luse on sen pelkistä päätemerkeistä koostuv lusejohdos: S γ j γ Σ. G Esimerkiksi ( + ) on luse esimerkin 29 kieliopiss ritmeettisille lusekkeille. Kieliopin G tuottm ti kuvm kieli koostuu sen luseist: { } L(G) = γ Σ S γ. G L(G) on siis kikkien niiden luseiden (merkkijonojen) joukko, jotk voidn tuott kieliopill G loittmll sen lähtösymbolist S. Määritelmä 7. Formli kieli L Σ on kontekstiton, jos se voidn tuott jollkin kontekstittomll kieliopill. 75

Kontekstist Sn konteksti (englnniksi context ) on suomeksi luseyhteys. Siten snn kontekstiton tilll käytetäänkin joskus snoj yhteydetön ti yhteysvp. Kontekstiton viitt siihen, että kieliopin säännöt ovt muoto A ω, mikä voidn tulkit siten, että muuttuj A voi tuott merkkijonon ω, olip sen ympärillä mitä thns. Kontekstittomn kieliopin yleistys on konteksti(lli)nen kielioppi (context-sensitive grmmr). Tällisen kieliopin säännöt ovt muoto αaβ αωβ joss α, β V j ω V +. Tällinen sääntö tulkitn siten, että muuttuj A voidn korvt (epätyhjällä) merkkijonoll ω jos sen edessä on α j perässä β eli jos A on luseyhteydessä jotkinαaβmuut niin silloin siitä voidn joht jotkinαωβmuut. Lisäksi voidn slli produktio S ε, jott kielioppi voi hyväksyä myös tyhjän merkkijonon. Esimerkiksi kieli { n b n c n n N} ei ole kontekstiton, mutt se voidn esittää käyttämällä kontekstisi sääntöjä. Kontekstisi kielioppej ei käsitellä tällä kurssill. Nekin ovt silti kiintoisi... utomttien teoriss: Kuten jo vihjttiin, kontekstittomt kielet voidn tunnist utomteill joill on tvllinen pino. Kontekstiset ts utomteill joill on vopino. lskennn vtivuusteoriss: Kontekstiset kielet ovt ne, jotk voidn tunnist käyttämällä relistinen eli polynominen määrä muisti. Jos sllitn rjoittmttomt produktiot α β, missä α V + j β V, niin sdn rjoittmttomt kieliopit, joill voidn kuvt kikki lgoritmisesti generoitviss olevt kielet. Vkiintuneit merkintätpoj Välikesymboleit merkitään isoill kirjimill: A, B, C,..., S, T Päätemerkkeinä käytetään pieniä kirjimi, b, c,..., s, t; numeromerkkejä 0, 1,..., 9; erikoismerkkejä; vrttuj snoj kuten if,for,end,... lihvoituin ti lleviivttuin. 76

Mielivltisin merkkeinä (kun välikkeitä j päätemerkkejä ei erotell) käytetään X, Y, Z. Päätemerkkijonoin käytetään u, v, w, x, y, z. Sekmerkkijonoin käytetään α, β, γ,..., ω. Kielioppi esitetään usein pelkkänä sääntöjoukkon: Tällöin A 1 ω 11... ω 1k1 A 2 ω 21... ω 2k2. A m ω m1... ω mkm välikesymbolit päätellään joko edellisten merkintäsopimusten mukn ti siitä, että ne esiintyvät sääntöjen vsempin puolin lähtösymboli on ensimmäisen säännön vsempn puolen esiintyvä välike; tässä siis A 1. Esimerkki 30. Sisäkkäisten sulkujonojen muodostmn kielen L ( ) = {( k ) k k 0} tuott kielioppi G ( ) = ({S, (, )}, {(, )}, {S ε, S (S)}, S) Esimerkki 31. Tspinoisten sulkujonojen muodostmn kielen tuott kielioppi G ( ) = ({S, (, )}, {(, )}, {S ε, S (S), S SS}, S) Esimerkiksi ()(()) on tspinoinen muttei sisäkkäinen sulkujono. Tämän mhdollist uuden säännön lisäämisen edellisen esimerkin 30 kielioppiin. Esimerkki 32. Kielen { i b k c k i, k = 0, 1,...} voi tuott kieliopill G = (V, Σ, P, S), joss V = {S, A, B,, b, c} Σ = {, b, c} P = {S AB, A A, A ε, B bbc, B ε}. Esimerkki 33. Yksinkertisten ritmeettisten lusekkeiden muodostmn kielen L expr tuott kielioppi G expr = (V, Σ, P, E) (6) joss V = {E, T, F,, +,, (, )}, Σ = {, +,, (, )}, P = {E T, E E + T, T F, T T F, F, F (E)}. 77

Kieliopill G expr voidn joht esim. seurvt lusejohdokset: E G E + T G T + T G T F + T G F F + T G F + T G (E) + T G (T ) + T G (F ) + T G () + T G () + F G () + Toinen kielioppi kielen L expr tuottmiseen on joss V = {E,, +,, (, )}, Σ = {, +,, (, )}, G expr = (V, Σ, P, E), (7) P = {E E + E, E E E, E, E (E)} Esimerkki 34. XML-dokumenttien kvioformlismit kuten DTD (Document Type Definition) muistuttvt kontekstittomi kielioppej. Dokumenttikvio kuv dokumentin elementtirkennett, jok näkyy sen XML-kooduksess käytettävistä elementtitunnisteist (eli tägeistä ) kuten <lsku> j </lsku> ll: <lsku><siks><etunimi>klle</etunimi> <sukunimi>könönen</sukunimi> </siks> <tuote><nimi>suksi</nimi><hint>99</hint><lkm>2</lkm></tuote> <tuote><nimi>pitoteippi</nimi><hint>5</hint><lkm>1</lkm></tuote> </lsku> Dokumenttikvioiden välikesymbolein käytetään elementtien nimiä kuten ll: <!ELEMENT lsku (siks, tuote+)> <!ELEMENT siks (etunimi, sukunimi, osoite?)> <!ELEMENT tuote (nimi, hint, lkm)> Vlidi elementti on tällöin sitä vstvn välikesymbolin tuottm luse. Elementtisisällölle tyypillinen vlinnisuus j toisto kuvtn säännöllisillä lusekkeill. Sikäli dokumenttikviot muistuttvt ns. ljennettuj kontekstittomi kielioppej (ECFG), joiden produktiot voivt smoin sisältää säännöllisiä lusekkeit. 78

Oleellisin ero kontekstittomiin kielioppeihin: Kontekstittomt kieliopit kuvvt merkkijonoj. Dokumenttikviot sitä vstoin kuvvt konkreettisen tekstiesityksen sijst hierrkkist elementtirkennett. Siten dokumenttikviot vstvt pikemmin ns. säännöllisiä puukielioppej, joit vstvt lskentmllit ovt ns. puuutomttej. Esimerkki 35. Trkstelln suomen kielen virkettä, jok koostuu yksinkertisest pääluseest sekä nollst ti usemmst sisäkkäisestä reltiiviluseest: L rel = {subj (jok pred ttr obj) pred ttr obj} Tällisi virkkeitä voidn tuott esim. seurvill kontekstittomn kieliopin G rel säännöillä: VIRKE SUBJ SL PRED ATTR OBJ SL jok PRED ATTR OBJ SL ε SUBJ poik tyttö jänis susi peikko PRED pelkäsi metsästi ATTR suurt pientä vihist hirmuist rk OBJ poik tyttöä jänistä sutt peikko Mitä virkkeitä voit joht lähtösymbolist VIRKE? Kontekstittomt kieliopit ovt luontisi positionlisille kielille, joss kuk teki mitä kenelle ilmistn niiden pikoill luseess. Esimerkiksi englnnin kielessä on snjärjestys on vltosin subjekti-verbiobjekti (SVO) kuten yllä. Mutt suomen kielessä snjärjestys onkin vp j kuk teki mitä kenelle ilmistnkin sijmuodoill. Esimerkki 36. Ohjelmointikielten syntksin kuvus. Psclin osjoukko: luse ehtoluse koottu-luse sijoitus kutsu ehtoluse if ehto then luse else luse ehto x=0 koottu-luse begin lusejono end lusejono luse luse ; lusejono sijoitus x:=0 kutsu b c Tästä on hyötyä ohjelmoijlle (syntksi pitää ost, jos ikoo ohjelmoid), mutt myös kääntäjä (ti yksi sen os, jäsennin (englnniksi prser )) voidn lti suorviivisesti perustuen kielioppiin. Jäsennystä edeltää yleensä selusvihe, joss ohjelmn lähdekoodi pilkotn yllä kuvttuihin osiin (vrtut snt, muuttujt, liohjelmien nimet, vkiot, jne) käyttäen äärelliseen utomttiin perustuv trnsduktori. (Ks. sivu 109.) Tehtävä 34. Ldi kontekstiton kielioppi, jok tuott rjttomn monist sisäkkäisistä for-silmukoist, lkeisopertioist j kokonislukuvkioist N koostuvt ohjelmointikielen luseet, kuten for (i=n; i<n; i++) { for (j=n; j<n; j++) { } } 79

Muit sovelluksi ovt esimerkiksi pseudotiedettä suoltv puppugenerttori http: //pdos.csil.mit.edu/scigen/...... sekä ksvikieliopit (nimeltään L- eli Lindenmyer-systeemit): Niiden iden on mllint sitä biologist kontrollimeknismi, jok määrää, että tähän kohtn ksv uusi oks, tuohon kohtn ts uusi lehti. Vstvntpisi, hyödyllisempiä, sovelluksi on muitkin, kuten neuroverkkojen rkenteen generointi kieliopill (jok on voitu generoid vikkp geneettisillä lgoritmeill), yms. Induktiivisist nottion määritelmistä Usein määritellään jokin nottio induktiivisesti eli itseensä viittvsti kuvilemll se luonnollisell kielellä. Itse siss silloin määritelläänkin usein nottiolle kontekstiton kielioppi, sitä vin ei lusut ääneen. Esimerkiksi edellä määriteltiin kkoston Σ säännölliset lusekkeet: Vkiot j ε ovt jokisen kkoston säännöllisiä lusekkeit siis kieliopiss on säännöt S j S ε. kkoston jokinen merkki Σ on sen säännöllinen luseke siis kieliopiss on om sääntönsä S jokiselle Σ jos r j s ovt kkoston Σ säännöllisiä lusekkeit, niin myös (r s), (rs) j r ovt sen säännöllisiä lusekkeit siis kieliopiss on säännöt S (S S) S (SS) S S 80

joiss on käytetty sitä mhdollisuutt viitt tähän prhilln määriteltävänä olevn nottioon myös sitä määrittelevien sääntöjen oikeill puolill. Sitten usein jtketn määrittelemällä säännöt, joill sulkuj voi jättää pois. Sen vstine kieliopiss on hierrkkinen rkenne. Esimerkiksi säännöllisille lusekkeille määriteltiin että Operttoreist sitoo vhvimmin, sitten tulo, j heikoimmin. Vstv hierrkkinen rkenne esitetään uusill välikkeillä j säännöillä jotk korvvt entiset: S T S T UT S T T U U U U V U (S) V V ε V jokisell merkillä Σ joss U sitoo vhvimmin, sitten T j heikoimmin S. Sulkuj trvitn vin silloin, kun hypätään vhvemmst tkisin heikompn. Iden on, että nottioll kirjoitettujen ilmusten rkenne eli ns. jäsennyspuu säilyy yksiselitteisenä vikk sulkuj ei olekn. Tähän pltn myöhemmin. Myös induktiivisesti määritellyn nottion merkitys määritellään induktiivisesti, eli suhteess tähän ääneen lusumttomn kielioppiin. Esimerkiksi säännöllistä lusekett r vstv kieli L(r) Σ määriteltiin tähän tpn: L( ) = L() = {} jokisell Σ L((rs)) = L(r)L(s) L(ε) = {ε} L((r s)) = L(r) L(s) L(r ) = (L(r)) Kieliopillisesti tällinen määritelmä trkoitt esimerkiksi että Kun käytetään sääntöä S (S S) niin silloin 1. ensin luodn näillä smoill peritteill se kieli L 1 jonk määrittelee säännön oiken puolen ensimmäinen S jot edellä merkittiin r 2. sitten se L 2 jonk määrittelee jälkimmäinen S jot merkittiin s 3. lopuksi sovitn, että säännön vsemmll puolell olev S määrittelee niistä rkennetun kielen L 1 L 2. Näin kielioppisääntöihin voidn liittää ominisuuksi eli ttribuuttej sekä niille lskusääntöjä, j sdn määriteltyä nottiolle yhtä ik syntksi eli miten nottion ilmukset pitää kirjoitt semntiikk eli miten nämä oikein kirjoitetut ilmukset pitää ymmärtää. Tälliset ttribuuttikieliopit ovt keskeinen työväline silloin kun tietokone ohjelmoidn käsittelemään nottiot 81

syntktisesti eli trkistmn että ilmus on oikein kirjoitettu tätä jäsennysongelm käsitellään tällä kurssill semnttisesti eli lskemn oikein kirjoitetun ilmuksen merkitys sen jäsennyspuust näillä lskusäännöillä tätäkin sivutn. (Tämä on kuitenkin syntktist semntiikk eihän tietokone todellisuudess mitään ymmärrä... ) Kehitimmekin lskusäännöt tämän säännöllisen lusekkeen määrittelemää kieltä vstv äärellinen utomtti luseen 3 todistuksen! 5.1 Kontekstittomien kielten sulkeumominisuuksist Kontekstittomi kielioppej on helppo tuott soveltmll moni vstvi opertioit kuin säännöllisissä lusekkeiss. Huom: Kontekstittomien kielten luokk ei kuitenkn ole suljettu kikkien smojen opertioiden suhteen kuin säännöllisten kielten luokk! Luse 8. Jos A j B ovt kontekstittomi kieliä, niin myös niiden yhdiste A B, tulo AB j sulkeum A ovt kontekstittomi kieliä. Todistus: Trkstelln esimerkkinä yhdistettä A B; muut kohdt menevät smn tpn. Olkoot siis A j B kkoston Σ kontekstittomi kieliä. Siis A = L(G A ) j B = L(G B ) joillin kontekstittomill kieliopeill G A = (V A, Σ, P A, S A ) j G B = (V B, Σ, P B, S B ). Olkoon S / N A N B. Määritellään G = (V A V B {S}, Σ, P, S), missä P = P A P B {S S A } {S S B }. Selvästi L(G) = A B. Toislt, toisin kuin säännöllisten kielten luokk, kontekstittomien kielten luokk ei ole suljettu leikkuksen j komplementin suhteen. Toislt ts jos kieli A on säännöllinen, j kieli B kontekstiton, niin niiden leikkus A B on kontekstiton. Joitkin ei-säännöllisiä kieliä, kuten {0 n 1 n n N} ti {w {0, 1} w = w R } on helppo tuott kontekstittomll kieliopill. Toislt esimerkiksi kopiokieli {ww w {0, 1} } ei ole kontekstiton (vn kontekstinen). Miten keksiä nnetulle kielelle kielioppi? On nnettu kontekstiton kieli L, j ldittv sen tuottv kontekstiton kielioppi G. Lähtökoht: Millisen kielen L määrittely kuv? Yritä esittää L usemmn yksinkertisemmn kielen yhdisteenä (kuten L = L 1 L 2 L 3 ), tulon (kuten L = L 1 L 2 ) ti sulkeumn (kuten L = (L 1 L 2 ) ). Ldi näille oskielille L 1, L 2,... kieliopit. Olkoot niiden lkusymbolit S 1, S 2 j S 3. 82

Ldi sitten koko kielen L kielioppi seurvsti: Muit usein toistuvi rkenteit: Kieli Säännöt L = L 1 L 2 L 3 S S 1 S 2 S 3 L = L 1 L 2 S S 1 S 2 L = (L 1 ) S S 1 S ε L = (L 1 L 2 ) S SA ε, A S 1 S 2 Kieli Säännöt {, b} A b L( ) = {ε,,,,...} A A ε {b n c n n = 0, 1, 2,...} B bbc ε {b 2n c n n = 0, 1,...} B bbbc ε Tehtävä 35. Ldi kielioppi seurville kielille: 1. 01 10 2. 0 1(0 1) 3. {0 n 1 n n N} {1 n 0 n n N} 4. {ww R w {0, 1} } 5. {w {0, 1} w = w R } 5.2 Säännölliset j kontekstittomt kielet Säännölliset kielet sisältyvät idosti kontekstittomiin kieliin, jotk vuorostn sisältyvät idosti kontekstisiin kieliin. Siis jokinen säännöllinen kieli voidn kuvt kontekstittomll kieliopill jop rkenteeltn yksinkertisell linerisell kieliopill. tyyppi 2: kontekstittomt kielet tunnistus: pinoutomtti tyyppi 3: säännölliset kielet tunnistus: äärellinen utomtti rjllinen muisti äärelliset kielet; tunnistus: ns. "trie" 83

Lineriset kieliopit Määritelmä 8. Kontekstiton kielioppi on oikelle linerinen jos sen kikki produktiot ovt muoto A ε ti A B, j vsemmlle linerinen jos sen kikki produktiot ovt muoto A ε ti A B. Intuitiivisesti kielioppi on oikelle linerinen jos välikesymboli s esiintyä vin säännön oikess lidss eikä missään muull. Oikelle j vsemmlle linerisill kieliopeill voi kuvt täsmälleen smt (säännölliset) kielet. Osoitetn seurvksi, että 1. jokist äärellistä utomtti vst oikelle linerinen kielioppi j 2. jokist oikelle linerist kielioppi vst äärellinen utomtti. 5.2.1 Äärellistä utomtti vstv linerinen kielioppi Luse 9. Jokinen säännöllinen kieli voidn tuott oikelle linerisell kieliopill. Todistus: Olkoon kieli L Σ säännöllinen j M = (Q, Σ, δ, q 0, F ) sen tunnistv äärellinen utomtti. Muodostetn kielioppi G M, jok tuott smt merkkijonot, jotk M hyväksyy. Silloin L(G M ) = L(M) = L. Kieliopin G M päätekkostoksi vlittn utomtin M syötekkosto eli Σ. Luodn kielioppiin G M om välike A q jokiselle utomtin M tillle q Q. (Muit välikkeitä kielioppiin ei tule.) Kieliopin L G lähtösymboli on A q0 eli utomtin M lkutil q 0 vstv välike. Kieliopin G M säännöt suunnitelln oikelle linerisiksi j siten, että siinä on lusejohdos ua p täsmälleen silloin kun utomtiss M päästään lkutilst q 0 tiln p lukemll syötemerkkijono u Σ. Ti toisin merkiten, kieliopin G M lusejohdokset ovt muoto ua δ (p 0,u). Tämä svutetn siten, että jokinen utomtin M siirtymä p c q tuott kielioppiin G M säännön A p ca q. Silloinhn ua p G M uca q kuten hlusimmekin. Automtin M pysähtyminen esitetään siten, että lusejohdoksen oikess lidss olev ino välike kto; silloinhn merkkijono u on sellinen jonk M hyväksyy, joten sen pidentäminen lisämerkeillä c voidn lopett. Siis siten, että kielioppiin G M lisätään sääntö A q ε jokiselle utomtin M lopputillle q F. Kielioppi G M on nyt vlmis. Esimerkki 37. Kuvss on yksinkertinen äärellinen utomtti, jok tunnist kielen L = {w {, b} w sisältää vähintään yhden merkin b}. 84

, b b 1 2 Automtti vstv kielioppi on: A 1 A 1 ba 2 A 2 ε A 2 ba 2 5.2.2 Linerist kielioppi vstv äärellinen utomtti Luse 10. Jokinen oikelle linerisell kieliopill tuotettv kieli on säännöllinen. Todistus: Tehdään edellisen luseen 9 konstruktio toiseen suuntn. Olkoon siis G = (V, Σ, P, S) oikelle linerinen kielioppi. Muodostetn kielen L(G) tunnistv epädeterministinen äärellinen utomtti M G = (Q, Σ, δ, q S, F ) seurvsti: Tilt vstvt kieliopin välikkeitä: Q = {q A A V \ Σ} Alkutil on lähtösymboli S vstv til q S. Syötekkosto on päätekkosto Σ. Siirtymäfunktio δ jäljittelee produktioit siten, että produktiost A B tulee siirtymä q A q B (eli q B δ(q A, )). Lopputiloj ovt ne tilt, joit vstviin välikkeisiin liittyy ε-produktio: F = {q A Q A ε P } Yhteenveto lineristen kielioppien j äärellisten utomttien vstvuuksist: Äärellinen utomtti til q lkutil q 0 Linerinen kielioppi välikesymboli A q lähtösymboli A q0 siirtymä q q sääntö A q A q hyväksyvä til q F sääntö A q ε Esimerkki 38. Olkoon d lyhenne lukumerkille {0, 1,..., 9}. Trkstelln seurv oikelle linerist kielioppi: S +A A db A db B db ε 85

d +, d q S q A q B d Kuv 15: Kokonislukuutomtti niiden kieliopist. Automttiin tulee kolme til: q S, q A j q B. Lähtösymboli S vst lkutil q S j säännöstä B ε tiedämme, että q B on (ino) lopputil. Muit sääntöjä vstvt tilsiirtymät q S + q A q S q A q S d q B q A d q B q B d q B Sdn kuvn 15 tuttu utomtti, jok tunnist etumerkilliset kokonisluvut. Huom: Kielioppi voi usein oll luontevmpi luke kuin äärellistä utomtti ti säännöllistä lusekett. Tässäkin välike B voidn luke 0 ti usempi numeromerkkejä jne. Tehtävä 36. Piirrä seurvi kielioppej vstvt äärelliset utomtit: 1. Luseke:, kielioppi: S S ε. 2. Luseke: + =, kielioppi: S S. 3. Luseke: (b ) bb, kielioppi: S A bb A S ba B bb ε 4. Luseke: (), kielioppi: S S ε. 5. Luseke: (b b b ), kielioppi: S BBBS ε B bb ε 6. Luseke: (0 1... 9)(0 1... 9), kielioppi: S DN N DN ε D 0 1... 9 86

syötenuh tutkittv syöte b b b b... nuhpää ohjusyksikkö q 0 q 3 q 1 q 2 δ A A A A_ pino 5.3 Pinoutomtti Kuv 16: Kvkuv pinoutomtist. Pinoutomtti (push-down utomton, PDA) on äärellinen utomtti, johon on lisätty rjoittmton määrä muisti pinon muodoss kuvn 16 tpn. Kuten ennenkin, syöte hyväksytään jos sen loputtu olln hyväksyvässä tilss. Muistutus kurssilt TRA: Pino on tietorkenne, joll on seurvt opertiot: Luo tyhjä pino. Test onko pino tyhjä vi onko siinä tietolkioit. Lisää pinoon jokin tietolkio x eli opertio push(x). Poist epätyhjästä pinost sinne viimeiseksi viety tietolkio eli opertio pop. Pinon vull voidn pitää kirj luetuist merkeistä j tehdä moni muitkin sioit... Osoitmme, että pinoutomteill voidn tunnist täsmälleen kontekstittomt kielet. n N} voi hyväksyä pinon vull seur- Esimerkki 39. Ei-säännöllisen kielen {0 n 1 n vn tpn: 1 luss pino on tyhjä 2 while seurv luettu syötemerkki on 0 3 do push(0) 4 while seurv luettu syötemerkki on 1 nd pino ei ole tyhjä 5 do pop 6 return onko koko syöte luettu nd pino jälleen tyhjä 87

Pinoutomtti vs äärellinen utomtti Äärellisen utomtin siirtymää esitimme q q mikä trkoitt, että tilst q voi siirtyä tiln q kun luetn j ohitetn. Pinoutomtin siirtymä huomioi lisäksi kksi pinomerkkiä:, γ/γ q q Merkitys: tilst q voi smoin siirtyä tiln q, jos lisäksi pinon huipull on merkki γ, jok korvtn merkillä γ. Kukin merkeistä, γ j γ voi oll myös ε: jos = ε, syötettä ei luet jos γ = ε, pinon vnh huippu ei luet eikä poistet jos γ = ε, uutt merkkiä ei lisätä pinon päälle Pinoutomtin formli määritelmä Määritelmä 9. Pinoutomtti on kuusikko joss Q on äärellinen tilojen joukko; Σ on äärellinen syötekkosto; Γ on äärellinen pinokkosto; funktio M = (Q, Σ, Γ, δ, q 0, F ), δ : Q (Σ {ε}) (Γ {ε}) P(Q (Γ {ε})) on (joukkorvoinen) siirtymäfunktio; q 0 Q on lkutil; j F Q on hyväksyvien lopputilojen joukko. 88

Siirtymäfunktion tyyppi Siirtymäfunktioll δ(q, σ, γ) on nyt kolme rgumentti: 1. q Q on nykyinen til, kuten ikisemminkin; 2. σ Σ on seurv syötemerkki, kuten ikisemminkin; j 3. γ Γ on pinon päällimmäinen merkki. Jokisell skeleelln pinoutomtti siis voi käyttää näitä kikki kolme tieto vlitessn mitä tehdä seurvsti...... mutt sen ei ole pkko käyttää seurv syötemerkkiä σ j/ti pinon päällimmäistä merkkiä γ: Jos merkkiä ei käytetä, niin sen tilll on rgumenttin ε. Jos merkki käytetään, niin se myös kulutetn: siis seurv syötemerkki σ ohitetn j/ti pinon päällimmäinen merkki γ poistetn pinost. Siirtymäfunktion rvo δ(q, σ, γ) on joukko prej (q, γ ), joiss q Q on utomtin seurv til, j γ Γ on pinon päälle lisättävä merkki. Kuten γ yllä, myös tämä γ voi puuttu, j silloin sen tilll onkin ε. Pinoutomtin lskennn eteneminen Pinoutomtin M tilnne on kolmikko (q, w, α) Q Σ Γ eli siinä on nykyinen til q Q vielä lukemton syöte w Σ pinon nykyinen sisältö α Γ kirjoitettun merkkijonoksi, joss päällimmäinen merkki on ensimmäisenä (eli vsemmnpuoleisimpn) jne. Alkutilnne syötteellä x on kolmikko (q 0, x, ε) eli pino on luss tyhjä. Tilnne (q, σw, γα), joss σ Σ {ε} j γ Γ {ε}, voi joht suorn tilnteeseen (q, w, γ α) jos Tätä merkitään (q, γ ) δ(q, σ, γ). (q, σw, γα) (q, w, γ α). M Tilnne (q 0, w 0, α 0 ) voi joht tilnteeseen (q n, w n, α n ) jos on olemss tilnnejono (q 0, w 0, α 0 ) (q 1, w 1, α 1 ) (q 2, w 2, α 2 ) M M M (q n, w n, α n ). M Tätä merkitään (q 0, w 0, α 0 ) (q n, w n, α n ). (Tilnne voi joht myös itseensä; siis M sllitn, että johdon pituus n = 0.) 89

Pinoutomtti M hyväksyy syötemerkkijonon x Σ jos joillkin q F F j α Γ. (q 0, x, ε) (q F, ε, α) M Toisin snoen, jos sen lkutilnne syötteellä x voi joht johonkin selliseen tilnteeseen, joss koko syöte x on luettu j olln josskin hyväksyvässä tilss q F. Muuten M hylkää tämän syötteen x. Pinoutomtin tunnistm kieli on L(M) = {x Σ M hyväksyy syötteen x} eli sen hyväksymät syötemerkkijonot x. Epäoleellisi yksityiskohti Tässä määritelmässä pinon ei trvitse oll tyhjä lskennn päättyessä. Toisiss lähteissä ts vditn pinonkin olevn tyhjä (eli α = ε) ennen kuin voidn hyväksyä. Tämä ei kuitenkn ole oleellinen ero, kosk voimmehn lisätä loppuun silmukn jok tyhjentää pinon. Tässä määritelmässä ei ole testiä onko pino tyhjä viko ei? Tällinen testi on kuitenkin helppo lisätä trvittess: Lisätään pinokkostoon Γ uusi symboli $ j loitetn utomtin lskent viemällä se pinon pohjimmiseksi merkiksi. Sen jälkeen voidn tämä testi suoritt kysymällä onko pinon päällimmäinen merkki $ viko ei kunhn sitä ei koskn poistet pinost (pitsi juuri ennen syötteen x hyväksymistä, mikäli pino pitää tyhjentää ennen sitä kuten yllä). Kksi pino olisi liik Jos pinokkostoss Γ on pohjmerkin $ lisäksi vin yksi muu merkki, niin silloin kyseessä on yksilskuriutomtti (one-counter utomton): Sellisell pinoll voi ylläpitää yhtä lskuri N j kysyä onko sen rvo = 0 viko > 0. Käytimme tätä ominisuutt ikisemmss esimerkissä 39. Yhdellä lskurill voi tunnist joitkin ei-säännöllisiä kieliä, mutt ei kikki kontekstittomi kieliä. Olemme määritelleet utomtin, joll on yksi pino. Entäpä jos pinoj olisikin usempi? Ehkä yllättäen: Jo khdell pinoll hyppäisimme kontekstittomist kielistä in rekursiivisesti lueteltviin kieliin skk eli lskettvuuden äärirjoille. Entäpä jos sllisimmekin usempi lskureit nehän ovt yleisiä pinoj yksinkertisempi? Ehkä vieläkin yllättävämmin: Jo khdell lskurillkin hyppäisimme yhtä kus. 90

q Til q q 0 Alkutil Hyväksyvä til, γ/γ q q Tilsiirtymä (q, γ) δ(q,, γ) Kuv 17: Pinoutomtin tilsiirtymäkvion merkinnät. Pinoutomtin tilsiirtymäkvio Pinoutomteille käytämme vstvi kvioit kuin äärellisille utomtille. Nyt lisätään tilsiirtymänuoleen vnh j uusi pinonhuippumerkki γ j γ. Ks. kuv 17. Esimerkki 40. Kieli { k b k k 0} voidn tunnist seurvnlisell pinoutomtill M = ({q 1, q 2, q 3, q 4 }, {, b}, {, $}, δ, q 1, {q 1, q 4 }) joss on käytetty pinon pohjmerkkiä $. δ(q 1, ε, ε) = {(q 2, $)}, δ(q 2,, ε) = {(q 2, )}, δ(q 2, b, ) = {(q 3, ε)}, δ(q 3, b, ) = {(q 3, ε)}, δ(q 3, ε, $) = {(q 4, ε)}, δ(q, σ, γ) = muill (q, σ, γ). ε, ε/$ q 1 q 2 q 4 q 3 ε, $/ε b, /ε, ε/ b, /ε Esimerkiksi syötteellä bb esimerkin 40 utomtill on seurv lskent: (q 1, bb, ε) (q 2, bb, $) (q 2, bb, $) (q 2, bb, $) (q 3, b, $) (q 3, ε, $) (q 4, ε, ε). Kosk q 4 F = {q 1, q 4 }, pätee siis bb L(M). 91

5.3.1 Deterministiset j epädeterministiset pinoutomtit Determinismin intuitio on, että lskulitteell on in korkeintn yksi mhdollinen seurv skel Epädeterminismin intuitio ts on, että mhdollisi skeleit onkin useit, j lskulite rv ti tietää mikä niistä on tällä hetkellä se oike vlint, jok iknn joht syötteen hyväksymiseen. Määritelmä 10. Pinoutomtti M on deterministinen, jos jokisell tilnteell (q, w, α) on korkeintn yksi mhdollinen seurj (q, w, α ), joll (q, w, α) (q, w, α ). M Määritelmän 10 mukn pinoutomtti on epädeterministinen, jos siinä on smst tilst p kksi eri siirtymää p σ 1,γ 1 /γ 1 q 1 j p σ 2,γ 2 /γ 2 q 2, joill σ 1 σ 2, γ 1 γ 2 j q 1 q 2 ti γ 1 γ 2, missä b trkoitt että merkit j b ovt smt ti inkin toinen niistä on ε. Silloin utomtti voisi sovelt sopivss tilnteess kuten (p, σ 1 σ 2..., γ 1 γ 2...) kump thns niistä j ne johtisivt khteen eri seurvn tilnteeseen. Tämän määritelmän 10 mukinen epädeterministinen pinoutomtti ei välttämättä koskn oikesti teekään epädeterminististä rvust: Vikk siinä olisikin kksi tällist siirtymää, niin sen rkenne voikin kokonisuudessn oll sellinen, ettei tällist sopiv tilnnett koskn ilmene sen lskennoiss esimerkiksi jos tilss q ei koskn pino olekn muoto γ 1 γ 2.... Huom: Toisin kuin äärelliset utomtit, epädeterministiset pinoutomtit ovt tunnistusvoimltn deterministisiä vhvempi! Osoitmme pin, että jokinen kontekstiton kieli voidn tunnist jollkin epädeterministisellä pinoutomtill. Toislt joitin niistä ei voi tunnist millään determistisellä pinoutomtill. Eräs tällinen on prillisen pituisten plindromien muodostm kieli { ww R w {, b} }. (8) Intuitiivisesti, epädeterministinen pinoutomtti rv syötteensä keskikohdn, jonk jälkeen voidn voidn lk luke sen loppuos w R. (Ks. kuv 18.) Deterministinen utomtti ei pysty hvitsemn tämä keskikoht omin päin. Mutt jos tämä keskikoht on merkitty, niin kielestä tuleekin deterministinen: { wcw R w {, b} }. Toinen tp jtell tätä ero on, että epädeterminististä pinoutomtti ei välttämättä pystykään determinisoimn. Intuitiivisesti kyse on seurvst: 92

ε, ε/$ q 1 q 2, ε/ b, ε/b ε, ε/ε q 4 ε, $/ε q 3, /ε b, b/ε Kuv 18: Plindromin keskikohdn rvv pinoutomtti. Tilnne: Epädeterministisen pinoutomtin yksi siirtymä pinisi jotin pinoon kun ts toinen siirtymä poistisi pinon huippulkion. Ongelm: Mitä determinisoidun utomtin pitäisi silloin tehdä? Senhän pitäisi jotenkin pystyä seurmn molempi vihtoehtoj! Esimerkki 41. Plindromien muodostm kieli (8) voidn tunnist seurvsti: 1. Syötteen ensimmäisen puolikkn jn litetn merkkejä pinoon. 2. Syötteen keskikoht rvtn epädeterministisesti. 3. Syötteen toisen puolikkn jn poimi merkkejä pinost j vert juuri luettuun merkkiin. Esimerkiksi syötteellä bb kuvn 18 epädeterministisellä pinoutomtill on seurv lskent: (q 1, bb, ε) (q 2, bb, $) (vihe 1) (q 2, bb, $) (q 2, b, b$) (rvus 2) (q 3, b, b$) (vihe 3) (q 3,, $) (q 3, ε, $) (q 4, ε, ε) Kosk q 4 F = {q 1, q 4 }, lskent on hyväksyvä. Deterministinen kontekstiton kieli Määritelmä 11. Kontekstiton kieli on deterministinen, jos se voidn tunnist jollkin deterministisellä pinoutomtill, muuten se on epädeterministinen. Esimerkiksi plindromikieli {ww R } j kieli ovt epädeterministisiä. L 2 = { n b m c k n m ti m k } 93

Deterministiset kielet ovt tärkeä kieliluokk, sillä ne voi tunnist eli jäsentää tehokkmmin kuin epädeterministiset kielet. Siksi jos voimme itse suunnitell kielen (kuten vikkp määritellessämme uutt ohjelmointikieltä) teemme siitä deterministisen. 5.3.2 Pinoutomtit j kontekstittomt kielet Luse 11. Kikki kontekstittomt kielet voidn tunnist (epädeterministisillä) pinoutomteill j kikki pinoutomttien tunnistmt kielet ovt kontekstittomi. Todistus: kääntäen: Mielivltisen kontekstittomn kieliopin voi muunt pinoutomtiksi, j 1. Esitetään ensin muunnos kieliopist utomtiksi. 2. Sitten luonnostelln myös käänteinen muunnos utomtist kieliopiksi. Kieliopist pinoutomtiksi Peruside on lti nnetun kieliopin pohjlt pinoutomtti, jok toteutt seurvn lgoritmin: Generoi: Tuot epädeterministisesti pinoon merkkijono w Σ, joll S w. Test: Vert pinon merkkijono w syötteeseen merkki kerrlln. Jos löytyy ero, hylkää. Jos pino tyhjenee smn ikn, kun syöte loppuu, niin hyväksy. Toisin snoen, generointivihe rv minkä syötteen utomtti si, j testusvihe trkist että rvus meni oikein. Epädeterminismi on oleellist: vlitsemll generoimisviheess sovellettvt säännöt epädeterministisesti vrmistetn, että jokisell kieleen kuuluvll merkkijonoll w on mhdollisuus tull tuotetuksi. Toteutust rjoitt, että utomtin tietorkenne on pino, jost vin huippu on kulloinkin näkyvissä. Siksi generointi- j testusvihe pitää lomitt: Ain kun pinon huipulle sdn päätesymboleit, käydään vertmss niitä syötteeseen ennen generoinnin jtkmist. Sdn kuvn 19 trkennettu lgoritmi jok pitää vielä koodt pinoutomtiksi. Tämän pinoutomtin pinokkostoksi Γ = V {$} tulee siis kieliopin kkosto V sekä pinon pohjmerkki $ V. syötekkostoksi tulee puolestn kieliopin päätemerkkien joukko Σ. Esimerkki 42. Trkstelln kielioppi S S T T bt c ε j merkkijono bbcc, jok voidn joht seurvsti: 94

1. Alust pinon sisällöksi S$, joss S on kieliopin lähtösymboli j $ pinon pohjmerkki. 2. Toist seurv: () Jos pinon huipull on muuttujsymboli A, niin vlitse epädeterministisesti jokin sääntö A w. Korv A merkkijonoll w. (b) Jos pinon huipull on päätesymboli, niin poist se pinost j vert seurvn syötemerkkiin. Jos ne erovt, hylkää. (c) Jos pino on tyhjä (eli sen huipull on $) niin hyväksy jos syötekin on loppu; muuten hylkää. Kuv 19: Generoi-j-test -lgoritmi. S S (S S) T (S T ) bt c (T bt c) bbt cc (T bt c) bbcc (T ε) Hlumme siis muodost pinoutomtin, jok syötteellä bbcc vuorotellen sovelt pinoon ylläolevn johdon sääntöjä j poist pinost syötettä vstvi päätemerkkejä. Pino käyttäytyy siis kuten vieressä: jäljellä olev syöte pinon sisältö bbcc ε bbcc $ bbcc S$ bbcc S$ bbcc T $ bbcc bt c$ bcc T c$ bcc bt cc$ cc T cc$ cc cc$ c c$ $ ε $ ε ε Otmme käyttöön lyhennysmerkinnän (q, γ ) δ(q, σ, γ) missä γ = g 1 g 2 g 3... g m Γ on jono pinomerkkejä (kun iemmin sllittiin korkeintn yksi pinomerkki eli m 1). Tämä merkintä luetn seurvsti: Jos utomtti on tilss q, niin voidn siirtyä tiln q lukemll syötemerkki σ j korvmll pinon päällä pinomerkki γ tällä pinomerkkijonoll g 1 g 2 g 3... g m. Automttin tämä tulkitn kuten ll. σ, γ/g 1... g m σ, γ/g m ε, ε/g m 1 ε, ε/g 1 q q q q Huom: Jonon merkit viedään pinoon tkperin eli push(g m ); push(g m 1 ); push(g m 2 );... ; push(g 1 ), jott pinon päälle muodostuu hluttu pinomerkkijono g 1 g 2 g 3... g m etuperin. Automttiin tulee lkutil q strt, toistotil q loop, hyväksyvä til sekä muit tiloj. 95

1. Algoritmin (kuv 19) ensimmäinen skel, pinon lustus, voidn toteutt seurvsti: strt ε, ε/s$ ε, ε/$ ε, ε/s loop strt loop 2. Algoritmin toinen skel toist seurv: () Jos pinon huipull on muuttujsymboli A, niin vlitse epädeterministisesti sääntö A w. Korv A merkkijonoll w. Siis kikill säännöillä A w lisätään siirtymä: loop ε, A/w Käytämme äsken käyttöön otettu merkintää, joll pinoon viedään kokoninen pinomerkkijono w. Silmuklle ilmestyy siis w 1 välitil, joit tässä kuvss ei näy. (b) Jos pinon huipull on päätesymboli, poist se pinost j vert seurvn syötemerkkiin. Jos ne erovt, hylkää. Siis kikill päätemerkeillä Σ tulee siirtymä: loop, /ε (c) Jos pinon huipull on $, hyväksy jos syöte on loppu; muuten hylkää: loop ε, $/ε Muit siirtymiä ei tule, eli utomttimme on nyt vlmis. Tehtävä 37. Muunn kielioppi S S T T bt c ε pinoutomtiksi. Pinoutomtist kieliopiksi Hhmotelln myös muunnos toiseen suuntn eli nnetust pinoutomtist sen tunnistm kieltä kuvvksi kontekstittomksi kieliopiksi. Oletetn yksinkertisuuden vuoksi, että utomtti tyhjentää pinons ennen kuin hyväksyy syötteensä. Oletetn myös, ettei siinä ole opertioit korv pinon päällä merkki γ merkillä γ. Sellinen opertio p σ,γ/γ q voidn nimittäin toteutt erillisellä poppush-yhdistelmällä p σ,γ/ε ε,ε/γ q. 96

Ajtelln sitten, että utomtin jokiseen siirtymään p σ,γ/γ q on liitetty sivuvikutuksen tulost σ, γ/γ. Tässä ltikko ilmisee, että kunkin tulosteen jtelln olevn yksi (mutkiks) merkki. Automtti siis tulost sivuvikutuksenn sen, mitä se tekee pinolleen j syötteelleen. (Lopullisess kieliopiss kukin ltikko σ, γ/γ toimii välikkeenä, jok generoi vstvn päätesymbolin σ.) Sitten letn lti kielioppi, jotk tuott täsmälleen nämä sivuvikutuksen tulostuvt ltikkomerkkijonot. Lditn ensin kielioppi kikille sellisille ltikkomerkkijonoille, joiss jokist push-opertiot seur myöhemmin sen kumov pop-opertio. Jokisen hyväksyvän lskennn tulostm ltikkomerkkijono on oletusten nojll sellinen, mutt utomtti ei välttämättä tulost jokist sellist jono. Tämän kieliopin voi muodost smn tpn kuin esimerkin 31 (s. 77) tspinoiset sulkumerkkijonot. Nyt vin sulkumerkkejä on moni erilisi: push(γ) on vv sulkumerkki lji γ j sitä vstv pop(γ) on sulkev sulkumerkki lji γ. (Vrt. normlin merkistön eriliset sulkuprit (...), [...] j {...}.) Sdn kielioppi, joss on toistiseksi vin yksi välike A j sillä seurvt säännöt: A ε A AA A σ, ε/ε A jokiselle σ Σ {ε} j A σ, γ/ε A σ, ε/γ jokiselle pinomerkille γ Γ. Tulkitn sitten pinoutomtti tvlliseksi äärelliseksi utomtiksi, jonk syötekkoston ovt nämä ltikot. σ, γ/γ Toisin snoen, tulkitn jokinen siirtymä p σ,γ/γ q siirtymäksi p q. Nyt etsimämme ltikkomerkkijonokieli on tämän kieliopin tuottmn kielen j tämän äärellisen utomtin tunnistmn kielen leikkus. Tässä viheess tekisi mieli vedot iemmin minitsemmme tulokseen, että kontekstittomn j säännöllisen kielen leikkus on kontekstiton...... mutt sen todistmisess voimme vuorostn trvit tätä tulost, jolloin tekisimme kehäpäätelmän! Siksi teemme leikkuksen tässä todistuksess käsin onneksi kielioppi on yksinkertinen. Otetn käyttöön välikkeet B p q joiden ylä- j lindeksit ovt utomtin tiloj eli p, q Q. 97

Määritellään uusi kielioppi siten, että tällinen välike B p q trkoitt niitä ltikkomerkkijonoj jotk voidn tuott välikkeestä A j jotk voivt esiintyä jollkin polull tilst p tiln q. B p p ε B p r B p q B q r B p r σ, ε/ε B q r σ, ε/γ s sekä tiloille p, q, r, s Q j pinomer- kikille siirtymille p keille γ Γ. kikill p Q B p s σ, γ/ε B q r σ, ε/γ kikill p, q, r Q σ, γ/ε q j r jokiselle siirtymälle p σ, ε/ε q j r Q Nyt etsimämme ltikkomerkkijonokieli voidn tuott lisäämällä lähtösymboli S j sille säännöt S B p 0 p f joiss p 0 on utomtin lkutil j p f F mikä thns sen hyväksyvä til. Lopuksi muunnmme vielä ltikkomerkkijonon vstvksi syötemerkkijonoksi. Tämä voidn tehdä lisäämällä jokiselle ltikkomerkille muuntosääntö σ, γ/γ σ eli tulkitsemll nekin välikesymboleiksi jot tuottvt siinä luetun syötemerkin σ (ti eivät mitään kun sellist ei ole eli kun σ = ε). Tehtävä 38. Ldi pinoutomtti, jok tunnist seurvnliset ohjelmointikielen rkenteet: merkkijonoss jokist vv ltosulku { vst sulkev ltosulku } jokist else:ä vst if, mutt if:iin ei ole pkko liittyä else-hr if-luseen ehto esitetään päätemerkillä c muut komennot esitetään päätemerkillä, jot seur puolipiste ; Lillinen: { } if c { if c ; else ; } Liton: } if c { if c { ; else ; } Akkosto Σ koostuu siis merkkijonoist { {, }, if, else, c, ; }. Kielioppin tämän voi esittää esim. seurvsti: S {S} if c ST ; T else S ε 98

5.4 Kielioppien jäsennysongelm Annettu kielioppi G j merkkijono x. Onko x kieliopin luse, eli päteekö x L(G)? Esimerkkejä jäsennysongelmist: Kuuluuko virke jänis jok pelkäsi rk peikko metsästi suurt sutt esimerkin 35 reltiivilusekieleen L rel? Onko (11 5 + 1) 7 1 lillinen ritmeettinen luseke? Onko seurv funktio C-kielen syntksin mukinen? flot lske(int x, int y) { if (x >= y) return x-y; else return y-x; } Kontekstittomien kielten jäsennys on tärkeä os ohjelmointikielten kääntämisessä. Yleisemmin, jäsentäminen on tp testt kuuluuko nnettu merkkijono nnettuun kieleen, riippumtt vrsinisest sovelluksest. Jäsentimet Jäsennysongelm voidn rtkist jäsennyslgoritmill eli jäsentimellä eli jäsentäjällä (englnniksi prser mutt suomeksi jäsentäminen ei ole prsimist!). On useit vihtoehtoisi menetelmiä erityyppisille kieliopeille: Lineriset kieliopit eli säännölliset kielet: äärellinen utomtti. LL(1)-kielet: Rekursiivinen LL(1)-jäsennin. Deterministiset kielet: deterministinen pinoutomtti ti rekursiivinen LR(1)- jäsennin. Vhvemmt kontekstittomt kielet: CYK-lgoritmi. Jäsennyksen trkoitus on yleensä oikeellisuustrkstuksen x L(G) lisäksi liittää luseeseen x (esim. lähdekieliseen ohjelmn) sen semntiikk (esim. vstv konekoodi). Tätä vrten jäsennin tuott yleensä luseen x rkennett kuvvn jäsennyspuun. (Ks. ll.) Ensin tutustumme jäsennyksen peruskäsitteisiin. Johdot Olkoon merkkijono γ V kieliopin G = (V, Σ, P, S) lusejohdos. Sen johdoksi kieliopiss G kutsutn lähtösymbolist S merkkijonoon γ johtv suorien johtojen jono S γ 1 γ 2 γ 3 γ Johdon pituus on siihen kuuluvien suorien johtojen määrä eli -skelten lukumäärä. Johto γ γ on 99

vsen johto jos kusskin johtoskeleess on produktiot sovellettu merkkijonon vsemmnpuoleisimpn välikkeeseen; sitä merkitään γ γ lm oike johto jos kusskin johtoskeleess on produktiot sovellettu merkkijonon oikenpuoleisimpn välikkeeseen; sitä merkitään γ γ. rm Johto ei välttämättä ole oike eikä vsen, vn se voi oll niiden sekmuoto (eli joskus lvennetn vsemmn- j joskus oikenpuoleisin välike) ti ei kumpkn (eli joskus lvennetn välike jok on vsemmn- j oikenpuoleisimmn välissä). Esimerkki 43. Trkstelln kielioppi G expr : E E + T T T T F F F (E) Luseelle + voidn nt esimerkiksi seurvnliset johdot: (i) E E + T T + T F + T + T + T F + F F + F + (ii) E E + T T + T T + T F T + F F F + F F F + F + F + (iii) E E + T E + T F E + T E + F E + T + F + + Näistä (i) on vsen johto, (iii) oike johto j (ii) ei ole kumpkn. Jäsennyspuu Eli syntksipuu, eli johtopuu (englnniksi prse tree, syntx tree, derivtion tree). Vihtoehtoinen esitystp johdoille. Kertoo vin, miten välikkeet on lvennettu, ei missä järjestyksessä lvennukset on tehty. Esimerkiksi kikki kolme edellä esimerkissä 43 minittu johto vst sm kuvn 20 jäsennyspuu. Määritelmä 12. Olkoon G = (V, Σ, P, S) kontekstiton kielioppi. Kieliopin G mukinen jäsennyspuu on järjestetty puu joll on seurvt ominisuudet: 1. puun solmut on nimetty joukon V {ε} lkioill siten, että sisäsolmujen nimet ovt välikkeitä (joukost N = V \ Σ); 100

E E T T T F F F + * Kuv 20: Esimerkki jäsennyspuust. juurisolmun nimenä on lähtösymboli S; lehtisolmujen nimet ovt päätemerkkejä (joukost Σ {ε}); 2. jos A on puun jonkin sisäsolmun nimi, j X 1,..., X k ovt sen lpsisolmujen nimet järjestyksessä (vsemmlt oikelle) niin A X 1... X k on kieliopin G:n produktio. (Järjestetyssä puuss solmun kuten A lsten keskinäisellä järjestyksellä on väliä, eli että sillä on ensimmäinen lpsi nimeltään X 1, toinen lpsi nimeltään X 2, jne.) Jäsennyspuun τ tuotos on se päätemerkkijono, jok sdn liittämällä yhteen sen lehtisolmujen nimet vsemmlt oikelle. Esimerkiksi edellisen kuvn 20 jäsennyspuun tuotos on +. Jäsennyspuu on hyvä esitys sille miten sen tuotos on stu kieliopin säännöillä. Tehtävä 39. Muistetn iempi kielioppimme: Ann ohjelmn johto j jäsennyspuu. luse ehtoluse koottu-luse sijoitus kutsu ehtoluse if ehto then luse else luse ehto x=0 koottu-luse begin lusejono end lusejono luse luse ; lusejono sijoitus x:=0 kutsu b c if x=0 then else begin x:=0 ; b end 101

Johdot j jäsennyspuu Lusekkeen johdost voidn in muodost jäsennyspuu j päinvstoin: 1. Kun nnetn johto S γ, niin voidn muodost jäsennyspuu τ, jonk tuotos on γ. 2. Kun nnetn jäsennyspuu τ, niin voidn muodost sen tuotoksen γ vsen j oike johto S γ j S γ. lm rm Johdost jäsennyspuuksi Kun on nnettu johto S = γ 0 γ 1 γ 2 γ 3 γ n = γ, jonk tuotos on γ, niin siitä voidn muodost jäsennyspuu τ seurvsti: 1 luksi τ koostuu vin juurisolmust nimeltään S 2 for j 0, 1, 2,..., n 1 3 do olkoon seurv johdos γ j+1 stu nykyisestä johdoksest γ j korvmll sen k:s symboli merkkijonoll g 1 g 2 g 3... g m 4 l k:s lehti puuss τ vsemmlt oikelle lskien 5 liitä lehteen l lpset nimiltään g 1, g 2, g 3,..., g m Tämän for-silmukn invrintti on, että nykyinen johdos γ j luettelee in nykyisen puun τ lehtien nimet vsemmlt oikelle (lukuunottmtt ε-lehtiä). Kun käytetään esimerkin 43 vsent johto (i) j merkitään jokisen solmun viereen monesko johdos sen synnytti, niin sdn: (i) E E + T T + T F + T + T + T F + F F + F + 0 E 1 1 E T 2 T 5 T 5 F 3 F 6 F 4 1 7 5 8 + * 102

Tehtävä 40. Kielioppi S SS (S) ε tuott kikki oikein muodostetut sulkulusekkeet (siis päätesymbolit ovt vsen j oike sulkumerkki). Sulkuluseke on oikein muodostettu, jos vsemmt j oiket sulkumerkit voidn priutt siten, että mikään pri ei mene ristiin. Sulkulusekkeen ()(()()) eräs johto on S SS (S)S ()S ()(S) ()(SS) Piirrä vstv jäsennyspuu. Jäsennyspuust johdoiksi ()((S)S) ()(()S) ()(()(S)) ()(()()) Kieliopin mukisest jäsennyspuust sdn puun tuotoksen vsen johto käymällä solmut läpi esi järjestyksessä ( ylhäältä ls, vsemmlt oikelle ) j lventmll vstn tulevt välikkeet järjestyksessä puun osoittmll tvll oike johto käymällä puu läpi käänteisessä esijärjestyksessä ( ylhäältä ls, oikelt vsemmlle ). Yleensä käytämme vsent johto. Oike johto käytetään myös tietyn tyyppisten (ohjelmointikielten) kielioppien jäsentämiseen. Tehtävä 41. Kirjoit edellisen tehtävän 40 jäsennyspuut vstv oike johto. Numeroimll kuvn 20 esimerkkipuumme solmut esijärjestyksessä sdn 1 E 2 E 7 T 3 8 12 T T F 4 F 9 F 5 6 10 11 13 + * Vsemmn johdon rkentminen etenee siis tässä numerojärjestyksessä. Menetelmät ovt yksikäsitteisiä Jos muodostetn nnetust vsemmst (ti oikest) johdost S x (ti S x) lm rm ensin jäsennyspuu edellä minitull tvll, j sitten jäsennyspuust vsen (oike) johto, niin sdn tkisin lkuperäinen johto. Luse 12. Olkoon G = (V, Σ, P, S) kontekstiton kielioppi. Tällöin: 103

(i) jokisell kieliopin G lusejohdoksell γ on sen mukinen jäsennyspuu τ, jonk tuotos on γ; (ii) jokist kieliopin G mukist jäsennyspuut τ, jonk tuotos on päätemerkkijono x, vstvt yksikäsitteiset vsen j oike johto S x j S x. lm rm Seurus: Jokisell kieliopin G luseell on vsen j oike johto. Ti siis kontekstittomn kieliopin tuottmien luseiden jäsennyspuut, vsemmt j oiket johdot vstvt yksikäsitteisesti toisin, joten riittää nt vin yksi vihtoehtoisist jäsennyksen esitystvoist. Kieliopin moniselitteisyys Smll luseell voi oll kieliopiss useit erilisi jäsennyksiä. Esimerkiksi luseell + kieliopiss G expr (7, sivu 78): E E E E E E E E E E + + Määritelmä 13. Kontekstiton kielioppi G on moniselitteinen (englnniksi mbiguous ), jos jollkin sen luseell x on kksi erilist sen mukist jäsennyspuut. Muuten kielioppi on yksiselitteinen ( unmbiguous ). Kontekstiton kieli, jonk voi tuott vin moniselitteisellä kieliopill, on luonnostn moniselitteinen ( inherently mbiguous ). Esimerkki 44. Aritmeettisi lusekkeit kuvvlle kielelle nnettiin kksi kielioppi. Niistä G expr on yksiselitteinen: E T E + T T F T F F (E). Se toinen kielioppi G expr nähtiin edellä moniselitteiseksi: E E + E E E (E) Itse kieli L expr = L(G expr) ei kuitenkn ole luonnostn moniselitteinen, kosk sillä on myös yksiselitteinen kielioppi G expr. Aritmeettisen lusekkeen jäsennyspuun vull voidn helposti lske lusekkeen rvo, kun muuttujien rvot tunnetn. Yleisemmin, kääntäjä voi jäsennyspuun vull generoid koodi lusekkeen evluoimiseksi. Tätä sovellust silmällä pitäen edellisen esimerkin yksiselitteinen kielioppi G expr noudtt koulust tuttu presedenssisääntöä, jonk mukn kertolskut lsketn ennen yhteenlskuj. 104

ei ole tätä ominisuutt, vn sille kelpisi kumpi thns ls- Kieliopill G expr kujärjestys. Kärjistäen: jos kielioppi ti kieli on moniselitteinen, niin on myös sen merkityskin. Siksi yksiselitteisyys on hyve! Jäsennyspuun hyödyntämiseksi pitää tietysti ensinnäkin ost muodost nnetulle merkkijonolle jäsennyspuu (eli yhtäpitävästi johto) nnetuss kieliopiss, ti todet, että merkkijono ei kuulu kieleen. Plmme tähän pin... Esimerkki 45. Kieli { i b j c k i = j ti j = k} on luonnostn moniselitteinen. Kieliopin moniselitteisyys on lgoritmisesti rtkemton ongelm. Eli sen osoittminen edellyttää ihmisen ltim todistust. Kieliopin moniselitteisyyden osoittminen on helppo: Riittää keksiä yksikin merkkijono, joll on useit erilisi jäsennyspuit. Kielen osoittminen luonnostn moniselitteiseksi ts on hnkl: Onhn osoitettv, ettei mikään kieltä kuvv kielioppi ole yksiselitteinen. Voidn todist, että kikki determinististen pinoutomttien tunnistmt kielet ovt yksiselitteisiä. (Ks. esim. Hopcroft et l. (2001, Luse 6.21).) Toislt... Luonnostn moniselitteiset kielet voidn tunnist vin epädeterministisillä pinoutomteill. Lisäksi on olemss myös yksiselitteisiä kieliä, jotk vtivt epädeterministisen pinoutomtin. Esimerkki 46. Kielelle L = {ww R w {, b} } voidn nt yksiselitteinen kielioppi S S bsb ε mutt sitä ei void tunnist deterministisellä utomtill. (Ongelm: utomtin täytyy rvt, milloin on tultu merkkijonon keskikohtn.) Kontekstittomien kielten liluokill pätee siis seurvt idot sisältyvyydet: tyyppi 2: kontekstittomt kielet tunnistus: pinoutomtti yksiselitteiset kielet tunnistus:?? deterministiset kielet tunnistus: deterministinen pinoutomtti tyyppi 3: säännölliset kielet tunnistus: äärellinen utomtti 105

, ε/a ε, ε/$, ε/a q 1 q 2, ε/ε ε, $/ε b, A/ε q 3 q 5 ε, $/ε q 4 b, A/ε Kuv 21: Esimerkin epädeterministinen pinoutomtti. Esimerkki 47. Myös kieli L = { n b m n/2 m n} on yksiselitteinen, mutt epädeterministinen. Yksinkertisin kielen tuottv kielioppi on S Sb Sb ε jok on kuitenkin moniselitteinen. (Ann esimerkki vihtoehtoisist jäsennyksistä.) Smn kielen voi kuitenkin kuvt yksiselitteisellä kieliopill: S Sb A ε A Ab b Kielelle voidn lti kuvn 21 epädeterministinen pinoutomtti, mutt determinististä utomtti ei pystytä ltimn. Esimerkki 48. Trkstelln seurv sääntöä ehtoluseiden jäsentämiseksi: S if B then S else S if B then S P Tässä B voi oll mikä thns ehtoluseke j P mikä thns proseduurinkutsu. Kun jäsennetään merkkijono if sireenisoi() then if onhrjoitus() then huud( OK ) else huud( Kutsu plokunt! ) niin voidn sd kksi erilist jäsennyspuut. Miten käy erilisill jäsennyksillä: S if B then S sireenisoi() if B then S else S onhrjoitus() P P huud("ok") huud("kutsu plokunt!") 106

S if B then S else S sireenisoi() if B then S P onhrjoitus() P huud("kutsu plokunt!") huud("ok") Tätä esimerkkiä 48 kutsutn roikkuvn else-hrn ongelmksi (englnniksi the dngling else problem : Kumpn if-ehdoist tämä yksinäinen else-hr pitäisi liittää? Ohjelmointikielen syntksimäärittelyt rtkisevt tämän lusumll else-hr liittyy in lähimpään selliseen edeltävään if-ehtoon joll ei vielä ole om else-hr. Ohjelmointikielen kieliopin (eli syntksin) tulee oll yksiselitteinen, jott sillä kirjoitettu ohjelm voidn kääntää yksiselitteisesti toimivksi ohjelmksi. Siksi niissä käytetään formlej esitystpoj j tällisi lusumi. Sm olisi toivottv myös ohjelmointikielen merkitysopille (eli semntiiklle), eli siinäkään ei sisi oll sioit joiden käyttäytymistä ei ole määritelty. Myös merkitysopiss voidn käyttää formlej esitystpoj, mutt vlitettvsti läheskään kikille ohjelmointikielille niin ei tehdä. Kärjistäen: Ohjelmointikielen määrittelyn pitäisi poist eikä lisätä ohjelmoijn epätietoisuutt siitä, mitä hänen kirjoittmns ohjelm trkoitt! 5.5 Kontekstittomien kielten rjoituksist Jäsennyspuit trkstelemll voi osoitt että esim. kieli L = { n b n c n n N} ei ole kontekstiton. Tämä perustuu smtpiseen pumppusiden kuin epäsäännöllisyyttä osoitettess: Jos s on kielen L merkkijono, sillä on jäsennyspuu sopivss kielen L kieliopiss G. Jos lisäksi s on kovin pitkä, niin sen jäsennyspuuss on oltv inkin yksi pitkä hr. Kun jäsennyspuun hr on riittävän pitkä, niin inkin yhden muuttujn A on pkko esiintyä inkin kksi kert. Muuttujn A esiintyminen omn jälkeläisenään jäsennyspuuss trkoitt, että A vax joillkin v, x Σ. Voimme pumpt tätä johto kuten kuvss 22: A vax vvaxx vvvaxxx... Vert säännöllisten kielten pumppuslemmn (luse 7): tilt vs. muuttujt silmukk utomtiss vs. johto A vax. 107

S S u v w A A x y u v v. A A A A A x x y v w x Kuv 22: Toistuvn välikkeen pumppus. Kontekstittomien kielten pumppuslemm Smn tpinen kuin säännöllisten kielten pumppuslemm. Nyt kuitenkin pumptn kht osmerkkijono v j x smn thtiin. Hyvin krke pinoutomtti-intuitio: v = pyöritään silmukss, joss pinetn merkkejä pinoon x = pyöritään silmukss, joss poistetn pinost se, mitä v-silmukk sinne vei. Luse 13. Jos L on kontekstiton kieli, niin sille on olemss pumppuspituus p N, jolle seurv pätee: Jos s L j s p, niin voidn kirjoitt s = uvwxy, joss 1. uv i wx i y L kikill i N, 2. vx > 0 j 3. vwx p. Todistus: Sivuutetn. Pumppuslemmll eli luseell 13 voidn todist, että kieli ei ole kontekstiton. { n b n c n n N} Todistus: (Luonnos.) Kun vlitn merkkijonoksi s = p b p c p niin sen osss vwx ei voi oll kikki kolme merkkiä. Siten sen osien v j x pumppminen ei voi lisätä jokist kolme merkkiä kuten pitäisi. Kuten jo on todettu, kontekstittomille kielille pätee joitin smntpisi sulkeumominisuuksi kuin säännöllisille kielille: 108

Luse 14. Olkoot L 1 j L 2 kontekstittomi kieliä. Tällöin myös 1. L 1 L 2 (kielten yhdiste) 2. L 1 L 2 (kielten ktentio) 3. (L 1 ) (kielen sulkeum) 4. (L 1 ) R (kielen käänteiskieli) ovt kontekstittomi. Kontekstittomt kielet eivät kuitenkn ole suljettuj leikkuksen j komplementin suhteen. Kielet ovt kontekstittomi, mutt niiden leikkus L 1 = { n b n c k n, k N } j L 2 = { k b n c n n, k N } L 1 L 2 = { n b n c n n N} ei siis olekn kontekstiton. Todistimme juuri: Luse 15. Kontekstittomien kielten luokk ei ole suljettu leikkuksen suhteen. Ohjelmointikielen kääntämisestä Ohjelmointikielen kääntäjän viheet peritteellisell tsoll (kuv 23): 1. Selminen (scnning, lexicl nlysis): jk syötteen tekstilkioiksi (token) kuten muuttujnimiin, liukulukuvkioihin, vrttuihin snoihin,... jott jäsennyksen ei enää trvitse edetä yksi tekstimerkki kerrlln Tekniikk pohjutuu tekstilkioden tunnistmiseen äärellisillä utomteill. UNIX-työklu lex jonk GNU-versio on flex. 2. Jäsentäminen (prsing): Muodost seluksen tuottmlle tekstilkiojonolle jäsennyspuun...... jok perustuu ohjelmointikielen määrittelyn osn ldittuun kontekstittomn kielioppiin. Tässä on ohjelmointikielen kieliopin yksikäsitteisyysvtimus: jäsennyspuit tehdään vin yksi! UNIX-työklu ycc jonk GNU-versio on bison on ns. kääntäjäkääntäjä (englnniksi compiler compiler ): Se lukee sisäänsä kieliopin kuvuksen j generoi siitä jäsennystä tekevän liohjelmn, jonk ohjelmoij voi liittää osksi sitä kääntäjää, jot hän on nyt toteuttmss. Selus j jäsennys ovt ne viheet, joist kääntäjää käyttävä sovellusohjelmoij s ne virheilmoitukset, jotk lkvt "Syntx Error...". 109

Syntx error... Aluksi lähdekoodi ASCII merkkijonon while(i>0)... Lopuksi konekoodin 00 FF 1A 8C 17 1F 05 5E AA C0 7F 99... koodin generointi selus (scnning) while jonon pidempiä yksiköitä vrttu sn: muuttujn nimi: operttori: kokonislukuvkio:... komento while komento luseke while i > 0 täydennettynä jäsennyspuun komento jäsennys (prsing) ttribuuttien lskent jäsennyspuun komento while komento while luseke > komento i 0 tyyppi: totuusrvo tyyppi: kokonisluku > i 0 Error: undefined vrible... Error: type mismtch...... Kuv 23: Ohjelmointikielen kääntäjän vihejko. 3. Semnttinen nlyysi: tyypitys jne. Esimerkiksi kielioppi ilmisee vin, että se os ohjelmkoodi, joss muuttujt esitellään, edeltää sitä os, joss niitä käytetään. Esittelyos jäsentäessään kääntäjä kerää esitellyt muuttujt j niiden tyypit symbolituluun. Kun se myöhemmin koht jonkin muuttujn kuten i käytön, niin se kysyy tästä tulust mikä sen tyypiksi on määritelty. Jos muuttuj ei ole tuluss, niin tulee virheilmoitus "Error: undefined vrible...". Tyyppi on yksi muuttujn ttribuuteist eli ominisuuksist. Semnttisen nlyysin voi jtell koristelevn jäsennyksen tuottmn jäsennyspuun tällisill ttribuuteill j niiden rvoill. Esimerkiksi while-silmukn testin tyyppittribuutiksi pitää tull totuusrvo, muuten tulee semnttinen virhe kuten "Error: type mismtch...". Kielioppi, johon on yhdistetty ttribuuttien määrittelyt j niiden lskusäännöt, kutsutn ttribuuttikieliopiksi (englnniksi ttribute grmmr ). Itse siss ycc-työklu lukeekin sisään tällisen ttribuuttikieliopin j tuott siitä sellisen jäsennysliohjelmn, jok smll lskee nämä ttribuuttirvot. 4. Koodin tuottminen j optimointi. Suoritetn käymällä läpi tätä jäsennyspuut, jok on koristeltu koodin tuottmiseen trvittvill ttribuuteill. Tässä viheess ei enää tule virheilmoituksi. Aho et l. (2007) kertovt syvällisesti näistä ohjelmointikielen kääntämisen eri viheist. Levine et l. (1992) kertovt näistä kääntäjien j vstvien ohjelmien toteuttmist merkittävästi helpottvist työkluist lex j ycc. 110

Käytännössä jäsennys j muut viheet limittyvät jllisesti: Esimerkiksi jäsennin pyytää selimelt nn minulle seurv tekstilkio. Vstvsti jäsenninkään ei yleensä tuot koko jäsennyspuut kerrll muistiin, vn inostn sen osn, jot semnttinen nlyysi kullkin hetkellä trvitsee. Ohjelmointikielen jäsentämiseen on useit tekniikoit. Lähtökohtn on tyypillisesti ohjelmointikielen määrittelyssä eli spesifiktioss nnettu kontekstiton kielioppi. Tehokkt jäsennysmenetelmät edellyttävät, että kielioppi on jossin rjoitetuss muodoss. Näistä tärkeimmät ovt LL(k) j LR(k). Ohjelmointikelten syntktinen käsittely (eli viheet 1 j 2) on hllittu jo pitkään, j siihen on ljlti levinneitä puvälineitä kuten lex j ycc. Ohjelmointikielten kehitys j tutkimus pinottuukin nykyään erityisesti niiden tyyppijärjestelmiin (eli viheeseen 3). Esimerkiksi funktionlisten j olio-ohjelmointikielten tyyppijärjestelmät voivt oll hyvinkin monipuolisi j -mutkisi... Tuotetun konekoodin optimointi (viheess 4) ts on kiinnostv erityisesti mikroprosessoreiden j tietokonelitteistojen vlmistjille. Esimerkiksi nykyikinen mikroprosessori sisältää useit ytimiä, jotk voivt lske rinnkkin jos vin käännetty ohjelmkoodi os hyödyntää tätä mhdollisuutt... 5.6 Cocke-Younger-Ksmi-lgoritmi Mille thns kontekstittomll kieliopill G kysymys päteekö w L(G)? voidn rtkist jss O( w 3 ) Cocken, Youngerin j Ksmin kehittämällä j heidän mukns nimetyllä CYK-lgoritmill. CYK-lgoritmi ei kuitenkn käytetä ohjelmointikielille, kosk niiden kieliopit G voidn suunnitell kieltä määriteltäessä siten, että jäsennys onnistuu tehokkmmin mieluiten linerisess jss. Rjoitumme jtkoss tämän mhdollistviin ns. LL(1)- kielioppeihin. 5.7 LL(1)-kieliopit j rekursiivisesti etenevä jäsennys Hopcroft et l. (2001) eivät käsittele tätä ihepiiriä. Sitä käsittelevät esimerkiksi Aho et l. (2007, luvut 4.4 4.7) j Sudkmp (1997, os VI). Trkstelln sellisi kielioppej, joiss seurv sovellettv sääntö on in yksikäsitteisesti määrätty, kun nykyinen välike j seurv syötemerkki tunnetn. Näitä kielioppej j niillä jäsentyviä kieliä kutsutn LL(1)-kieliopeiksi j -kieliksi: Left to right scn, producing Left prse with 1 symbol lookhed. Siis ne lukevt syötemerkkijonon vsemmlt oikelle eli kirjoitusjärjestyksessä. Tämä on tärkeää esimerkiksi ohjelmointikielten kääntäjissä: lähdekooditiedosto luetn yhden kerrn lust loppuun. Ne tuottvt in vsemmnpuoleisimmn johdon. 111

Ne käyttävät 1 kurkistussymboli eli ktsovt vin seurv syötemerkkiä. Yleisemmin voi määritellä LL(k)-kieliopit j -kielet, joiss ktsotn k > 0 syötemerkkiä eteenpäin, eli ylläpidetään k merkin syötepuskuri. LL(1)-kieliopeille voidn lti yksinkertinen rekursiivinen jäsennin, jonk liohjelmt vstvt kieliopin sääntöjä. Siksi niitä suositn, kun jäsennin pitää kirjoitt käsin. LL(1) riittää useimmille ohjelmointikielissä esiintyville rkenteille. LL(1)-jäsennin on tehoks: se toimii linerisess jss O( w ) syötteen w pituuden suhteen. LL(1)-kielet ovt determinististen kielten osjoukko, joten voitisiin käyttää rekursion sijst myös determinististä pinoutomtti. LL(1)-kielioppeihin kuuluvt siis inkin selliset kieliopit, joiss jokisen välikkeen A säännöt ovt muoto A 1 α 1 2 α 2 3 α 3... k α k joss jokinen hr i lk eri päätemerkillä i Σ (siis i j in kun i j). Esimerkki 49. Trkstelln seurv kielioppi G: E T + E T E T T (E) Välike T on OK: seurv syötemerkki rtkisee, kump sen säännöistä pitää käyttää. Mutt välike E ei, joten tekijöidään se: E T E E +E E ε T (E) Esimerkiksi luseen ( + ) vsen johto voidn nyt muodost seurvn syötemerkin ohjmn: E T E E E T E (E)E (T E )E (E )E ( + E)E LL(1)-kielioppien yleinen muoto ( + T E )E ( + E )E ( + )E ( + ). LL(1)-kielioppien yleisessä muodoss sllitn myös produktioit, joiden oiket puolet lkvt päätemerkin sijst välikkeellä, sekä tyhjentyviä eli nollutuvi välikkeitä A, joill siis A ε mutt kumpikin näistä vin rjoitetusti. Esimerkiksi kielen b c d tuottv kielioppi: S Ab Cd A A ε C cc ε Kielioppi on LL(1)-muoto, vikk ensimmäiseksi sovellettv produktiot ei voikn päätellä pelkästään lkusymbolin S produktioiden perusteell. 112

Kuitenkin, jos merkkijono lk merkeillä ti b, niin on sovellettv sääntöä S A, jos ts merkillä c ti d, niin sääntöä S Cd. Siis sovellettv sääntö on kuin onkin yksikäsitteisesti määrätty seurvn merkin perusteell. Kehittelemme pikkuhilj tämän tvoitteen mukisen LL(1)-muodon määritelmän j testin. Kielioppien muokkminen LL(1)-muotoon Kikki kontekstittomi kielioppej ei voi muunt LL(1)-muotoon. Joskus kieli on LL(1)-luokss, mutt sen kuvv kielioppi ei ole oikess muodoss. Tälliset melkein LL(1)-kieliopit voi muokt oiken muotoon seurvill opertioill: 1. vsen tekijöinti 2. vsemmn rekursion poisto. Vsen tekijöinti Kielioppi, joss on säännöt A αβ 1 αβ 2 joss α ε, β 1 β 2 ei voi oll LL(1)-muotoinen, kosk nämä hrt lkvt yhteisellä epätyhjällä osll α. Otetn käyttöön uusi välike A j korvtn nämä produktiot produktioill A αa A β 1 β 2, joss α on jonojen αβ 1 j αβ 2 pisin yhteinen lkuos. Toisin snoen uusi produktioit käyttäen ensin jäsennetään niiden yhteinen lkuos α sitten vst tutkitn, jtkuuko syöte hrll β 1 viko β 2. Esimerkki 50. Kielioppi muutetn muotoon N DN D D 0 1... 9 N DN N N ε D 0 1... 9 113

Välittömän vsemmn rekursion poisto Kielioppi on vsemmlle rekursiivinen, jos jollkin välikkeellä A j merkkijonoll γ on A + Aγ. Välikettä A jäsentävä rekursiivinen proseduuri kiertäisi kehää lukemtt syötettään. Välitön vsen rekursio, siis suort johdot A Aγ, voidn poist seurvsti: Muoto A A olevt produktiot voidn yksinkertisesti jättää pois. Tämän jälkeen välikkeellä A voi vielä oll sääntöjä A Aα i, missä α i ε. Näistä päästään eroon korvmll produktioill joss A on uusi välike. A Aα 1 Aα 2 Aα 3... Aα m } {{ } poistettvt produktiot Miksi muunnos toimii oikein? β 1 β 2 β 3... β n } {{ } muut produktiot A β 1 A β 2 A β 3 A... β n A (9) A α 1 A α 2 A α 3 A... α m A ε (10) Alkuperäisen välikkeen A johdot ovt muoto A Aα Aαα Aααα βααα... α eli βα. Lopult on siis vlittv sääntö A β ti rekursio ei pääty ikinä. Korvtut säännöt tuottvt uuden välikkeen A vull täsmälleen smt johdokset, mutt toisell tvll: A βa βαa βααa βαααa βααα... α. Esimerkki 51. Allolev kielioppi G 1 on välittömästi vsemmlle rekursiivinen: Siitä sdn kielioppi G 2 : N ND D D 0 1... 9 N DN N DN ε D 0 1... 9 Smn tuottisi tosin myös kielioppi G 3 : N 0N 1N... 9N 0 1... 9 114

Yleinen vsemmn rekursion poisto Oletetn, että kieliopissmme G ei ole ε-sääntöjä A ε eikä myöskään kehiä A B C A. Trvittess niistä pääsee eroon Chomskyn normlimuodon tuottmisess sovellettvill menetelmillä (jotk sivuutmme). Silloin kikest vsemmst rekursiost pääsee eroon seurvsti: 1 Merkitse kikki välikkeet käsittelemättömiksi; 2 while (kikki välikkeitä ei ole käsitelty) 3 do Vlitse käsittelemätön välike A; 4 while (on sääntö A Bγ, joss välike B on jo käsitelty) 5 do Korv se kikill säännöillä A δγ, joill kieliopiss on sääntö B δ 6 Poist välikkeen A välitön vsen rekursio säännöillä (9) j (10); 7 Merkitse A käsitellyksi; Esimerkki 52. Sovelletn vsemmn rekursion poistoproseduuri llolevn kielioppiin: S A b A Ac Sd e Käsitellään välikkeet järjestyksessä S, A. Jälkimmäisen säännössä A Sd olevn S- välikkeen lventminen tuott produktiot A Ac Ad bd e. Välittömän vsemmn rekursion poisto tuott tulokseksi kieliopin S A b A bda ea A ca da ε. Yleinen LL(1)-ehto Esitetään nyt yleinen LL(1)-ehto. Käytetään seurvi kht pukäsitettä: first(α) = { Σ α β jollin β V } {ε α ε} : Siis ne päätemerkit, jotk voivt loitt jonkin sellisen merkkijonon, jok voidn joht tästä α V. Lisäksi myös ε, jos jono α on kokonisuudessn nollutuv. follow(a) = { Σ S αaβ joillin α, β V } : Siis kikki ne päätemerkit Σ, jotk voivt seurt välikettä A N josskin johdoss. 115

Päätemerkkien lisäksi tähän joukkoon voi kuulu erityinen symboli EOF ( End of File ), joll merkitään syötteen loppu. Selin plutt merkin EOF ohitettun viimeisen todellisen syötemerkin. Olkoot sitten A N kieliopin G mielivltinen välike j sen kikki säännöt. A α 1 α 2 α 3... α k Ensimmäinen os LL(1)-ehto vtii, että näiden sääntöjen oikeiden puolten tuottmt merkkijonot lkvt eri tvoin, eli että in kun i j. Nimittäin jos olisi jokin first(α i ) first(α j ) = (11) x first(α i ) first(α j ), niin kump säännöistä pitäisi käyttää vuoross olevll syötemerkillä x? Tästä ensimmäisestä LL(1)-ehdost (11) seur erityisesti, että korkeintn yksi välikkeen A säännöistä voi tuott tyhjän merkkijonon ε eli tehdä välikkeestä A tyhjentyvän (eli nollutuvn). Toinen os LL(1)-ehto koskee vin tyhjentyviä välikkeitä: Olkoon välike A N tyhjentyvä j sen säännöistä viimeinen eli A α k se ino, jok voi tuott tyhjän merkkijonon ε. Silloin ehto vtii, että follow(a) first(α j ) = (12) kikill muill sen säännöillä 1 j < k. Nimittäin jos olisi jokin x follow(a) first(α j ) niin kumpko säännöistä j vi k pitäisi käyttää kun kohdtn syötemerkki x? Kielioppi G on yleisessä LL(1)-muodoss, jos sen kikki välikkeet j säännöt täyttävät molemmt ehdot (11) j (12). LL(1)-kielioppi ei voi oll moniselitteinen. LL(1)-kielioppi ei voi sisältää vsent rekursiot. (Tämä pätee käytännössä järkeville kieliopeille, joiden välikkeet generoivt epätyhjiä merkkijonoj.) Ks. esim. 53. First- j Follow-joukkojen lskent Jokiselle välikkeelle A joll on produktiot A α 1 α k määritellään first(a) = first(α 1 ) first(α 2 )... first(α k ) (13) eli sen first-joukko koostuu sen sääntöjen oikeiden puolten first-joukoist. Sääntöjen oikeiden puolten α V first-joukot lsketn seurvsti: 116

Jos α = ε, niin first(α) = {ε}. Jos α lk päätemerkillä b Σ, niin first(α) = {b}. Jos α lk välikkeellä B, jok ei ole tyhjentyvä, niin first(α) = first(b). Ks. (13). Jos α on muoto Bβ missä B on tyhjentyvä välike, niin first(α) = (first(b) \ {ε}) first(β) eli otetn mukn jonon α loppuosn first-lkiot. Vsemmn rekursion poisto tk, ettei tämä ole kehämääritelmä. Välikkeiden follow-joukot voidn puolestn lske seurvsti: 1. Alust lähtösymbolin S joukko: follow(s) {EOF}. 2. Lisää jokisell säännöllä A αbβ joukkoon follow(b) kikki joukon first(β) päätesymbolit. (Eli ei mhdollist tyhjää merkkijono ε). 3. Toist seurv kunnes mikään follow-joukko ei enää ksv: Jos kieliopiss on sääntö A αb ti sääntö A αbβ joss ε first(β), niin lisää joukkoon follow(b) kikki joukon follow(a) lkiot. Esimerkki 53. Trkstelln pri vsemmlle rekursiivist kielioppi (joiss A + Aα): Kieliopiss A Bb B A pätee first(bb) = {} = first(). Tämä rikkoo ensimmäistä LL(1)-ehto. Kieliopiss A Bb ε B A pätee follow(a) = {b} = first(bb). Tämä rikkoo toist LL(1)-ehto. Kun kielioppi G on tätä yleistä LL(1)-muoto, niin sille voidn lti rekursiivisesti etenevä jäsennin seurvin perittein: Pidetään yllä muuttujss next seurv syötemerkkiä. error(... ) trkoitt lopet jäsennys virheilmoitukseen... Käytännön ohjelmoinniss se voisi vikkp nost poikkeuksen (exception). Tehdään tässä esimerkissä sellinen jäsennin, jok tuott syötettä vstvn jäsennyspuun. Tätä kusutn ennustvksi (engl. predictive) jäsentämiseksi, kosk jäsennin os seurvn syötemerkin next nojll ennust oikein, mitä produktiot seurvksi pitää sovelt. Jokiselle päätesymbolille Σ kirjoitetn om liohjelm: 117

Proc (): 1 if next = 2 then next getnext(); // pyydä selimelt seurv syötemerkki 3 return uusi lpseton solmu nimeltään 4 else error( tässä olisi pitänyt oll ) Jokiselle välikkeelle A joll on produktiot A α 1 α k liohjelm. Jos A ei ole tyhjentyvä, niin tämä liohjelm on: kirjoitetn om Proc A(): 1 if next first(α 1 ) then return hr(α 1 ) 2 elseif next first(α 2 ) then return hr(α 2 ). elseif next first(α k ) then return hr(α k ) else error( tästä olisi pitänyt lk A ) Nämä first-joukot ovt vkioit, joten ne on voitu lske jo jäsentimen muodostusviheess. Jokinen hr(x 1 X 2 X 3... X m ) on om ohjelmnpätkänsä 1 y 1 Proc X 1 () 2 y 2 Proc X 2 (). y m Proc X m () return uusi solmu nimeltään A lpsinn y 1, y 2, y 3,..., y m jok siis 1. ensin kutsuu rekursiivisesti muit jäsentimen liohjelmi X 1, X 2, X 3,..., X m oikess järjestyksessä 2. sitten plutt tuloksenn jäsennyspuun, jonk juuren on nykyinen välike A j sen lpsin näiden kutsujen pluttmt puut. (Ti jos jäsentimen hlutn tekevän jotkin muut kuin jäsennyspuun, niin sitten tekee mitä hlutn pohjutuen siihen, mitä rekursiokutsut ovt ensin tehneet j pluttneet.) Jos välike A on tyhjentyvä niin vin sen viimeinen sääntö A α k tuott tyhjän merkkijonon ε. Silloin sen liohjelm päättyykin. elseif next first(α k 1 ) then return hr(α k 1 ) else return hr(α k ) 118

eli virheilmoituksen sijst kutsutn tyhjentyvää viimeistä hr. Toisin snoen, jos nextin mukn kyseessä ei ollut mikään tyhjentymättömistä hroist A α 1 α 2 α 3... α k 1 niin sitten ino mhdollisuus on tyhjentyvä hr A α k. Jäsentimen pääohjelm: 1 next getnext(); 2 τ Proc S(); // kutsutn lähtösymboli vstv liohjelm 3 if next = EOF 4 then return τ; // syötteen jäsennyspuu 5 else error( syötteen olisi pitänyt loppu tähän ) Usein hlutn sellinen jäsennysohjelm, jok ei pysähdy heti ensimmäiseen virheeseen, vn jtk j rportoi muitkin syötteessä olevi virheitä. Silloin kirjoitetn kunkin tyhjentymättömän välikkeen A liohjelmn päättävän errorin tillle tulost( tästä olisi pitänyt lk A ); while next follow(a) do next getnext(); return uusi lpseton virhesolmu nimeltään A jok siis sel ohi virheellisen A j jtk jäsennystä sitä seurvst merkistä. LL(1): Kertust Tvoite: Syötemerkkijonon ohjm top-down-jäsennys s.e. lvennusvihtoehdoist A α 1 α 2 α 3... α k voidn in vlit oike sääntö vuoross olevn päätesymbolin perusteell. Siksi (I) vihtoehtoisten sääntöjen tuotosten täytyy lk eri päätemerkeillä: first(α i ) first(α j ) = kun i j (II) Jos A ε, niin ei s oll epäselvää sovelletnko jotin sen ei-nollutuv vihtoehto vi kuuluuko päätesymboli sen tyhjän esiintymän perässä tulevn osn syötettä, eli follow(a) first(α i ) = jokisell välikkeen A ei-nollutuvll säännöllä α i 119

Esimerkki 54. Trkstelln seurv kielioppi: S AB A C C ε C b cd B bd e Kielioppi toteutt ehdon (I). Esim. välikkeen A sääntöjen tuotokset lkvt eri tvoin: first(c) = {}; first(c) = {b, c}; first(ε) = {ε} Kielioppi ei kuitenkn ole LL(1)-muodoss, kosk rikkoo ehto (II): follow(a) = first(b) = {b, e} first(c) = {b, c} Esimerkki 55. Aritmeettisten lusekkeiden tekijöidyssä kieliopiss (Esim. 49 s. 112) trvitn LL(1)-jäsennintä vrten seurvt joukot: E T E E +E E ε T (E) first(t ) = {, (} first(e ) = {+,, ε} first(e) = first(t ) follow(e ) = follow(e) = {EOF, )} Näiden perusteell voidn kirjoitt jäsennin edellä kuvttuun tpn. Lyhennetään koodi kirjoittmll yksi yhteinen liohjelm kikille päätemerkeille b { +,, (, ),}: Terminli(b): 1 if next = b 2 then next getnext(); 3 return uusi lehtisolmu nimeltään b; 4 else error( tässä olisi pitänyt oll b ); Pääohjelmksi tulee: 1 next getnext(); 2 τ Proc E(); 3 if next = EOF 4 then return τ; 5 else error( syötteen olisi pitänyt loppu tähän ); 120

Välikkeen E liohjelmksi tulee: Proc E(): 1 if next { (, } then y 1 Proc T() y 2 Proc E () return uusi solmu nimeltään E j lpsinn y 1, y 2 2 else error( tästä olisi pitänyt lk E ) Välikkeen E liohjelmksi tulee: Proc E (): 1 if next { + } then y 1 Terminli( + ) y 2 Proc E() return uusi solmu nimeltään E j lpsinn y 1, y 2 2 elseif next { } then y 1 Terminli( ) y 2 Proc E() return uusi solmu nimeltään E j lpsinn y 1, y 2 3 else return uusi lpseton solmu nimeltään E (Tässä siis on hr säännölle E ε.) Välikkeen T liohjelmksi tulee: Proc T(): 1 if next {} then y 1 Terminli() return uusi solmu nimeltään T j lpsenn y 1 2 elseif next { ( } then y 1 Terminli( ( ) y 2 Proc E() y 3 Terminli( ) ) return uusi solmu nimeltään T j lpsinn y 1, y 2, y 3 3 else error( tästä olisi pitänyt lk T ) Tätä systemttisesti kirjoitettu jäsennintä voi selvästi vielä prnnell pikllisin muutoksin: esimerkiksi liohjelmn Proc T() rivillä 2 trkstetn khdesti, että next on (. Tehdään prempi C-pseudokoodill: void E() { tulost("e TE ") T (); E (); } 121

void E () { if (next == + ) { tulost( "E +E") next = getnext(); E(); } else if (next == - ) { tulost( "E -E") next = getnext(); E(); } else tulost( "E ε") } void T () { if (next == ) { tulost( "T ") next = getnext(); } else if (next == ( ) { tulost( "T (E)") next = getnext(); E(); if (next ) ) error( sulkev sulku puuttuu ); next = getnext(); } else error( T ei voi lk merkillä next ); } Pääohjelm käynnistää j päättää jäsennyksen: next = getnext(); E(); if (next EOF) error( ylimääräistä syötettä lusekkeen perässä ) Ktsotn esimerkki 56 sen toiminnst. Sitten korvtn sen tulosteet yksinkertisell koodingeneroinnill. Esimerkki 56. Syötejonon -(+) jäsennys tulost: E TE T E -E E TE T (E) E TE T E +E 122

E TE T E ε E ε Tulostus vst vsent johto: E T E E E T E (E)E (T E )E (E )E ( + E)E ( + T E )E ( + E )E ( + )E ( + ). Oikess ohjelmss tulost-komennot voivt tehdä jotin hyödyllisempää (kuten lske lusekkeen rvo, generoid koodi,... ). All yksinkertistettu esimerkki oikest kääntämisestä EI kysytä tentissä! Käskyknt: push x lit x pinoon pop ri poist pinon huippu rekisteriin ri dd r1,r2 r1 r1 + r2 sub r1,r2 r1 r1 r2 Syötteen (x + y) ( + b) käännös: push x push y pop r1 pop r2 dd r1, r2 push r1 push push b pop r1 pop r2 dd r1, r2 push r1 pop r2 pop r1 sub r1, r2 push r1 pop r1 // Esimerkki pinokoneen koodin g e n e r o i n n i s t // e d e l l i s e n mukisten l u s e k k e i d e n e v l u o i m i s e k s i // r e k i s t e r i i n r1... ; TESTAAMATON, v s t u u l u k i j l l : void Ep ( ) { i f ( next == + ) { next = g e t n e x t ( ) ; T( ) ; p r i n t f ( pop r1 \npop r2 \ndd r1, r2 \ npush r1 \n ) ; Ep ( ) ; } e l s e i f ( next == ) { next = g e t n e x t ( ) ; T( ) ; p r i n t f ( pop r2 \npop r1 \ nsub r1, r2 \ npush r1 \n ) ; Ep ( ) ; } } 123

void T( ) { i f ( numero ti muuttuj ( next ) ) { p r i n t f ( push %c \n, next ) ; next = g e t n e x t ( ) ; } e l s e i f ( next == ( ) { next = g e t n e x t ( ) ; T( ) ; Ep ( ) ; i f ( next!= ) ) p r i n t f ( Virhe : s u l k u puuttuu \n ) ; next = g e t n e x t ( ) ; } e l s e p r i n t f ( Virhe : T e i v o i l k %c \n, next ) ; } i n t min ( ) { next = g e t n e x t ( ) ; T( ) ; Ep ( ) ; p r i n t f ( pop r1 \n ) ; r e t u r n 0 ; } Edellisessä koodiss välike E on oleellisesti poistettu, j se on korvttu sääntöjen oikell puolell suorn johdoll T E : S T E E +T E T E ε T (T E ) Pääohjelm (min) vst siis lähtösymboli S. 5.7.1 LR-kieliopeist LL-jäsennystä vstvsti voidn määritellä jäsennystekniikk, jok muodost kieliopin mukiselle syötteelle oiken johdon. Sdn LR(1)-kieliopit j -kielet: Left to right scn, producing Right prse with 1 symbol lookhed. LR(1) = deterministiset kielet, joten LR(k)-kielet kurkistupituudell k > 1 ovt enää teoreettisesti kiinnostvi. LR-jäsennys sisältää LL-jäsennyksen sillä lim LL(k) = LR(1). k LR-jäsennys on intutiivisesti voimkkmpi, kosk siinä syötettä nähdään enemmän ennen kuin vlitn, mikä produktio on voinut sen tuott. Nämä ovt tärkeitä työkluj kääntäjien ltimisess utomttisesti. Esimerkiksi ycc-työklu tuott LALR- eli lookhed LR -jäsentimen, jok on hiemn yksinkertisempi kuin täysi LR(1)-jäsennin. 124

Yhteenveto kontekstittomien kielten jäsennyksestä Kuuluuko nnettu merkkijono kieleen? on peruskysymys kikkien formlikielten kohdll. Säännöllisten kielten yhteydessä äärelliset utomtit ovt sekä teoriss että käytännössä erinominen menetelmä jäsenyystestin rtkisemiseen. Kontekstittomien kielten jäsentäminen onnistuu pinoutomtill, mutt se on teoreettinen työklu. Käytännössä epädeterminististä pinoutomtti ei voi toteutt tietokoneell. Rjoittmttomien CF-kielioppien jäsennykseen käytetään sen sijn esim. CYK-lgoritmi. Erikoistpukset voidn jäsentää / tunnist helpommin: oikelle lineriset kieliopit vstvt säännöllisiä kieliä: tunnistetn siis äärellisellä utomtill. Monet käytännössä tärkeät erityisesti ohjelmointikielille määritellyt kieliopit ovt tyyppiä LL(k) ti LR(k). Näille on olemss yksinkertisi j tehokkit rekursioon perustuvi jäsennysmenetelmiä. Työkluj: Bison, Ycc: syötteenä (rjoitettu) kontekstiton kielioppi, tuloksen jäsentimen lähdekoodi... 125

6 Summ summrum Kurssin sisältöä voidn trkstell (inkin) khdest näkökulmst: Perustiedot formleist kielistä j niiden tunnistmisest; esim. kielen määritteleminen äärellisenä utomtin, säännöllisen lusekkeen ti kontekstittomn kieliopin vull, näiden formlismien väliset yhteydet, (Turingin kone yleisenä lgoritmin mllin j) (rtkemttomuuden lkeet, kuten pysähtymisongelm). Johdtus tietojenkäsittelyteorin j sen metodiikkn; erityisesti Säännölliset kielet mtemtiikn soveltminen lskennn mllintmiseen j miten väitteet perustelln täsmällisesti. Käytännössä tärkeä tietää: tilsiirtymäkone lskennn mllin säännölliset lusekkeet j äärelliset utomtit Teoreettisi jtusmllej: epädeterministinen lskent (joitin käytännön sovelluksikin on) mllien väliset konversiot (NFA DFA) lskulitteen j kuvusformlismin ekvivlenssi (DFA vs. säännöllinen luseke) luokn sulkeumominisuudet mhdottomuustodistukset (pumppuslemm) Kontekstittomt kielet Käytännössä tärkeä tietää: kielen kuvminen kieliopill jäsentämisen peruskäsitteet, erityisesti jäsennyspuu Teoreettisi jtusmllej: smt kuviot kuin säännöllisillä kielillä, teknisesti hstvmmss tilnteess Algoritmisi tekniikoit: itertiiviset lgoritmit (nollutuvt muuttujt jne.) CYK-lgoritmi j tulukointi (dynminen ohjelmointi) rekursion käyttö yksinkertisen kieliopin jäsentämiseksi Jtkoiheit: sovellukset ohjelmointikielissä j luonnollisess kielessä 126

Turingin koneet j lskettvuus Käytännössä tärkeä tietää: Churchin-Turingin teesi rtkemttomuuden käsite Teoreettisi jtusmllej: vikk mitä (intross minittu inkin: numeroituvuus vs. ylinumeroituvuus; digonlisointi) Jtkoiheit: lskennn teori, lskennn vtivuus; (mtemttinen) logiikk (ei se kurssi... ) Teori j käytäntö Kurssi oli teoreettinen, mutt sit pitää ymmärtää syvällisesti, jott opittu voi tehokksti sovelt. Tentti THE BEST THEORY IS INSPIRED BY PRACTICE nd THE BEST PRACTICE IS INSPIRED BY THEORY. Donld Knuth. In theory prctice nd theory re the sme. In prctice they re not. Anonyymi (?) Jotin tämän tpist: 1. Vst / selitä lyhyesti mitä trkoitt... 2. Determinisoi utomtti... 3. Muodost () säännöllistä lusekett vstv epädeterministinen äärellinen utomtti (b) utomtist vstv säännöllinen luseke luennoll esitetyllä menetelmällä. 4. Olkoon nnettu kontekstiton kielioppi G. () Ldi kieliopin kuvmn kielen tunnistv äärellinen utomtti (jos kielioppi on oikelle linerinen) ti pinoutomtti (jos ei). (b) Onko kielioppi moniselitteinen? Perustele! (c) Onko kielioppi LL(1)-muodoss? Perustele! Yleisesti: kuten hrjoitustehtävät, luentojen esimerkit j tehtävät. Siis kysymyksiä seurvien kertustehtävien tyyliin: Tehtävä 42. Esitä kullekin seurvist kkoston Σ = {, b, c} kielistä kielen tunnistv deterministinen utomtti j vstv säännöllinen luseke: 1. merkkijonot, joiss -merkkien lukumäärä on korkeintn kolme 127

2. merkkijonot, jotk loppuvt bc 3. merkkijonot, jotk eivät sisällä osmerkkijono bc 4. merkkijonot, joiss ei ole kht sm merkkiä peräkkäin. 5. merkkijonot, jotk sisältävät kolmell jollisen lukumäärän merkkiä c. Tehtävä 43. Muodost epädeterministinen äärellinen utomtti kielelle (0 11). Muodost tästä edelleen deterministinen äärellinen utomtti. Käytä luentomteriliss esitettyä täsmällistä menetelmää, j esitä myös väliviheet. Tehtävä 44. Trkstelln oheist äärellistä utomtti: b 1 2 b b 0 b,b 3 4 5 b 7 6 b b 8 b 9 10 1. Determinisioi utomtti kurssill opeteltu menetelmää käyttäen. 2. Millisen kielen utomtti tunnist? Muodost utomtist vstv säännöllinen luseke. Tehtävä 45. Trkstelln oheist äärellistä utomtti: b 1 b 2 3 b b 4 5 6 b b 1. Millisen kielen utomtti tunnist? Muodost utomtist vstv säännöllinen luseke. Tehtävä 46. Trkstelln oheist äärellistä utomtti: 128

1 b 2 3 b b b 4 5 b b b b b b 6 1. Determinisoi utomtti kurssill opeteltu menetelmää käyttäen. 2. Millisen kielen utomtti tunnist? Muodost utomtist vstv säännöllinen luseke. Tehtävä 47. Erään ohjelmointikielen funktiomäärittelyt ovt seurvnlisi: ensin nnetn pluurvo, jok voi oll int, flot ti void. Sitä seur funktion nimi. Suluiss ennetn prmetrit, ensin tyyppi (joko int ti flot) j sitten prmetrin nimi. Prmetrit erotetn pilkull. Prmetrien puuttuminen ilmistn vrtull snll void. Funktioiden j muuttujien nimet koostuvt kirjimist,b,c,...,z sekä numeromerkeistä 0,1,2,...,9, j lkvt in kirjimell. Lillisi määrittelyjä ovt esimerkiksi: int clc2(int x, int y), void print(flot menvlue), flot generte(void). 1. Ann kielen kuvv säännöllinen luseke. 2. Muodost kielen tunnistv deterministinen äärellinen utomtti lusekkeest. 3. Ann kielen kuvv kontekstiton kielioppi. Tehtävä 48. Olkoon kkosto Σ = {, b}. Trkstelln kieltä L = {x x ei sisällä merkkijono b}. 1. Ldi äärellinen utomtti, jok tunnist kyseisen kielen. (Vihje: Ldi ensin utomtti sen komplementille.) 2. Lue utomtist vstv säännöllinen luseke. Ann kikki väliviheet! 3. Ann kontekstiton kielioppi, jok tuott kyseisen kielen. Tehtävä 49. Mitä trkoitt... 1. Äärellisen utomtin determinisointi? 2. Äärellisen utomtin muodostus säännöllisestä lusekkeest? 3. Todistus Pumppuslemmll? Tehtävä 50. Ovtko seurvt väittämät oikein vi väärin? Perustele lyhyesti. 1. Jos kieli ei ole säännöllinen, on se kontekstiton. 2. Jos kieli on kontekstiton, on se myös säännöllinen. 129

3. Jos kieli on säännöllinen, on se myös kontekstiton. 4. On olemss kieliä jotk ovt säännöllisiä mutt eivät kontekstittomi. 5. On olemss kieliä jotk voidn tunnist epädeterministisellä äärellisellä utomtill mutt joit ei void kuvt säännöllisellä lusekkeell. 6. Jos nnettun kielioppi G j merkkijono w {, b}, niin w L(G) on lgoritmisesti rtkev ongelm. Tehtävä 51. Ovtko llolevt väitteet tosi vi epätosi, kun trkstelln seurv kielioppi G: S A bb ε A bb b B A 1. Merkkijonot j b kuuluvt kieliopin kuvmn kieleen L(G). 2. Säännöllinen luseke b(b) b(b) b(b) bb(b) kuv kielen L(G). 3. Säännöllinen luseke (b) b b(b) kuv kielen L(G). 4. G on vsemmlle linerinen. 5. G kuv smn kielen kuin kielioppi G : S A bb ε A ba A B ε B B B A ε Tehtävä 52. Ovtko seurvt formlikielet säännöllisiä? Jos joku niistä ei ole säännöllinen, osoit että se on kontekstiton. 1. { i b j i = 0... 3, j = 4... 5} 2. {w w on :st j b:stä koostuv merkkijono, jonk pituus on 3:ll jollinen} 3. {ww w {, b} } 4. { n b n n 0} 5. {w {, b} w sisältää prillisen määrän :t sekä vähintään yhden b:n}. 6. { i b j j i 0} 7. {w {, b} w sisältää prillisen määrän b:tä} 8. {w {, b} w sisältää prillisen määrän b:tä} {w {, b} w sisältää kolmell jollisen määrän :t}. 9. {w {, b} w sisältää prillisen määrän :tä sekä vähintään yhden b:n}. 10. { i b j {, b} 2 i = j 4} 11. { i b j i = 2j} 130

12. { i b j i on prillinen j j on priton} 13. {w bwb w {, b} } 14. {w {, b} w sisältää merkkijonon b sekä prittomn määrän :t}. 15. { m b n 0 m n 2m} Tehtävä 53. Olkoon nnettu säännölliset kielet L, L 1 j L 2. Osoit että myös seurvt kielet ovt säännöllisiä: 1. L 1 L 2 (kielten ktentio) 2. L 1 L 2 3. L 1 L 2 4. L Tehtävä 54. Olkoon nnettu kielioppi S A bb A S ba B bb ε 1. Ldi kieliopin kuvmn kielen tunnistv äärellinen utomtti. 2. Ann vstv säännöllinen luseke. 3. Kuuluuko merkkijono bbb kieleen? Jos kuuluu, niin nn merkkijonon jäsennyspuu. Tehtävä 55. Mitkä seurvt kkoston Σ = {, b} kielistä ovt säännöllisiä, mitkä eivät: 1. L = { n b n n N} 2. L = { n n n N} 3. L = {wuw R w, u Σ + } Perustele vstuksesi. Tehtävä 56. Trkstelln kkoston {, b} prillisen mittisten plindromien muodostm kieltä PAL = {ww R w {, b} }. 1. Ldi kielen tuottv kontekstiton kielioppi. 2. Muodost kielen tunnistv pinoutomtti. Tehtävä 57. Trkstelln ritmeettisi lusekkeit tuottv kontekstitont kielioppi G: E E + E E E (E). 1. Muodost luseelle ( + ) vsen johto. 2. Osoit että kielioppi on moniselitteinen (Vihje: + ). 3. Muunn kielioppi G LL(1)-muotoon. 4. Hhmottelen kieliopin LL(1)-muotoon perustuv rekursiivisesti etenevä jäsennysohjelm. 131

Tehtävä 58. Selitä lyhyesti seurvien käsitteiden merkitys. 1. Oikelle ti vsemmlle linerinen kielioppi. 2. Jäsennyspuu (prse tree). 3. Säännöllinen luseke (regulr expression). 4. Moniselitteinen kielioppi. 5. ε-utomtti. 6. LL(1)-muoto 7. Churchin-Turingin teesi. Loppu Muist kurssiplute! 132