TIEA241 Automaatit ja, syksy 2015 Antti-Juhani Kaijanaho TIETOTEKNIIKAN LAITOS 3. joulukuuta 2015
Sisällys
Formaalisti Määritelmä Nelikko G = (V, Σ, P, S) on kontekstiton kielioppi (engl. context-free grammar, ), jos seuraavat väitteet pätevät: V on epätyhjä, äärellinen joukko (muuttujat eli nonterminaalit eli välikemerkit eli syntaktiset kategoriat) Σ on epätyhjä, äärellinen joukko (päätemerkit eli terminaalit) V Σ = P V (V Σ) (produktiot eli kielioppisäännöt) S V (aloitusmerkki) 1 1 Formaali määritelmä siis kiinnittää, minkä välikemerkin kieltä tarkastellaan.
Tavanomainen esitystapa Produktiot (v, w) P luetellaan kukin omalla rivillään muodossa v w. Aloitusmerkin produktiot luetellaan ensimmäisenä. Saman välikemerkin produktiot voidaan esittää lyhennysmerkinnällä: A ω 1 ω 2 on sama kuin A ω 1 A ω 2 Produktion oikean puolen tyhjyyttä voidaan korostaa käyttämällä ε-merkintää: A ε Kaikki merkit, jotka esiintyvät produktion vasemmalla puolella, ovat välikemerkkejä, ja muut ovat päätemerkkejä, ellei muuta sanota.
Backus Naur Form (BNF) Eräs klassinen metasyntaktinen notaatio (eli tapa kirjoittaa kontekstiton kielioppi) 2 Välikemerkkien nimet voivat olla sanoja tai jopa fraaseja, ja ne kirjoitetaan kulmasulkeisiin. Myös jotkin päätemerkit (esimerkiksi lukuvakio) nimetään ja laitetaan kulmasulkeisiin Produktion nuoli korvataan symbolilla ::= Esimerkiksi aritmeettisten lausekkeiden kielioppi BNF:llä: <expression> ::= <constant> <expression> + <expression> <expression> - <expression> <expression> * <expression> <expression> / <expression> ( <expression> ) 2 Peter Naur ym.: Revised Report on the Algorithmic Language ALGOL 60. Communications of the ACM 6 (1), s. 1 17, 1963. http://dx.doi.org/10.1145/366193.366201
Augmented BNF (ABNF) Verkkoprotokollien kuvauksessa käytetään usein Augmented BNF -notaatiota 3 Välikesymbolit ja jotkin päätesymbolit voidaan nimetä sanoilla. Kulmasulkeita ei tarvita. Päätesymbolit kirjoitetaan pääsääntöisesti lainausmerkkeihin. Produktionuoli on =. Vaihtoehtoisuus ilmaistaan kauttaviivalla. Sulkeita voi käyttää ryhmittelyyn. Runsaasti muitakin lyhennysmerkintöjä. Esimerkiksi aritmeettisten lausekkeiden kielioppi ABNF:llä: expr = const / expr ( "+" / "-" / "*" / "/" ) expr / "(" expr ")" 3 D. Crocker (toim.): Augmented BNF for Syntax Specifications: ABNF. Internet Standard 68, RFC 5234, 2008. http://tools.ietf.org/html/rfc5234
Ritchien metakieli 4 Käytetään mm. C:n ja Javan kuvauksessa. Välikesymbolit ja nimettävät päätesymbolit kursivoidaan. Muut päätesymbolit kirjoitetaan lihavoidulla, tasalevyisellä fontilla. Produktionuolen asemesta käytetään kaksoispistettä. Vaihtoehdot kirjoitetaan omille rivilleen. Aritmeettiset lausekkeet Ritchien metakielellä: expression: constant expression + expression expression - expression expression * expression expression / expression ( expression ) 4 En tiedä, kuka tämän alun perin kehitti, mutta aikaisin julkaisu jossa sitä olen nähnyt käytettävän on Dennis Ritchien C Reference Manual vuodelta 1974 (https://www.bell-labs.com/usr/dmr/www/cman74.pdf).
Ratakisko 5 produktion oikea puoli ilmaistaan graafina jossa välikesymbolit ovat laatikoiden ja päätesymbolit ympyröiden sisällä graafilla mahdollista ilmaista monimutkaisiakin rakenteita yhdessä produktiossa floating constant: + digits. digit E digits - 5 Esimerkki (lievästi muokattuna) sivulta http://www.texample.net/tikz/examples/diagram-chains/, tekijä Ludger Humbert; CC-BY 2.5
Käyttäytyminen Määritelmä Olkoon G = (V, Σ, P, S), olkoot v, u, w (V Σ) välike- ja päätemerkkien jonoja, ja olkoon A V välikemerkki. Merkkijono vaw antaa (engl. yields) merkkijonon vuw, merkitään vaw G vuw, 6 jos A u on G:n produktio eli jos (A, u) P pätee. 6 Alaindeksi G voidaan jättää pois, jos on selvää, mitä kielioppia tarkoitetaan.
Määritelmä Olkoon G = (V, Σ, P, S). Pääte- ja välikemerkkien jonosto v 0,..., v n (V Σ), jolle pätee i {1,..., n} : v i 1 G v i, on v n :n johto v 0 :sta, ja sitä merkitään usein v 0 G G v n tai lyhentäen v 0 G v n. Luku n on johdon pituus. 7 Olkoot w, u (V Σ) välike- ja päätemerkkien jonoja. Jos on olemassa w:n johto u:sta, niin u johtaa eli tuottaa (engl. derives) w:n, merkitään u G w. 7 Erikoistapauksena myös nollan pituinen johto v 0 G v 0 on mahdollinen.
Vasen ja oikea johto Määritelmä Olkoon G = (V, Σ, P, S) kontekstiton kielioppi ja olkoon v 0 G G v n johto. Jos jokaisessa johdon askeleessa v i G v i+1 sovelletaan jotain produktiota v i :n vasemmanpuolimmaiseen välikesymboliin, kyseeessä on vasen johto (engl. leftmost derivation). Jos jokaisessa johdon askeleessa v i G v i+1 sovelletaan jotain produktiota v i :n oikeanpuolimmaiseen välikesymboliin, kyseeessä on oikea johto (engl. rightmost derivation).
Määritelmä Kontekstittoman kieliopin G = (V, Σ, P, S) tuottama kieli on L(G) = { w Σ S G w } Määritelmä Kieli on kontekstiton (engl. context-free), jos on olemassa kontekstiton kielioppi, joka tuottaa sen.
L(G):tä koskevien todistusten strategia Olkoon G = (V, Σ, P, S). Todistettava, että L(G):n kaikilla merkkijonoilla w L(G) on ominaisuus P(w). Määritellään kullekin välikemerkkille A V ominaisuus P A ( ). Todistetaan 8, että w Σ : P(w) P S (w) pätee. Todistetaan, että A V, w (V Σ) : P A (w) (A G w) pätee. Todistetaan, että A V, w (V Σ) : (A G w) P A (w) pätee. 8 Tämä usein sivuutetaan triviaalina.
Esimerkki Lause Olkoon G seuraava kontekstiton kielioppi. S asb ε Tällöin L(G) = { a k b k k N } pätee. Todistus Ainakin jälkiprujussa (taululla jos on aikaa).
Jäsennyspuu Jäsennyspuu (tietyn kieliopin suhteen) on puu, jolla on seuraavat ominaisuudet: Sen kukin lehtisolmu on merkitty pääte- tai välikemerkillä taikka ε:lla. Sen juuri ja jokainen sisäsolmu on merkitty välikemerkillä. Kullekin sisäsolmulle (jonka merkki on) A, jolla on lapsisolmut (joiden merkit ovat) ω 1,..., ω n, on olemassa kieliopin produktio A ω 1 ω n Jäsennyspuu on tietyn merkkijonon jäsennyspuu tietystä välikemerkistä lähtien, jos tuo merkkijono voidaan lukea jäsennyspuun lehtisolmujen merkeistä vasemmalta oikealle (ε-solmut huomiotta jättäen) ja puun juuri on merkitty kyseisellä välikemerkillä.
Taululla Piirretään joitakin seuraavan kieliopin jäsennyspuita 9 E c E E + E E E E E E E E E / E E (E) Kuinka monta jäsennyspuuta voidaan piirtää merkkijonolle c + c c? 9 Päätemerkki c on leksikaalinen kategoria, jonka edustajia ovat kaikki Unix-regexpin [+-]?[[:digit:]]+ kuvaamat merkkijonot.
Puuta koskevien todistusten strategia Yleensä rakenneinduktio (eli induktio puun solmujen määrän suhteen): Perustapauksena käsitellään joko tyhjä puu taikka puu, joka koostuu yksinomaan yhdestä lehtisolmusta. Induktiotapauksessa tarkastellaan puuta, jossa on vähintään kaksi solmua. Induktio-oletus on, että väite pätee kaikille puun aidoille alipuille 10 tai yleisemmin, että väite pätee kaikille puille, joissa on vähemmän solmuja kuin tarkasteltavana olevassa puussa. 10 Puussa on alipuu jokaista puun solmua kohti: kyseinen solmu tulkitaan juureksi, ja alipuuhun kuuluvat kaikki tuon solmun jälkeläiset; alipuu on aito, jos siinä on vähemmän solmuja kuin alkuperäisessä puussa.
Jäsennyspuiden peruslause Lause Olkoon G = (V, Σ, P, S). Olkoon A V välikemerkki, ja olkoon w (V Σ) merkkijono. Seuraavat ovat yhtäpitäviä: 1. On olemassa w:n jäsennyspuu A:sta lähtien G:n suhteen. 2. A G w. Todistus. Sivuutetaan (tulee jälkiprujussa)
Määritelmä Kontekstiton kielioppi on yksiselitteinen, jos kaikilla merkkijonoilla on enintään yksi jäsennyspuu. Muuten se on moniselitteinen (engl. ambiguous). Lause Merkkijonolla on saman kieliopin suhteen ja samasta välikemerkistä alkaen yhtä monta jäsennyspuuta kuin sillä on erilaisia vasempia johtoja. Todistus. Sivuutetaan.
Roikkuva else <statement> ::= print <expression> ; { <statement-list> } if ( <expression> ) <statement> if ( <expression> ) <statement> else <statement> <statement-list> ::= <empty> <statement-list> <statement> <empty> ::= Kysymys Mitä tulostaa if (a) if (b) print 1; else print 2; jos a on epätosi? (a) 2 (b) ei mitään
Ratkaisu Yleensä valitaan (b), jolloin else paritetaan sisimmän parittoman if:n kanssa. Yksiselitteistys tehdään pakottamalla then-lauseen pariutuminen: <statement> ::= <matched-statement> <open-statement> <matched-statement> ::= print <expression> ; { <statement-list> } if ( <expression> ) <matched-statement> else <matched-statement> <open-statement> ::= if ( <expression> ) <statement> if ( <expression> ) <matched-statement> else <open-statement>