Asialista. CLT131: Tekstityökalut 2010, neljäs luento. Lähiaikataulu. Asialista. Käytännön asiat

CLT131: Tekstityökalut 2010, neljäs luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-26 Lähiaikataulu ensi viikon luennoilla Hissu Mikkonen kertoo tekstityökaluista oikeassa kieliteknologiaprojektissa ensi viikosta ei tule harjoitustehtäviä, mutta sisältänee hyödyllisiä yksityiskohtia harjoitustyötä varten harjoitustyöstä on koottu jotain ohjeita verkkosivuille http://www.ling.helsinki.fi/kit/2010s/ clt131/priv/harjoitustyo.shtml harjoitukset 3 4 ovat verkkosivuilla nyt http://www.ling.helsinki.fi/kit/2010s/ clt131/priv/harjoitukset4.shtml

Shelliskriptien palautusarvot ja ehtorakenne käsitelty myös ainakin tämän vuoden CLT130:ssä lisätietoja niistä aineistoista kaikilla shell-komennoilla on palautus-arvo, joka tallentuu kunkin komennon jälkeen muuttujaan nimeltä $?: komennot false ja true ovat peruskomentoja jotka palauttavat aina onnistui- tai epäonnistui-arvon vastaavasti muita mahdollisia arvoja on paljon; kaikki paitsi 0 epäonnistuvat (useat suuremmat arvot kriittisiä virheitä) suorituksen onnistumista voi testata if-komennolla, joka pelkistetymmillään testaa komennon onnistumista: true, false, echo $? if true ; then echo Totta ; fi if! false ; then echo Ei aivan epätotta ; fi Shelliskriptien taulukot ja toistorakenteet koko taulukon saa merkkijonona bashissa indeksillä *: ${PIPESTATUS[*]} merkkijonoja test taas voi testata yhtäsuuruusmerkillä: false true false, echo $PIPESTATUS[*] if test ${PIPESTATUS[ *]} = 1 0 1 ; then echo Täsmäsi ; fi koko PIPESTATUS-rakenteesta onnnistumisten ja epäonnistumisten haun voi tehdä yksi kerrallaan tai valikoidulle grep-haulla shell-ohjelmoinnissa on myös mahdollisuus käydä läpi taulukoita ja listoja toistolausekkeella for muuttuja in lista koko taulukon muuttujana saa indeksillä @: for status in ${PIPESTATUS[@]} ; do... for vokaali in a e i o u y ä ö ; do Shelliskriptien palautusarvot ja testaus putkitetulla skriptillä palautusarvo ei kerro toimivatko kaikki ohjelmat joissain tapauksissa tämän korvaa taulukkomuuttuja $PIPESTATUS taulukosta saa arvoja hakasulkeilla: $PIPESTATUS[0] on ensimmäisen komennon palautusarvo, $PIPESTATUS[1] toisen jne. muuttujia (kuten $PIPESTATUSta) ja monimutkaisia lausekkeitahan ymmärretään komennolla test; -eq testaa palautusarvojen tai muiden lukujen yhtäläisyyttä (ei = tai ==): false true, echo $PIPESTATUS if test $PIPESTATUS[0] -eq 1 ; then echo eka väärin ; fi

Tutkimusongelma: Etunimien automatisoitu keruu aineistosta Tehtäväkuvaus: halutaan kerätä etunimiä sanaston laajentamiseksi käyttämällä kirjallisuusaineistoa Lähtökohdat: gutenbergin laaja kirja-aineisto perustekstityökalut ja hakumenetelmät morfologinen analysaattori? Ongelma: mikä määrittää sanan etunimeksi (Named entity recognition) millaisissa yhteyksissä etunimiä käytetään miten saadaan nimistä perusmuoto? Tiedetään, että morfologinen analysaattorimme ei osaa perusmuotoista nimiä, joita ei ole sanastossa juuri niitä mitä etsimme! Säännöllisten lausekkeet ja hakutulosten operointi: sed sedillä täsmätään säännöllisiin lausekkeisiin ja tehdään täsmätylle osalle muunnoksia sed on kuten tr, joka yhden merkin sijasta käsittelee säännöllisiä ilmauksia sedin komentokielessä on paljon muutakin toiminnallisuutta, kurssilla käytetään lähinnä korvausja poistokomentoja säännöllisten lausekkeiden murteissa sed -r vastaa egrepiä ja pelkkä sed vastaa grepiä; käytämme lähinnä aiempia sedin käskyt annetaan valitsimella -e käsky, näitä voi olla useampia (yhden tapauksessa -e ei ole pakollinen, mutta välttää kirjoitusvirheitä paremmin) sed: korvaus korvauskäskyn muoto on s/lauseke/korvaus/asetukset: lauseke on tavan säännöllinen lauseke korvaus on korvaava merkkijono; korvausosa ei ole säännöllinen lauseke, mutta voi sisältää joitain erikoismerkkejä asetukset koostuu kirjaimista: olennaisia ovat g, joka toistaa korvauksen monta kertaa per rivi (oletuksena vain kerran) ja i jonka tarkoitus on käsitellä isoja ja pieniä kirjaimia yhtäläisinä esim. tr \n = sed -r -e s/ /\n/g esim. tr -d [:punct:] = sed -r -e s/[[:punct:]]//g

sed: toisto ja järjestely sed-lausekkeen rakenne oli siis s/lauseke/korvaus/asetuket: korvausosassa & kopioi täsmäyksen kahdennetaan merkkejä: sed -r -e s/./&&/g yleisesti \n, jossa n = 0 9, kopioi valitun osan lausekkeesta; valinta 0 on aina kaikki, eli sama kuin & valinnat 1 9 voi tehdä kaarisulkeilla järjestellään kirjainkolmikoita uudelleen (salakirjoitetaan): sed -r -e s/(.)(.)(.)/\3\2\1/g etsitään punaisia olioita: fgrep punainen sed -e s/punainen ([[:alpha:]]*)/\1/ tutkitaan ekvatiivilauseiden argumentteja eli kollokaatteja: sed -r -e s/([[:alpha:]]*) on ([[:alpha:]]*)/\1,\2/ Lisätieto: Säännölliset lausekkeet ja ohjelmointi: awk ohjelmointikieli, joka suorittaa käskyjä riveille, jotka täsmäävät säännölliseen lausekkeeseen tai muuhun ehtoon awk käsittelee riviä numeroituna joukkona saneita, joka on usein hyvä lähtökohta käsittelylle awkin komentojen muoto on ehto {komennot}: ehto joka koostuu säännöllisestä lausekkeestaa merkitään vinoviivoin komentoja on paljon: esim. print, printf tulostamiseen $n, jossa n kokonaisluku, viittaa saneen numeroon sanenumeroa voi käyttää hyödyksi ehdossa ja täsmätä säännöllistä lausekketta vain n:nteen saneeseen sanenumeroja voi käyttää hyväksi print-komennolla, ja tulostaa vain valitut saneet Lisätieto: sed ja morfologia on täysin mahdollista toteuttaa koko taivutusoppi sed-käskyillä esimerkki: vesi: vesi veden vettä veteen vedet vesien, vetten vesiä vesiin vartalovaihtelu on helppoja sed-muunnoksia; saadaan aikaan taivutusvartalot suffiksit liittyvät taivutusvartaloihin vielä helpommilla sed-kuvauksilla vartalovaihtelukoskee lopputavua: $ on hyödyksi: heikko vokaalivartalo yksikön genetiivi sed -r -e s/si$/de/ -e s/$/n/ konsonanttivartalo yksikön partitiivi sed -r -e s/si$/t/ -e s/$/tä/ vahva vokaalivartalo yksikön illatiivi sed -r -e s/si$/te/ -e s/(.)$/\1\1n/ monikkovartalo monikon partitiivi sed -r -e s/si$/s/ -e s/$/iä/ puuttuu: vokaaliharmonia ja astevaihtelu, sekä samanlaiset määritykset kaikille paradigmoille...

Työsuunnitelma Jatketaan siitä mihin jäätiin: 1. haettiin kirja gutenbergistä hipulle: wget http://www.gutenberg.org/cache/epub/12379/pg12379.txt 2. (uudelleennimettiin järkevämmin (mv pg12379.txt ylosnousemus.txt)) 3. korjattiin rivinvaihdot (dos2unix ylosnousemus.txt) 4. hankiuduttiin eroon englanninkielisistä osioista (tail -n +28 ylosnousemus.txt head -n -400 > ylosnousemus-siistitty.txt) 5. haettiin nimet (egrep -o \b(sanoi epäili kuuli) [[:upper:]][[:lower:]]*) 6. enää pitää poimia nimet jo melkein valmiista listasta ( sed) 7. helpotetaan käsittelyä järjestelemällä frekvenssin mukaan ( sort, uniq) 8. viimeistellään tekemällä nimistä sanakirjaluokituksia eli arvaamalla taivutusluokkia ( sed tai awk) Kertausta: frekvenssilistaus Poistetaan verbit nimien ympäriltä laajennetaan nimilistaa hieman sallimalla nimi verbin kummaksi tahansa kollokaatiksi (viereiseksi saneeksi): egrep -o \b([[:upper:]][[:lower:]] * (sanoi epäili kuuli)) ((sanoi epäili kuuli) ([[:upper:]][[:lower:]]*)\b) varsinainen nimilista saadaan verbistä ja nimistä koostuvista lausekkeista esim. poistamalla verbit, jotka tässä tapauksessa tunnetaan voidaan käyttää liki samaa säännöllistä lauseketta sedillä kuin grepillä: sed -r -e s/?(sanoi epäili kuuli)?// Alustava luokittelu käsitelty ainakin tämän vuoden CLT130-kurssilla: työkaluilla sort ja uniq saa frekvenssilistauksia sort järjestää uniq -c laskee ja poistaa toistot sort -nr järjestää frekvenssilistan tällä kertaa emme tee mitään frekvenssilukemilla, joten kehitellään sed-lauseke niiden poistoon: sort uniq -c sort -nr on yksi yleisimpiä käskysarjoja käytettäväksi korpustutkimuksessa sed -r -e s/ˆ *[0-9]* // poistaa frekvenssit awk print $2 lienee hivenen helpompi suomen sanakirjoissa sanan luokitukseen tarvitaan tietää vartalovaihtelu, joka usein selviää vartalon lopusta esim. konsonanttiloppuinen Nehljudof taipuu kuten paperi, siis merkitään konsonanttiloppuiset sanat luokkaan 6: sed -r -e /[bcdfghjklmnpqrstvxz]$/&,6/ Maslova ei taivu kuin Vera: pitää siis keksiä eri lausekkeet arvaamme, että kyse on aata edeltävästä vokaalista: sed -r -e /e.a$/&,9/ -e /o.a$/&,10/

Kirjallisuus ja linkit AWK programming language (978-0201079814)