CLT131 Korpusten käsittely (3op) Nicholas Volk Yleisen kielitieteen laitos, Helsingin yliopisto CLT131 Korpusten käsittely (3op) p.1/23
CLT131 Korpusten käsittely (Syksy 2005) Luennoitsija: FM Nicholas Volk (nvolk@ling.helsinki.fi) Laajuus: 3 opistopistettä Esitietovaatimukset: CLT130 tai vastaavat tiedot Suoritus: annettujen tehtävien tekeminen ja ratkaisujen esittäminen laskuharjoituksissa CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.2/23
CTL160: Vanhat tutkintovaatimukset CLT131 vastaa pitkälti vanhojen tutkintovaatiumsten kurssia CTL160 (2ov). Mahdolliset vanhojen tutkintovaatimusten mukaan suorittajat: ilmoittakaa, että haluatte suorittaa CTL160:n! Tästä tulikin yksi ekojen laskarien osatehtävä... CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.3/23
Kurssin aikataulu Ensimmäinen kerta: luento 9-12 Muuten luento 9-11 ja laskuharjoituksia 8-9 (ryhmä 1) ja 11-12 (ryhmä 2) Ryhmiin jako ensimmäisellä luennolla Jos yli 30 osallistujaa, niin perustetaan 3. laskariryhmä (mahdollisesti iltaan) Ks. kurssin kalenteri WWW:ssä Asiat saattavat vielä muuttua... CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.4/23
Kurssin suoritus Ei luentopakkoa, laskuharjoituksissa läsnäolopakko. Laskuharjoituksisssa esitetään ratkaisut etukäteen itsenäisesti tehtyihin tehtäviin. Laskuharjoituksista saa pisteitä tehtyjen tehtävien mukaan (max. 30 pistettä). Kukin kurssilainen esittää kurssin aikana ainakin yhden tehtävän ratkaisun. Poikkeustapauksissa voi etukäteen sopia vastausten palauttamisesta kerran sähköpostitse. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.5/23
Arvostelu Pistemäärä Arvosana 27 5 (3) 26 (3-) 24 4 (2,5) 23 (2+) 21 3 (2) 20 (1-) 18 2 (1,5) 17 (1+) 15 1 (1) Suluissa vanhojen tutkintovaatimusten mukainen arvosana. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.6/23
Korpuksen määritelmä Suomen kielen perussanakirja antaa seuraavan meidän tarkoituksiimme sopivan määritelmän: korpus 2. kiel. tutkimuksen aineistoksi valittu kokoelma kieliainesta. Korpus on siis kasa empiiristä dataa, jonka avulla voidaan testata tutkimushypoteesejä. Korpus ei valehtele, mutta sen sisältöä voidaan tulkita väärin... CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.7/23
Korpustyyppejä Käytettävä korpus valikoituu tutkimusaiheen mukaan. Tekstikorpuksia on useita eri tyyppejä: puhuttua ja/tai kirjoitettua kieltä (unohtamatta nauhoitettuja puhekorpuksia) synkroninen vs. diakroninen (eri aikakausia) annoitoitu vs. annotoimaton rekisterit: proosa, kirjeet, sanomalehdet, runot, puheet... kooltaan staattinen/kasvava Esimerkiksi kielen muuttumista voi tutkia diakronisen korpuksen avulla. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.8/23
Johtopäätösten tekemisestä Merkitsevyyden käsitteen määrittely jätetään tilastotieteiljöiden murheeksi, mutta todetaan muutama sudenkuoppa: Datan koko (paljon). Korpus paljastaa lähinnä tendessejä, ei ehdottomia totuuksia. Kirjoittajien määrä, taustat, tekstilajit... Kieli ei ole maailmasta irrallinen, konteksti pitää huomioida: esim. muinais-englantia kirjoitettiin pääasiassa Wessexissä, myöhemmin Lontoon alueen murre vakiintui englannin kirjakielen perustaksi. Erot siis sekä ajallisia että aluellisia. Annotoinnin hyödyntämisestä lisää myöhemmin. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.9/23
Tekstikorpusten tietojenkäsittely - tavoitteet Kurssin tavoitteet: 1. Oleellisten asioiden poiminta isosta tekstimassasta eli aineiston keruu 2. Aineiston muokkaaminen ihmiselle tai koneelle helpommin tulkittavaan muotoon Tavoitteisiin pyritään lähinnä Linux/Unix-käyttöjärjestelmän mukana tulevien työkalujen avulla. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.10/23
Kurssimateriaalin kattavuudesta Itsenäisesti opiskelu mahdollista, mutta vaatii oma-aloitteisuutta. Keskitymme kalvoissa vain subjektiivisesti oleelliseen asiaan, mm. suurin osa komentojen optioista ohitetaan surutta. Tarkempia tietoja saa komentojen man-sivuilta: man komento man -k asiasana Unixeista, komentotulkeista, komennoista ym. on liikkeellä useita eri versioita. Keskitymme bash-komentotulkkiin ja GNU:n versioihin komennoista. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.11/23
Merkintätavoista Kehotteen (prompt) merkkinä käytetään kurssimateriaalissa dollaria $. Kehotteen ulkonäkö vaihtelee ja käyttäjä voi itse määrittää sen ulkoasun (seuraava kalvo). Komennot kirjoitetaan kehotteen perään komentoriville, materiaalissa komennot ovat tummennettuja: $ echo Terve maailma! Terve maailma! Hipsut kertovat komentotulkille, että niiden sisällä oleva osa käsitetään samaan sanaan kuuluvaksi, eli niitä ei tulosteta. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.12/23
Ympäristömuuttujat Unixeissa on joukko ympäristömuuttujia (environment variable) Ainakaan tämän syksyn CLT130:ssa, joten ne käydään läpi lyhyesti luennolla... Kurssin kannalta epäkeskeinen asia, joten näitä ei käydä syvällisesti läpi kalvoilla... Onhan noita: PATH, PS1, PS2, PWD, OLDPWD, HOME... CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.13/23
Lisää muuttujista Arvon asetus: $ FOO="bar" Arvon tulostus: $ echo $FOO Muuttujan arvon välittyminen terminaalista käynnistettyihin ohjelmiin: $ FOO="bar" $ export FOO CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.14/23
Hipsuja Osin bash-komentotulkkispesifiä Joillain merkeillä on komentotulkin kannalta erityismerkitys, esim. * Joskus halutaan viitata itse merkkiin, eikä komentotulkin erityismerkitykseen voidaan erikoismerkki kirjoittaa laittamalla sen eteen kenoviiva tai ympäröimällä se joko yksin- tai kaksinkertaisilla kipsuilla: echo \* * * "*" Eli hipsujen sisällä oleva osa kuuluu komentotulkin kannalta samaan sanaan. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.15/23
Hipsuja (2) Yksinkertaisten hipsujen sisällä millään merkillä ei ole erityismerkitystä. -merkkiä itseäänkään ei siis voi kirjoittaa yksinkertaisten hipsujen sisään. Sen voi kuitenkin kirjoittaa välittömästi hipsujen rajaaman alueen viereen: tr -d,.:;!? \ Lainausmerkkien sisälle voidaan kirjoittaa lainausmerkki kenoviivan avulla: echo \ Entä miten kenoviiva kirjoitetaan? CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.16/23
head- ja tail-käskyt head tulostaa oletusarvoisesti 10 ensimmäistä riviä syöttestä tail vastaasti tulostaa 10 viimeistä riviä antamalla optiona positiivinen kokonaisluku saadaan haluttu määrä rivejä käskyjä yhdistelemällä voi hakea haluamansa peräkkäiset rivit esim. head -3 tail -1 hakee syötteen kolmannen rivin CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.17/23
wc- ja cat-käskyt wc oletusarvoisesti syötteen rivien, saneiden ja merkkien määrät Optioden l, w ja c avulla voi tulostaa näistä vain halutut cat liittää monta tiedostoa yhteen, sen syötteen rivit voi numeroida n-optiolla cat on maailman eniten turhaan käytetty käsky (mikä ei tietenkään ole vaarallista): $ cat yhdestoista.txt wc 45 205 1636 $ wc < yhdestoista.txt 45 205 1636 $ wc yhdestoista.txt 45 205 1636 yhdestoista.txt CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.18/23
wc:n -c valitsimesta wc Täsmällisemmin ottaen wc-käsktyn -c optio laskee syötteensä 8-bittisten tavujen määrän Bitti on joko 1 tai 0, kahdeksan bitin jonolla pystyy kuvaamaan 256 eri yhdistelmää. Perinteisesti (esim. ISO-8859) yksi tavu vastasi yhtä merkkiä ja kukin aakkosto sisälsi maksimissaan em. 256 merkkiä. Nyttemmin Unicode (UTF-8) käyttää useimien merkkien kuvaamiseen kaksi tavua, sillä 16 bitin avulla pystytään kuvata suurempi merkkiavaruus. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.19/23
Sane ja sananmuoto Edellisessä kalvossa törmäsimme termiin sane. Sane on sananmuodon esiintymä. Sananmuodolla on ainakin yksi lingvistinen tulkinta. http://www.ling.helsinki.fi/kit/term/intro.shtml Googlen avulla on helppo huomata, että termejä ei aina käytetä näin. wc-käsky laskee välimerkit saneen osiksi, lingvisti ei. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.20/23
Syötteestä ja tulosteessa Käskyjen saama syöte tulee joko nimety(i)stä tiedosto(i)sta tai ns. oletussyötöstä (standard input) Oletussyöttö tulee käskylle joko näppäimistöltä, putkesta tai uudelleenohjauksen < avulla tiedostosta Oletustulostus (standard output) tulee oletusarvoisesti näytölle Putkella oltustulostuksen voi ohjata seuraavalle käskylle Tulostuksen voi ohjata myös tiedostoon (esim. > ja >> ) Syötteen saamistapojen välillä ei yleensä ole suurta eroa Unixin peruskäskyissä, poikkeuksena tr, joka toimii vain oletussyötön kanssa CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.21/23
tr-käsky tr-käskyllä voi muuttaa merkkejä toisiksi merkeiksi, esim. tr A-ZÅÄÖ a-zåäö muuttaa isot kirjaimet pieniksi kirjaimiksi. tr \n muuttaa välilyönnit rivinvaihtomerkeiksi eli käytönnössä laittaa kunkin saneen omalle rivilleen. Kirjaimet a:sta z:aan ja numerot 0:sta 9:ään ja niiden osajoukot voidaan kirjoittaa väliviivan avulla, sillä käytännössä kaikissa tietokoneen käyttämissä merkkijärjestelmissä ne ovat aina peräkkäin. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.22/23
tr: lisää valitsimia s-optiolla muutetaan peräkkäiset samat merkit yhdeksi: tr -s \n \n poistaa tyhjät rivit. d-optiolla voi poistaa haluamansa merkit: tr -d ".,;\- poistaa joukon välimerkkejä ja vastaavia. \- kertoo, että kyseinen väliviiva viittaa itseensä, eikä tarkoita haarukkaa jostain merkistä johonkin merkkiin. c-optio tarkoittaa annetun (ensimmäisen) setin komplementtia: tr -dc \n A-Za-zÅÄÖåäö poistaisi kaikki muut paitsi annetut merkit.. CLT131 Korpusten käsittely Syksy 2005 Nicholas Volk p.23/23