CLT131: Tekstityökalut 2011, viides luento

Samankaltaiset tiedostot
Asialista. hippu ja.bashrc. Asialista. Tutkimusongelma: tekstin morfologisen jäsennyksen selvittely

CLT131: Tekstityökalut 2010, toinen luento

CLT131: Tekstityökalut 2011, toinen luento

CLT131: Tekstityökalut 2012, kymmenes luento

CLT131: Tekstityökalut 2011, seitsemäs luento

Asialista. CLT131: Tekstityökalut 2012, kymmenes luento. 2. frekvenssien muunnos todennäköisyyksiksi. 1. taulukkohaut

CLT131: Tekstityökalut 2011, kuudes luento

Asialista. CLT131: Tekstityökalut 2010, kolmas luento. Laskuharjoitusaikataulut. Harjoituksissa havaitut virheet. Käytännön asiat/kertaus

CLT131: Tekstityökalut 2010, kolmas luento

CLT131: Tekstityökalut 2011, kahdeksas luento

Asialista. CLT131: Tekstityökalut 2011, kahdeksas luento. Merkistöistä ja kalvostoista. Asialista. Tommi A Pirinen

CLT131: Tekstityökalut 2010, ensimmäinen luento

CLT131: Tekstityökalut 2010, neljäs luento

Asialista. CLT131: Tekstityökalut 2010, kuudes luento. Tuleva ohjelma. Kurssipalaute. Käytännön asiat Tuleva ohjelma Havaitut virheet ja korjaukset

CLT131: Tekstityökalut 2010, kuudes luento

Asialista. CLT131: Tekstityökalut 2010, neljäs luento. Lähiaikataulu. Asialista. Käytännön asiat

CLT131 Korpusten käsittely

Kieliteknologian ATK-ympäristö Viides luento

Kieliteknologian ATK-ympäristö Viides luento

Korpusten käsittely clt131, P Luento 4

Korpusten käsittely clt131, P Luento 5

Kieliteknologian ATK-ympäristö Kolmas luento

Kieliteknologian ATK-ympäristö Neljäs luento

Kieliteknologian ATK-ympäristö Toinen luento

Kieliteknologian ATK-ympäristö Kuudes luento

Korpusten käsittely clt131, P Luento 3

Luento 4. Timo Savola. 21. huhtikuuta 2006

[Jnix näyttökoe. o ei ole sallittua käyttää mitään verkkolevyjakoa tai mitään siihen rinnastettavaa järjestelmdä.

Sangen lyhyt L A T E X-johdatus

CLT131 Korpusten käsittely (3op)

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

Korpusten käsittely clt131, P Luento 1

LUENTO 8 TAULUKKOLASKENTA II

Komentotulkki. Kysymyksiä

Python-ohjelmointi Harjoitus 5

Kansalliskirjaston digitoitu historiallinen lehtiaineisto : sanatason laatu, kokoelmien käyttö ja laadun parantaminen

Sanaluokkajäsennystä rinnakkaisilla transduktoreilla

Ctl160 Tekstikorpusten tietojenkäsittely

Sangen lyhyt L A T E X-johdatus

1.1 Tekstinprosessointiohjelmien yleinen toimintatapa (1)

opiskelun suunnittelujärjestelmä, kurki ja ilmo käyttävät kaikki samaa tietokantaa, ja uusi järjestelmä tulee osaksi tätä.

Digitalisoitu harjoitustehtävien ratkaisujen palautus sekä arviointi matematiikan ja tilastotieteen yliopisto-opinnoissa

Est.kand Kandidaatintyö ja seminaari: L A T E Xin käyttöönotto

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 16. marraskuuta 2015

Luento 5. Timo Savola. 28. huhtikuuta 2006

Ctl160 Tekstikorpusten tietojenkäsittely p.1/24

Algebralliset tietotyypit ym. TIEA341 Funktio ohjelmointi 1 Syksy 2005

Hieman linkkejä: lyhyt ohje komentoriviohjelmointiin.

Ctl160 Tekstikorpusten tietojenkäsittely p.1/28

TIEA341 Funktio-ohjelmointi 1, kevät 2008

TIEA341 Funktio-ohjelmointi 1, kevät 2008

metsän kieli Luonnon aakkoset Adjektiivijahti Vastakohtien etsintä Sanakäärme Sana-arvoitus Narujuoksu Tiedän ja näen

Algoritmit 2. Luento 6 Ke Timo Männikkö

FrontPage Näkymät

Visma.net Approval. Versiosaate 1.40

Kirjoita oma versio funktioista strcpy ja strcat, jotka saavat parametrinaan kaksi merkkiosoitinta.

TEEMA 2 TAULUKKODATAN KÄSITTELY JA TIEDON VISUALISOINTI LUENTO 3

Java-kielen perusteita

linux: Ympäristömuuttujat

Digitalia-projektin tekstinlouhinnan tuloksia. Kimmo Kettunen

Ctl160 Tekstikorpusten tietojenkäsittely Kolmas luento,

Vesa Ollikainen, päivitys Juha Haataja

Sisällys. Johdatus Linux/Unixiin: Osa 2. Prosessin tilat. Prosessien hallinta. Prosessien monitorointi

HY / Matematiikan ja tilastotieteen laitos Tilastollinen päättely II, kevät 2017 Harjoitus 1 Ratkaisuehdotuksia Tehtäväsarja I

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 5. marraskuuta 2015

Ctl160 Tekstikorpusten tietojenkäsittely Kolmas luento

SQL-perusteet, SELECT-, INSERT-, CREATE-lauseet

Ohjelmoinnin peruskurssi Y1

Ohjelmoinnin peruskurssi Y1

Ubuntu tunkkausta En US / Helsinki asennuksen jälkeen jotta loki5ac toimisi oikein Winen päällä.

DOORSin Spreadsheet export/import

Ohjelmoinnin perusteet Y Python

Korpusten käsittely clt131, P Luento 6

815338A Ohjelmointikielten periaatteet Harjoitus 6 Vastaukset

Ohjelmoinnin perusteet Y Python

C-ohjelmoinnin peruskurssi. Pasi Sarolahti

Ohjelmassa henkilön etunimi ja sukunimi luetaan kahteen muuttujaan seuraavasti:

C++ Ohjelmoijan käsikirja. Johdanto

Selkosanakirja sdfghjklöäzxcvbnmqwertyuiopåasdfghjklöäzxcvbnmq. Tietokoneet. wertyuiopåasdfghjklöäzxcvbnmqwertyuiopåasdfghjk 1.4.

Juha Haataja

Luento 3. Timo Savola. 7. huhtikuuta 2006

ASCII-taidetta. Intro: Python

Written by Administrator Monday, 05 September :14 - Last Updated Thursday, 23 February :36

TIEA241 Automaatit ja kieliopit, syksy Antti-Juhani Kaijanaho. 9. lokakuuta 2016

LUENTO 7 TAULUKKOLASKENTA I

Kurssikoe on maanantaina Muista ilmoittautua kokeeseen viimeistään 10 päivää ennen koetta! Ilmoittautumisohjeet löytyvät kurssin kotisivuilla.

Luento 7 Taulukkolaskennan edistyneempiä piirteitä Aulikki Hyrskykari

Basic Raster Styling and Analysis

Webforum. Version 15.1 uudet ominaisuudet. Päivitetty:

Ohjelmointi 1 / syksy /20: IDE

Versio 7.1 Uudet ominaisuudet

SYÖTTÖPOHJA LUKUJEN SYÖTTÖÖN ERI TARKOITUKSIIN

MITÄ JAVASCRIPT ON?...3

Helsingin yliopisto Kehittämisosasto Opiskelijarekisteri. Oodi 2.81 Käyttöohje Opintosuoritusten rekisteröinti OPINTOSUORITUSTEN REKISTERÖINTI

klusteroi data haluttuun määrään klustereita tee n-gram -mallit klustereista (tasoitus) estimoi sekoitteiden painokertoimet λ k

Tekstinkäsittely 1. Peruskäyttö. Tietotekniikan perusteet Metropolia Ammattikorkeakoulu Vesa Ollikainen

OPINTOSUORITUSTEN REKISTERÖINTI

Datatähti 2019 alku. task type time limit memory limit. A Kolikot standard 1.00 s 512 MB. B Leimasin standard 1.00 s 512 MB

Valitse aineisto otsikoineen maalaamalla se hiirella ja kopioimalla (Esim. ctrl-c). Vaihtoehtoisesti, Lataa CSV-tiedosto

TIEA341 Funktio-ohjelmointi 1, kevät 2008

Transkriptio:

CLT131: Tekstityökalut 2011, viides luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 30. marraskuuta 2011 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 1 / 12

Asialista 1 Tehtävät 2 Teoriaa 3 Menetelmät ja työkalut tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 2 / 12

1. trigrammit missä bigrammit (viime luennoilta) saatiin nostamalla toisesta rivistä eteenpäin ensimmäisten vierelle, trigrammit vastaavasti bigrammien vierelle kolmannesta rivistä tietysti tässä on olennaista hallita väliaikaistiedostojen käyttö jos pastelle tarjoaa bigrammeja putkessa pitää sen sisällön paikka merkitä viivalla; viiva on yleensä kaikissa tekstityökaluissa ns. vakiosyötteen eli putkesta tulevan datan merkki tiedostonimenä tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 3 / 12

2. gutenbergin siistintä tapauksittain head ja tail kadottavat ^M-rivinvaihdot, joten dos2unix tai tr -d \r ei ole välttämätön perusratkaisuksi riittää käsin laskea rivimäärät jostain sopivat katkaisurivit voi hakea esim fgrep -n bashissa voi laskea let-komennolla tai $(())-sulkeilla, koska leikattavat rivit ovat esim. yhden tai parin päässä haettavasta lausekkeesta tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 4 / 12

3. lausekkeet tehtävässä pystyy aika paljon valikoimaan mitä hakee, kunhan täsmäsi ainakin kahteen sanaan oikeastaan riippumatta bigrammitokenisoinnista hakulausekkeeksi tuli tyyppiä \<(a b x)\>[[:space:]].*sijapääte, jossa sijapääte oli viime tehtävistä tuttu haku tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 5 / 12

4. trigraafifrekvenssit tr jota muutoin käytettiin saneistamiseen ei ollut hyödyksi tässä tehtävässä yksi vaihtoehto, jota tehtävänannon (hakulauseke)-kohta vihjasi, oli keksiä käyttää grepin -o-valitsinta luovasti (jos myös locale-asetukset olivat kunnossa) toinen mahdollisuus oli googlata tai tietää sed-korvaus jolla voi muuttaa merkit merkin ja välin (tai rivinvaihdon) yhdistelmäksi; sedistä lisää ehkä jo ensi luennoilla kun merkit ovat riveillään on trigraafit sama kuin ykköstehtävän sisältö, vaikka siinä oli erillinen saneistuskin trigraafit saattoivat myös hajoilla jos yriti testata gutenberg-aineistolla, jossa huonoja rivinvaihtoja tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 6 / 12

5. moduulit module unload omorfi/20110901 module load omorfi/20101026 (ehkä vaatii hfst/3.3.2 tai hfst/3.0.2 tai... ) pitänee suorittaa joka kerta jos/kun hipun module-järjestelmä ei toimi omorfi-analyse.sh swedish-analyze.sh (ei vielä taas toimi) muita kieliä varten lienee helpointa jos minä asennan kotihakemistoon uusia skriptejä pyynnöstä tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 7 / 12

Asialista 1 Tehtävät 2 Teoriaa 3 Menetelmät ja työkalut tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 8 / 12

Morfologinen analyysi sanojen muoto-opillista jäsentämistä esim. hakumuotoon ja morfologisten osasten tunnistamista: taloilleko = talo 1 N PL ADE KO eli talo-sanan monikon adessiivin kysymysliitepartikkelillinen muoto kevyempää morfologista analyysia, jota harrastetaan usein esim. englannin kanssa kutsutaan myös POS-täggäykseksi (part-of-speech tagging), tässä usein haetaan vain sanaluokkia perusanalyysityökalut, joita tällä kertaa lähinnä käsitellään, tuottavat kaikki mahdolliset tavat tulkita sanaa, siis sanamuodolle alusta on ainakin 7 vaihtoehtoista tulkintaa laitoksen sivuilla on hitaita verkkodemoja: http://www.ling. helsinki.fi/cgi-bin/omor/omordemo.bash tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 9 / 12

Asialista 1 Tehtävät 2 Teoriaa 3 Menetelmät ja työkalut tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 10 / 12

Modulet kuntoon kaikille on yleensä osoittautunut kurssin hankalimmaksi asiaksi... Lähdetään siitä että saadaan jotkin toimivat asetukset kaikille hipulla: module unload omorfi/20110901 module load omorfi/20101026 jollei vielä toimi niin module load hfst/3.3.2 (tai 3.0.2 tai... ) omorfi-analyse.sh omorfi-analyse.sh on lähinnä kokonaisten tekstien prosessointiin; jos sitä käyttää komentoriviltä niin joskus pitää esim. painaa enteriä kahdesti saadakseen palautetta omorfi-interactive.sh olisi komentoriviä varten, mutta ehkä se ei vastaavasti toimiva nyt hipulla... viimeisenä vaihtoehtona vanha kunnon fintwol esim. toimii vielä hipulla (ei kuitenkaan uusilla UTF-8-ääkkösillä jne.) tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 11 / 12

Testataan toimivia analyysejä omorfi-analyse.sh < rautatie.txt näyttää ehkä värikkäältä mutta hankala greppailla omorfi-analyse.sh omor < rautatie.txt on minusta greppailukelpoisempi versio omorfi-analyse.sh omor < rautatie.txt fgrep CASE=ILL haetaan mahdolliset illatiivit tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 5. luento 30. marraskuuta 2011 12 / 12