Asialista. CLT131: Tekstityökalut 2012, kymmenes luento. 2. frekvenssien muunnos todennäköisyyksiksi. 1. taulukkohaut

Samankaltaiset tiedostot
CLT131: Tekstityökalut 2012, kymmenes luento

CLT131: Tekstityökalut 2011, viides luento

CLT131: Tekstityökalut 2011, seitsemäs luento

CLT131: Tekstityökalut 2011, toinen luento

CLT131: Tekstityökalut 2011, kahdeksas luento

Asialista. CLT131: Tekstityökalut 2011, kahdeksas luento. Merkistöistä ja kalvostoista. Asialista. Tommi A Pirinen

CLT131: Tekstityökalut 2011, kuudes luento

CLT131: Tekstityökalut 2010, toinen luento

Asialista. hippu ja.bashrc. Asialista. Tutkimusongelma: tekstin morfologisen jäsennyksen selvittely

CLT131: Tekstityökalut 2010, kuudes luento

Kieliteknologian ATK-ympäristö Neljäs luento

Kieliteknologian ATK-ympäristö Viides luento

Kieliteknologian ATK-ympäristö Viides luento

Kieliteknologian ATK-ympäristö Kuudes luento

Korpusten käsittely clt131, P Luento 4

CLT131: Tekstityökalut 2010, neljäs luento

Asialista. CLT131: Tekstityökalut 2010, kuudes luento. Tuleva ohjelma. Kurssipalaute. Käytännön asiat Tuleva ohjelma Havaitut virheet ja korjaukset

Korpusten käsittely clt131, P Luento 5

Asialista. CLT131: Tekstityökalut 2010, kolmas luento. Laskuharjoitusaikataulut. Harjoituksissa havaitut virheet. Käytännön asiat/kertaus

Luento 4. Timo Savola. 21. huhtikuuta 2006

Asialista. CLT131: Tekstityökalut 2010, neljäs luento. Lähiaikataulu. Asialista. Käytännön asiat

Luento 5. Timo Savola. 28. huhtikuuta 2006

CLT131: Tekstityökalut 2010, kolmas luento

Hieman linkkejä: lyhyt ohje komentoriviohjelmointiin.

CLT131 Korpusten käsittely

CLT131: Tekstityökalut 2010, ensimmäinen luento

Korpusten käsittely clt131, P Luento 6

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

C-ohjelmoinnin peruskurssi. Pasi Sarolahti

Tähtitieteen käytännön menetelmiä Kevät 2009 Luento 6: Python

Kieliteknologian ATK-ympäristö Toinen luento

Lataa Tyypin 1 diabeteksen hoitosuositus - Timo ym Sane. Lataa

MUISTIO Kuvaus: Muutoksia BIC-koodien käsittelyyn. Mahdollisuus lisätä prosessille automaattivalinta esimiehen esimies.

Johdatus Ohjelmointiin

Lataa Sähkömagneettiset kentät. Lataa

Lataa Työterveyshoitajan terveysneuvonta ja sen kehittyminen - Liisa Pirinen. Lataa

Korpusten käsittely clt131, P Luento 3

Korpusten käsittely clt131, P Luento 1

Lataa Meluestekäsikirja. Lataa

Lataa Psoriasis - Harry Clements. Lataa

Lataa Geometria - Erkki Rosenberg. Lataa

Lataa Suomen mielenterveyden kenttä. Lataa

Lataa Masennuksen arkea - Jukka Tontti. Lataa

Lataa MS-yhdistys apuna arjessa - Anne Eronen. Lataa

Lataa Geologia ympäristötoiminnassa. Lataa

Kieliteknologian ATK-ympäristö Kolmas luento

Lataa Kylpy- ja hoitoturve - Harry Uosukainen. Lataa

Lataa Kasvin muodonmuutos - J. W. Goethe. Lataa

Lataa Veteraanin terveysopas - Ilmari Ruikka. Lataa

Ctl160 Tekstikorpusten tietojenkäsittely p.1/28

Lataa Ksylitolipurukumin käyttö päiväkodissa - Helena Kovari. Lataa

Lataa Fysiikan laboratoriotyöt - Jukka Vaari. Lataa

Lataa Potilaskuluttaja terveysmarkkinoilla - Helena Tuorila. Lataa

Lataa Reaalimuuttujan analyysi - Simo K. Kivelä. Lataa

Lataa Elämäntaidon käsikirja - Tom Lundberg. Lataa

Lataa Vektorimuuttujan analyysi - Simo K. Kivelä. Lataa

Lataa Vastaanottoja - Juhani Ihanus. Lataa

Lataa Metropoliluotain - Juha Nyman. Lataa

Lataa Rentoutumisen työkirja - Jukka Kataja. Lataa

Lataa Pohjois-Suomen vanhojen metsien suojelun kompensaatiotyöryhm. Lataa

IDL - proseduurit. ATK tähtitieteessä. IDL - proseduurit

Lataa Kuntoutus Kellokosken sairaalassa - Erkki ym. Pulkkinen. Lataa

ATK tähtitieteessä. Osa 3 - IDL proseduurit ja rakenteet. 18. syyskuuta 2014

Lataa Virallisen ja vaihtoehtoisen työryhmän seminaari Juha Karvonen. Lataa

Lataa Mitä psykiatrinen potilas haluaa tietää? - Aira Hotti. Lataa

Lataa Jumalan Sanaa Terveydeksi - Keijo Johannes Tertsunen

Lataa Kuusamon yhteismetsän vanhojen metsien luonnonarvojen säilyt. Lataa

Lataa Revontulet - Kari Kaila. Lataa

Luento 3. Timo Savola. 7. huhtikuuta 2006

Lataa Kioton pöytäkirjan toimeenpanon säännöt - Outi ym Berghäll. Lataa

Käyttöohje. Boa Open Access. Helsinki Ohjelmistotuotantoprojekti HELSINGIN YLIOPISTO Tietojenkäsittelytieteen laitos

Lataa Raskaana oleva nainen ja sikiötutkimukset - Heli Pruuki. Lataa

Lataa Puurijärven tila ja lintuveden kunnostusperiaatteet - Heli Perttula. Lataa

Sangen lyhyt L A T E X-johdatus

Lataa Maatalouspolitiikan suunnittelukäytännöt ja ympäristövaik. - Helena Valve. Lataa

Lataa Suomen luonnonsuojelujärjestelmän kehittäminen - Jukka P. Tolvanen. Lataa

Tietojen toimittaminen Skeemat Käsittelypalautteen kysely Kansallisen tulorekisterin perustamishanke

Lataa Neuvola tänään ja huomenna - Marja- Leena Viljamaa. Lataa

Lataa Lumihiutaleet ja maailmankuvat - Raimo Lehti. Lataa

Lataa Occupational risks of spontaneous abortion and congenital - Helena Taskinen. Lataa

VeRan laboratoriotietojen siirtoformaatti

Lataa Ageing workers in the European Union - Juhani Ilmarinen. Lataa

2.3 Virheitä muunnosten käytössä

Lataa Helsingin kaupunkimittauksen vaiheita - Juhani Kostet. Lataa

Lataa Luontokuvan totuuden hetki - Juha Suonpää. Lataa

[Jnix näyttökoe. o ei ole sallittua käyttää mitään verkkolevyjakoa tai mitään siihen rinnastettavaa järjestelmdä.

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.

Lataa Riemannin zeta-funktio - Jukka Kuisma. Lataa

Lataa Vuorovaikutuksista kenttiin - sähkömagnetismin perusteet - Kaarle Kurki- Suonio. Lataa

ASCII-taidetta. Intro: Python

Lataa Optimointitehtävien ratkaiseminen - Juha Haataja. Lataa

Lataa On fenchel-nielsen type coordinates for - Juha Pöyhönen. Lataa

Lataa Alkuräjähdyksestä kännykkään - Juha Haataja. Lataa

Sisällys. Johdatus Linuxiin/Unixiin: Osa 4. Arkistointi ja pakkaus. Hakemistojen ja tiedostojen arkistointi ja pakkaus.

Harjoituksen aiheena on tietokantapalvelimen asentaminen ja testaaminen. Asennetaan MySQL-tietokanta. Hieman linkkejä:

Lataa Materiaalivirtatilinpito luonnonvarojen kokonaiskulutuksen seurantavälineenä - Jukka Hoffren. Lataa

Ryhmäkirjeen hyödyntäminen

Subversion-ohje. Linux Traffic Control-käyttöliittymä Ryhmä paketti2

Lataa Polycystic kidney disease in children - Helena Kääriäinen. Lataa

Luku 5 Kertaus. Tehtävä 1 Kerratkaa oppimanne asiat yhdessä keskustellen.

Transkriptio:

Asialista CLT131: Tekstityökalut 2012, kymmenes luento Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 1. helmikuuta 2012 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 1 / 18 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 2 / 18 1. taulukkohaut 2. frekvenssien muunnos todennäköisyyksiksi Kahden hakuehdon yhdistys joko &&-merkinnällä tai kahdella awk-komennolla suht lyhyt sed-poiminta vielä mahdollinen, mutta teoriassa vaatii hieman tarkkaavaisuutta (rivin alku, ainakin 1 etuvokaali saneessa, toinen kenttä jne.) tietysti on niin, että etuvokaalit foneettisest on [eiyäö], kävi ratkaisuksi siinä missä esimerkkejä vastaava sointuvokaalijoukko [äöy] valmiiksi lasketulla korpuskoolla helppo; laskut muiden työkalujen avulla aiemmissa tehtävissä awkilla frkevenssien summaus onnistuu esim. laskemalla {saneet = saneet + $1} awkinkin kanssa on järkevintä käydä tiedosto kahdesti läpi kahdella eri komennolla jos sanat laskee ja käyttää laskun tulosta; tämä johtuu siitä että tuloksen tietää vasta kun tiedosto on käyty läpi mutta sitä kuitenkin tarvitaan jo ensimmäisen frekvenssin aikana tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 3 / 18 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 4 / 18

3. Gutenbergin rivien rajat 4. CSV2TSV Gutenbergin lisenssin poisto onnistui joko jollain jo aiemmin todetulla tavalla tai hakulausekevälillä /BEGIN OF.../, /END OF.../ rivin viimeinen sane on awkissa mahdollista poimia hyödyntämällä sanelaskuri-muuttujaa NF: {print $NF}. käytännössä melko haastava tehtävä millä tahansa lähestymistavalla peruslähtököhta on helppo: muunnetaan, \t väärien pilkkujen suojaaminen lainausmerkkiparien välistä vaatii melko paljon prosessointia väärien lainausmerkkien suojaaminen ehkä vähän lisää (mutta ne esiintyvät myös pareina) hakulauseke joka löytää vain oikeat pilkut on mutkikas mutta melko suoraviivainen tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 5 / 18 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 6 / 18 5. Vierasperäiset sanat 8.4 Harjoitustyöesittelyt tässä esimerkissä on ehkä enemmän työtä ymmärtää annettuja sääntöjä kuin toteuttaa lopputulos voi olla aika suoraviivainen joukko korvauksia sedillä tai awkilla käänteisessä ilmoittaumisjärjestyksessä; siirretään seuraaviin kertoihin tarpeen mukaan tänään: Mika, Hege, Juha, Georgios 8.2.: Helena, Leo, Heli, Harry 15.2.: Teemu, Jukka, Meliina, Sini, Erkki-Ilmari uudelleenjärjestellään tarpeen mukaan, käytännössä tämä kerta on luentojen osalta lyhyempi ja seuraavilla ei ole varsinaisia täysimittaisia valmisteltuja luentoja tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 7 / 18 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 8 / 18

Asialista Make Make on käytännössä projektinhallintatyökalu Olennaisin hyöty siitä on projekteissa, joissa on paljon tiedostoja, jotka tavalla tai toisella vaikuttavat toisiinsa Make-määrittelyt ovat käytännössä shelli-skriptien erikoistapauksia, joissa syötetiedostoista saadaan tulostiedostoja Make ymmärtää myös tiedostojen aikaleimoja, joten sillä voi hallita tapauksia joissa paitsi tuodaan uusia tiedostoja projektiin, vanhat päivittyvät tämä mm. varmistaa että tiedostonimet noudattavat järjestelmää eikä vanhoja versioita suotta loju ympäriinsä tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 9 / 18 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 10 / 18 Make-tiedoston rakennuspalikat Make-säännöt kirjoitetaan aina omaan tiedostoon joka on yleensä nimeltään Makefile Make-määrittely muodostuu kahdesta osasta: Tiedostonimien välisistä suhteista tulostiedosto: lähdetiedostot... ja shell-skriptistä, joka on sisennetty yhdellä sarkaimella tiedostonimimäärittelyt voivat sisältää muuttujaosan %, joka toimii kuten säännöllinen lauseke.*: %.frekvenssit: %.txt Näiden määrittelyjen avuilla make osaa tehdä puuttuvat tiedostot tai päivittää tulostiedostot jos lähdetiedostoissa on uudempi aikaleima skripti-osassa ei ole muuta erikoista, kuin että se ajetaan /bin/sh-tulkilla, eikä bashillä, joten siitä puuttuu jotain ominaisuuksia nämä puutteet voi kiertää käyttämällä skriptinä erillistä tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 11 / 18 bash-skriptiä ja komentoa bash skripti.sh Asialista tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 12 / 18

Rakennetaan esimerkkejä tutuilla skripteillä Asialista Tiedostoon Makefile rautatien saneistus: rautatie.saneet: rautatie.txt tr < rautatie.txt > rautatie.saneet tiedostonimissä voi käyttää erikoismuuttujia $@ ja $< tulosja lähdetiedostolle, eritoten muuttujallisissa säännöissä: %.saneet: %.txt tr < $< > $@ nyt, minkä tahansa tekstiedston jonka nimi loppuu.txt voi saneistaa komennolla make tiedosto.saneet tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 13 / 18 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 14 / 18 Mika Pohto: Wikipedia Hege Roivainen: Runomitta-analyysi tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 15 / 18 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 16 / 18

Juha Häkkänen: Wikipedia Georgios Tsambikakis: Kanojen translitterointi tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 17 / 18 tommi.pirinen+clt131@helsinki.fi (HY) CLT131: 10. luento 1. helmikuuta 2012 18 / 18