Kieliteknologian ATK-ympäristö Neljäs luento

Samankaltaiset tiedostot
Kieliteknologian ATK-ympäristö Viides luento

Kieliteknologian ATK-ympäristö Viides luento

Kieliteknologian ATK-ympäristö Kuudes luento

Kieliteknologian ATK-ympäristö Kolmas luento

Kieliteknologian ATK-ympäristö Toinen luento

Korpusten käsittely clt131, P Luento 4

Luento 4. Timo Savola. 21. huhtikuuta 2006

Ctl160 Tekstikorpusten tietojenkäsittely p.1/24

Luento 5. Timo Savola. 28. huhtikuuta 2006

Korpusten käsittely clt131, P Luento 5

Ctl160 Tekstikorpusten tietojenkäsittely

Ctl160 Tekstikorpusten tietojenkäsittely Kolmas luento

CLT131 Korpusten käsittely

CLT131: Tekstityökalut 2011, toinen luento

Korpusten käsittely clt131, P Luento 3

Sisällys. Johdatus Linux/Unixiin: Osa 2. Prosessin tilat. Prosessien hallinta. Prosessien monitorointi

Korpusten käsittely clt131, P Luento 1

CLT131: Tekstityökalut 2010, kuudes luento

Ctl160 Tekstikorpusten tietojenkäsittely p.1/28

Asialista. CLT131: Tekstityökalut 2012, kymmenes luento. 2. frekvenssien muunnos todennäköisyyksiksi. 1. taulukkohaut

CLT131: Tekstityökalut 2012, kymmenes luento

CLT131: Tekstityökalut 2010, neljäs luento

1.1 Tekstinprosessointiohjelmien yleinen toimintatapa (1)

Komentotulkki. Kysymyksiä

[Jnix näyttökoe. o ei ole sallittua käyttää mitään verkkolevyjakoa tai mitään siihen rinnastettavaa järjestelmdä.

Sekalaisia selvennyksiä

linux: Prosessit kill PID lopettaa prosessin PID, jos siihen on oikeudet Ctrl + c lopettaa aktiivisen prosessin L7: linux

Asialista. CLT131: Tekstityökalut 2010, kuudes luento. Tuleva ohjelma. Kurssipalaute. Käytännön asiat Tuleva ohjelma Havaitut virheet ja korjaukset

Asialista. CLT131: Tekstityökalut 2010, neljäs luento. Lähiaikataulu. Asialista. Käytännön asiat

Ctl160 Tekstikorpusten tietojenkäsittely Kolmas luento,

11/21/00. Sis llys. Prosessin tilat. Prosessien hallinta. Johdatus Linuxiin/UNIXiin: Osa 3

Ctl160 Tekstikorpusten tietojenkäsittely p.1/15

Hieman linkkejä: lyhyt ohje komentoriviohjelmointiin.

Asialista. hippu ja.bashrc. Asialista. Tutkimusongelma: tekstin morfologisen jäsennyksen selvittely

CLT131 Korpusten käsittely (3op)

Luento 2. Timo Savola. 31. maaliskuuta 2006

CLT131: Tekstityökalut 2010, toinen luento

CLT131: Tekstityökalut 2011, kuudes luento

CLT131: Tekstityökalut 2011, viides luento

Komentotulkki (SHELL) C- "perhe" - csh, alkup. C shell. Komentokieli. kieltä. - tcsh - edellisen laajennettu versio

Metropolia Ammattikorkeakoulu

linux: Prosessit kill PID lopettaa prosessin PID, jos siihen on oikeudet Ctrl + c lopettaa aktiivisen prosessin L7: linux

Asialista. CLT131: Tekstityökalut 2011, kahdeksas luento. Merkistöistä ja kalvostoista. Asialista. Tommi A Pirinen

CLT131: Tekstityökalut 2011, kahdeksas luento

Datatähti 2019 loppu

c : \tarva\osmuutos\ osmu 95hanke.dat

CLT131: Tekstityökalut 2011, seitsemäs luento

1.1 Käsiteltävät asiat:

Ohjelmoinnin perusteet Y Python

xv ja mpage Sis llys Latex-ladontaohjelma Tekstin ladonta (kertausta) ym. Johdatus Linuxiin/UNIXiin: Osa 3

Sisällys. 12. Näppäimistöltä lukeminen. Yleistä. Yleistä

Kohdissa 2 ja 3 jos lukujen valintaan on useita vaihtoehtoja, valitaan sellaiset luvut, jotka ovat mahdollisimman lähellä listan alkua.

ATK tähtitieteessä. Osa 3 - IDL proseduurit ja rakenteet. 18. syyskuuta 2014

Kerta 2. Kerta 2 Kerta 3 Kerta 4 Kerta Toteuta Pythonilla seuraava ohjelma:

12. Näppäimistöltä lukeminen 12.1

Ohjelmoinnin perusteet Y Python

Korpusten käsittely clt131, P Luento 6

Luento 3. Timo Savola. 7. huhtikuuta 2006

Task list Submit code Submissions Messages Scoreboard View queue Edit contest

Linux-virtuaalipalvelimen ylläpito

OHJ-1010 Tietotekniikan perusteet 4 op Syksy 2012

Terminaali tutuksi. Linux ja komentorivin hallinta. Lappeenrannan teknillinen yliopisto 2015 Annika Ikonen, Timo Hynninen ja Erno Vanhala

Maastotietokannan torrent-jakelun shapefile-tiedostojen purkaminen zip-arkistoista Windows-komentojonoilla

IDL - proseduurit. ATK tähtitieteessä. IDL - proseduurit

Matriisit ovat matlabin perustietotyyppejä. Yksinkertaisimmillaan voimme esitellä ja tallentaa 1x1 vektorin seuraavasti: >> a = 9.81 a = 9.

MixW ja Dx-vihjeet (ohje) oh3htu

11. Javan toistorakenteet 11.1

Asialista. CLT131: Tekstityökalut 2010, kolmas luento. Laskuharjoitusaikataulut. Harjoituksissa havaitut virheet. Käytännön asiat/kertaus

linux: Ympäristömuuttujat

Lupa opetuskäyttöön pyydettävä. Näppäimistö. Kohdistimen ohjausnäppäimistö. Funktionäppäimistö. Kirjoitusnäppäimistö

Zeon PDF Driver Trial

Harjoitus 5 (viikko 41)

Unix-kurssi, harjoitustehtävät

Tässä tehtävässä käsittelet metodeja, listoja sekä alkulukuja (englanniksi prime ).

Sormet skripteihin. 1 Mistä tässä harjoitteessa on kyse

Perusohje vi-editorin käyttöön

Matematiikan tukikurssi, kurssikerta 3

Unix-kurssi, harjoitustehtävät

Harjoitus 5. Esimerkki ohjelman toiminnasta: Lausekielinen ohjelmointi I Kesä 2018 Avoin yliopisto 1 / 5

Johdatus Ohjelmointiin

Ohjelmoinnin perusteet Y Python

Tekstinkäsittelyn jatko KSAO Liiketalous 1. Osanvaihto näkyy näytöllä vaakasuorana kaksoispisteviivarivinä ja keskellä riviä lukee osanvaihdon tyyppi

Kaulaketju. Syöte. Tuloste. Esimerkki 1. Esimerkki 2

Komentorivin perusteet

Ohjelmoinnin peruskurssi Y1

Ohjelmoinnin perusteet Y Python

linux: komennoista linux linux

Opetustapahtumien hakeminen (Hae - Opetustapahtuma)

Unix-perusteet. Tulostaminen

PERL. TIE Principles of Programming Languages. Ryhmä 4: Joonas Lång & Jasmin Laitamäki

ATK tähtitieteessä. ATK-osuuden jälkeen alkaa varsinainen tutkimusprojekti. Lisätietoa myöhemmin.

ATK tähtitieteessä. Aikataulu. Käyttöjärjestelmistä. Varoitus!

Unix-perusteet. Unix/Linux-käyttöjärjestelmä ja sen ominaisuudet

Ohjelmoinnin perusteet Y Python

tään painetussa ja käsin kirjoitetussa materiaalissa usein pienillä kreikkalaisilla

-Ratkaise Scan of the Month 15. Käsittele haitallisia ohjelmia turvallisesti. (Karvinen, T )

Tähtitieteen käytännön menetelmiä Kevät 2009 Luento 2: Linux

Opetustapahtumien hakeminen (Hae - Opetustapahtuma)

Transkriptio:

Kieliteknologian ATK-ympäristö Neljäs luento Miikka Silfverberg Nykykielten laitos 27. syyskuuta 2010 Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 1 / 13

Neljäs luento Prosessit ps, jobs. käynnistäminen taustalle. taustalla olevan prosessin siirtäminen etualalle. tappaminen. Yksinkertaista tekstinkäsittelyä egrep, sort, uniq, tr. Tulosteen ja syötteen ohjaaminen. Putkittaminen. Skriptit. Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 2 / 13

Prosessit Usein on kätevää voida käyttää emacsia ja komentotulkkia samaan aikaan. emacsin sisään voi käynnistää komentotulkin komennolla M-x shell, mutta toinen tapa on käynnistää emacs taustalle. $ emacs mehiläisten elämä.txt & Yleensäkin käskyn voi suorittaa taustalla liittämällä käskyn perään &-merkin. Tekstipohjaista emacsia ei voi käyttää samaan aikaan kuin komentotulkkia, koska kumpikin toimii samassa ikkunassa. Kuitenkin emacsin voi väliaikaisesti pysäyttää komennolla C-z ja käynnistää uudelleen komentotulkista komennolla fg. Tämä ei ole emacsin erityisominausuus, vaan minkä vaan prosessin (vaikkapa lessin) voi pysäyttää komennolla C-z ja käynnistää uudelleen komennolla fg. Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 3 / 13

Prosessit Käskyillä ps ja jobs tarkastellaan mitä prosesseja käyttäjä itse on käynnistnyt $ ps PID TTY TIME CMD 1934 pts/0 00:00:01 bash 1974 pts/0 00:03:37 emacs 2159 pts/0 00:00:22 xpdf.bin 3829 pts/0 00:00:00 ps $ jobs [1]- Running emacs luento3.tex & [2]+ Running xpdf luento3.pdf & Komento fg tuo prosessin etualalle. fg emacs fg 1 Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 4 / 13

Prosessit Prosessi tapetaan käskyillä kill ja killall. $ ps PID TTY TIME CMD 1934 pts/0 00:00:01 bash 1974 pts/0 00:03:37 emacs 2159 pts/0 00:00:22 xpdf.bin 3829 pts/0 00:00:00 ps $ kill 1974 $ killall emacs Joskus prosessi ei vaan suostu kuolemaan nätisti, jolloin voi sanoa $ kill -9 1974 $ killall -9 emacs Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 5 / 13

Yksinkertaista tekstinkäsittelyä egrep egrep etsii rivit joilla esiintyy jokin merkkijono. $ egrep Kuningatar mehiläisten elämä.txt Kuningatar on jälleen ryhtynyt munimaan jo pehmenee ja menettää muotonsa. Kuningatar, joka ei $ egrep kukkien tuoksu mehiläisten elämä.txt jättää hyvästi päivänvalon, kukkien tuoksun egrepillä voi hakea myös merkkijonoa yleisemmällä hakuehdolla n.s. säännöllisellä lausekkeella. $ egrep kuningatar [^ ]* on mehiläisten elämä.txt johon kuningatar äsken on asettunut kultanaulan jonka kuningatar äsken on sinne muninut. Tästä Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 6 / 13

Yksinkertaista tekstinkäsittelyä sort ja uniq sort järjestää tiedoston rivit aakkosjärjestykseen. $ sort mehiläisten elämä.txt ansoihin, mutta ei ole uskomatonta, että ansoja? Emmekö ole tarvinneet tuhansia antaa meille varman ja syvän vastauksen sort -n järjestää rivit numerojärjestykseen, sort -r käänteiseen järjestykseen ja sort -n -r käänteiseen numerojärjestykseen. uniq poistaa peräkkäisistä samanlaisista riveistä kaikki paitsi ensimmäisen. uniq -c tekee saman kuin uniq mutta kirjoittaa rivin alkuun kuinka monta samanlaista riviä syötteessä oli. Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 7 / 13

Yksinkertaista tekstinkäsittelyä tr tr muuttaa merkkejä toisiksi merkeiksi $ cat mehiläisten elämä.txt tr A-ZÅÄÖ a-zåäö ja rakastaa. en aio koristaa totuutta enkä $ cat mehiläisten elämä.txt tr -d \r Tällä käskyllä poistetaan rivinalkuunpalautusmerkit \r (ne samat jotka emacsissa näkyvät ^M-merkkeinä). tr ei osaa käsitellä tiedostoa suoraan. Sille voi sen sijaan esim. putkittaa cat-käskyn tulosteen -merkkiä käyttäen. Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 8 / 13

Tulosteen ja syötteen ohjaaminen Unixixssa on standardi- ja virhetulostevirrat. Nämä voi ohjata tiedostoon käyttämällä ohjausmerkkejä > ja 2> $ cat mehiläisten elämä.txt tr A-ZÅÄÖ a-zåäö > mehiläisten elämä.txt.pieni $ tr A-Z a-z mehiläisten elämä.txt 2> virhe $ cat virhe tr: extra operand mehiläisten elämä.txt Lisätietoja saa komennolla tr --help. Kun tuloste ohjataan tiedostoon merkillä > tai 2>, niin tiedoston alkuperäinen sisältö häviää. Jos alkuperäinen sisältö halutaan säilyttää pitää käyttää ohjausmerkkejä >> ja 2>>. $ tr A-Z a-z mehiläisten elämä.txt 2>> virhe Käsky säilyttää alkuperäisen virheilmoituksen joka virhe-tiedostossa jo oli ja kirjoittaa sen perään uuden virheilmoituksen. Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 9 / 13

Tulosteen ja syötteen ohjaaminen Standardisyötteen voi ohjata tulemaan tiedostosta ohjausmerkillä <. $ tr A-ZÅÄÖ a-zåäö < mehiläisten elämä.txt ja rakastaa. en aio koristaa totuutta enkä Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 10 / 13

Putkittaminen Kun kaksi käskyä putkitetaan, jälkimmäinen käsky käsittelee ensimmäisen tulostetta eli saa syötteekseen ensimmäisen käskyn tulosteen. $ cat mehiläisten elämä.txt tr A-ZÅÄÖ a-zåäö $ cat mehiläisten elämä.txt tr -s \t\r \n tr A-ZÅÄÖ a-zåäö sort uniq -c sort -nr > mehiläisten elämä.txt.freq Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 11 / 13

Yksinkertaiset skriptit Kirjoitetaan emacsilla tiedosto laske frekvenssi.sh. $ cat laske frekvenssi.sh #! /bin/bash tr \t\r \n tr A-ZÅÄÖ a-zåäö sort uniq -c sort -nr Annetaan tiedostolle suorituoikeus ja lasketaan tiedoston lyhyitä kertomuksia.txt frekvenssilista. $ chmod u+x laske frekvenssi.sh $ cat lyhyitä kertomuksia.txt./laske frevenssi.sh Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 12 / 13

Yksinkertaiset skriptit Skriptissä standarditulosteen voi ohjata paitsi tiedostoon, myös virhetulostusvirtaan. echo-käsky tulostaa tavallisesti standarditulosteeseen, mutta sen saa tulostamaan myös virhetulosteeseen käyttämällä ohjausmerkkiä 1>&2. echo Nyt sattui virhe! 1>&2 Skriptistä myös virhetulosteen voi ohjata standarditulosteeseen käyttämällä ohjausmerkkiä 2>&1. Tästä tosin lienee aika vähän hyötyä. tr A-Z 2>&1 Miikka Silfverberg (Nykykielten laitos) Kieliteknologian ATK-ympäristö: Luento 3 27. syyskuuta 2010 13 / 13