CLT131: Tekstityökalut 2010, ensimmäinen luento Tommi A Pirinen tommi.pirinen@helsinki.fi Helsingin yliopisto Kieliteknologian oppiaine, Nykykielten laitos 2010-11-04 (päivitetty: 2010-11-08)
Asialista Käytännön asiat Kurssin motivaatio ja sisältö Perustyökaluja Kirjallisuusvihjeet
Asialista Käytännön asiat Kurssin motivaatio ja sisältö Perustyökaluja Kirjallisuusvihjeet
Yleistä: Osoitteet luennoitsija Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi käyttäkää sähköpostin otsikossa aina muotoa CLT131: jotain jotain
Yleistä: Osoitteet luennoitsija Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi käyttäkää sähköpostin otsikossa aina muotoa CLT131: jotain jotain kurssisivut http: //www.ling.helsinki.fi/kit/2010s/clt131/ kurssin kuvaus, kalenteri, luentokalvot ja tehtävät
Yleistä: Osoitteet luennoitsija Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi käyttäkää sähköpostin otsikossa aina muotoa CLT131: jotain jotain kurssisivut http: //www.ling.helsinki.fi/kit/2010s/clt131/ kurssin kuvaus, kalenteri, luentokalvot ja tehtävät wikisivut https://kitwiki.csc.fi/twiki/bin/ view/kitwiki/hyclt131s2010 Opiskelijoiden muistiinpanot ja yhteistyö
Yleistä: Osoitteet luennoitsija Tommi A Pirinen tommi.pirinen+clt131@helsinki.fi kurssiassistentti Pinja Pennala pinja.pennala@helsinki.fi käyttäkää sähköpostin otsikossa aina muotoa CLT131: jotain jotain kurssisivut http: //www.ling.helsinki.fi/kit/2010s/clt131/ kurssin kuvaus, kalenteri, luentokalvot ja tehtävät wikisivut https://kitwiki.csc.fi/twiki/bin/ view/kitwiki/hyclt131s2010 Opiskelijoiden muistiinpanot ja yhteistyö kurssin shellipalvelin ssh:hippu.csc.fi
Yleistä: kurssin suoritus laajuus 3 op luennot perjantaisin 12 14, laskuharjoitukset torstaisin 10 12 (ellei muuta sovita) 4.11.2010 11.3.2011
Yleistä: kurssin suoritus laajuus 3 op luennot perjantaisin 12 14, laskuharjoitukset torstaisin 10 12 (ellei muuta sovita) 4.11.2010 11.3.2011 yleinen arvosteluasteikko 1 5 (48 % pisteistä hyväksytty 1, 96 % tai enemmän 5) viikottaiset laskuharjoitukset 50 % ja harjoitustyö 50 %, tai laajempi harjoitustyö 100 % pisteistä
Yleistä: kurssin suoritus laajuus 3 op luennot perjantaisin 12 14, laskuharjoitukset torstaisin 10 12 (ellei muuta sovita) 4.11.2010 11.3.2011 yleinen arvosteluasteikko 1 5 (48 % pisteistä hyväksytty 1, 96 % tai enemmän 5) viikottaiset laskuharjoitukset 50 % ja harjoitustyö 50 %, tai laajempi harjoitustyö 100 % pisteistä harjoitustöistä ja etäsuorituksesta on aina sovittava kurssiassistentin tai luennoitsijan kanssa
Yleistä: Laskuharjoitukset tehtävät kurssisivujen yksityisessä osiossa http://www.ling.helsinki.fi/kit/2010s/ clt131/priv/index.shtml käyttäjätunnuksen ja salasanan saa luennoitsijalta tai kurssiassistentilta laskuharjoitukset palautetaan laskuharjoitustilaisuutta edeltävänä päivänä ennen puoltapäivää (11.59) sähköpostitse
Yleistä: Laskuharjoitukset tehtävät kurssisivujen yksityisessä osiossa http://www.ling.helsinki.fi/kit/2010s/ clt131/priv/index.shtml käyttäjätunnuksen ja salasanan saa luennoitsijalta tai kurssiassistentilta laskuharjoitukset palautetaan laskuharjoitustilaisuutta edeltävänä päivänä ennen puoltapäivää (11.59) sähköpostitse laskuharjoitustilaisuudessa käsitellään palautettuja harjoituksia ja laajennetaan niihin liittyviä aiheita, esim. esitellään parempia ratkaisuja laskuharjoitustilaisuudet ei pakollisia mutta niissä käytäviä asioita ei kerrata luennoilla laskuharjoitustilaisuus dokumentoidaan enintään wikissä, siis jos tehtävien sisältö ei auennut, kannattanee tulla
Yleistä: Harjoitustyö laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä kieliteknologiasovelluksessa sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisen ongelman ja ratkaisun toteutuksen sekä käyttöohjeen
Yleistä: Harjoitustyö laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä kieliteknologiasovelluksessa sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisen ongelman ja ratkaisun toteutuksen sekä käyttöohjeen deadline 31.3.2011
Yleistä: Harjoitustyö laajempi harjoitustehtävä joka toteuttaa kokonaisen toiminnon oikeassa tai keksityssä kieliteknologiasovelluksessa sisältää vapaamuotoisen kirjoitelman joka kuvailee lingvistisen ongelman ja ratkaisun toteutuksen sekä käyttöohjeen deadline 31.3.2011 harjoitustyötä voi aloittaa työstää kurssin edetessä kun keksii mielenkiintoisia aiheita, kannattaa kuitenkin varmistaa aihe assistentilta tai luennoitsijalta
Yleistä: Käyttöympäristö csc:llä Kopioidaan nämä asetukset koneella hippu.csc.fi tiedostoon.bashrc (esim. kurssimateriaaleista copy-pastella): export LANG=fi_FI.UTF-8 export LC_ALL=fi_FI.UTF-8 export LESSCHARSET=utf-8 export GREP_OPTIONS=- -colour=auto module load gcc/4.4.4 openfst/1.2 libtool hfst/2.4 python/3.1.1-gcc omorfi
Asialista Käytännön asiat Kurssin motivaatio ja sisältö Perustyökaluja Kirjallisuusvihjeet
Kielitiede ja tekstit tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja
Kielitiede ja tekstit tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja kirjojen sisältötekstejä, sanomalehtien vuosikertoja Internet-sivustoja, pikaviestinkeskusteluja puheaineistojen transskriptiot
Kielitiede ja tekstit tyypillisesti (lähes) kaikki kielitiede tarvitsee tekstiaineistoja josta poimitaan havaintoja kirjojen sisältötekstejä, sanomalehtien vuosikertoja Internet-sivustoja, pikaviestinkeskusteluja puheaineistojen transskriptiot isojen (tilastollisesti merkittävien) havaintojen vahvistaminen vaatii enemmän aineistoa kuin on käsin viihtyisää käydä läpi
Kurssin sisältö opitaan erilaisia tekstiaineistojen tyyppejä, tekstikorpuksia tekstikorpuksista hakujen, yhteenvetojen ym. kokonaisuuksien automatisointi
Kurssin sisältö opitaan erilaisia tekstiaineistojen tyyppejä, tekstikorpuksia tekstikorpuksista hakujen, yhteenvetojen ym. kokonaisuuksien automatisointi eri tekstitiedostotyyppien ja koodausten ym. käytännön ongelmien hallinta
Kurssin sisältö opitaan erilaisia tekstiaineistojen tyyppejä, tekstikorpuksia tekstikorpuksista hakujen, yhteenvetojen ym. kokonaisuuksien automatisointi eri tekstitiedostotyyppien ja koodausten ym. käytännön ongelmien hallinta lingvistisesti mielenkiintoisten tekstiaineistojen luonti ja jäsennys
Mihin lingvitsit käyttävät tekstityökaluja? sanan/sanamuodon/sanaluokan X tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.) sanojen käyttö ja käyttöympäristö (semantiikka) sanojen suhteet; synonymia, antonymia, hyponymia,...
Mihin lingvitsit käyttävät tekstityökaluja? sanan/sanamuodon/sanaluokan X tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.) Esim: sanotaanko omenoita, omenoja vai omenia; missä yhteyksissä ja minkä takia? sanojen käyttö ja käyttöympäristö (semantiikka) sanojen suhteet; synonymia, antonymia, hyponymia,...
Mihin lingvitsit käyttävät tekstityökaluja? sanan/sanamuodon/sanaluokan X tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.) Esim: sanotaanko omenoita, omenoja vai omenia; missä yhteyksissä ja minkä takia? Esim: onko puuro tuli mustaa oikeasti hyvä kieliopillinen rakenne tai käytössä? sanojen käyttö ja käyttöympäristö (semantiikka) sanojen suhteet; synonymia, antonymia, hyponymia,...
Mihin lingvitsit käyttävät tekstityökaluja? sanan/sanamuodon/sanaluokan X tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.) Esim: sanotaanko omenoita, omenoja vai omenia; missä yhteyksissä ja minkä takia? Esim: onko puuro tuli mustaa oikeasti hyvä kieliopillinen rakenne tai käytössä? sanojen käyttö ja käyttöympäristö (semantiikka) Esim: mitä eroa on kauniilla ja komealla sanojen suhteet; synonymia, antonymia, hyponymia,...
Mihin lingvitsit käyttävät tekstityökaluja? sanan/sanamuodon/sanaluokan X tyypilliset/poikkeukselliset käytöt yleensä (morfologia, morfosyntaksi jne.) Esim: sanotaanko omenoita, omenoja vai omenia; missä yhteyksissä ja minkä takia? Esim: onko puuro tuli mustaa oikeasti hyvä kieliopillinen rakenne tai käytössä? sanojen käyttö ja käyttöympäristö (semantiikka) Esim: mitä eroa on kauniilla ja komealla sanojen suhteet; synonymia, antonymia, hyponymia,... Esim: lintujen ryhmittäminen luokiksi Wikipedia-aineistosta
Asialista Käytännön asiat Kurssin motivaatio ja sisältö Perustyökaluja Kirjallisuusvihjeet
Tekstinmuokkaimet cat ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun nano (pico) helppo perusmuokkain pikkuhommiin
Tekstinmuokkaimet cat ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun nano (pico) helppo perusmuokkain pikkuhommiin gedit, jedit, kate graafiset perusmuokkaimet aina kun X-yhteys toimii
Tekstinmuokkaimet cat ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun nano (pico) helppo perusmuokkain pikkuhommiin gedit, jedit, kate graafiset perusmuokkaimet aina kun X-yhteys toimii vi, vim, gvim perinteinen tehokäyttäjien muokkain vim lopetetaan komennolla (esc):q
Tekstinmuokkaimet cat ei varsinaisesti muokkain, mutta helppo luoda pieniä tiedostoja tai lisätä tiedoston loppuun nano (pico) helppo perusmuokkain pikkuhommiin gedit, jedit, kate graafiset perusmuokkaimet aina kun X-yhteys toimii vi, vim, gvim perinteinen tehokäyttäjien muokkain vim lopetetaan komennolla (esc):q emacs toinen perinteinen tehokäyttäjien muokkain emacsista tarkemmin ks. johdantokurssin monisteet
Avun ja sopivien sovellusten haeskelu fgrep hakee merkkijonoja tiedostoista ja tulosteista apropos hakee sanoja ohjehakemistoista esim. apropos owner fgrep (1)
Avun ja sopivien sovellusten haeskelu fgrep hakee merkkijonoja tiedostoista ja tulosteista apropos hakee sanoja ohjehakemistoista esim. apropos owner fgrep (1) man näyttää ohjesivun
Avun ja sopivien sovellusten haeskelu fgrep hakee merkkijonoja tiedostoista ja tulosteista apropos hakee sanoja ohjehakemistoista esim. apropos owner fgrep (1) man näyttää ohjesivun info näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia
Avun ja sopivien sovellusten haeskelu fgrep hakee merkkijonoja tiedostoista ja tulosteista apropos hakee sanoja ohjehakemistoista esim. apropos owner fgrep (1) man näyttää ohjesivun info näyttää laajoja mutta valitettavan sekavia ja hankalakäyttöisiä ohjekirjasia http://www.google.fi suosittu www-pohjainen hakukone (googlellahan löytää mm. käyttökelpoiset versiot info-sivuista)
Mitä mä nyt tein kun se toimi...? history kertoo mitä aiemmin on tehty!{numero} toista historiasta
Mitä mä nyt tein kun se toimi...? history kertoo mitä aiemmin on tehty!{numero} toista historiasta script tallentaa mitä tehdään, hyvin tarkasti. Tätä käytetään toisinaan tehtäväpalautuksissa!
Asialista Käytännön asiat Kurssin motivaatio ja sisältö Perustyökaluja Kirjallisuusvihjeet
Vapaaehtoista, syventävää, lukemista (ei siis kurssilukemisto) Vim-kirja (978-0596529833) emacs-kirja (978-0596006488) Jantunen, J.: Synonymia ja käännössuomi 952-458-479-4 Nikolaev, Niemi: Suomen nominien taivutuksesta (Virittäjä 2005: 482)