Asiasanoittamisen kehittäminen ja sisältöjen automaattisen analysoinnin kokeilut Ylellä

Samankaltaiset tiedostot
Median digitalisoituminen ja yhdistetty tieto - Svenska.yle.fi

Ontologioiden huomioiminen uuden kirjastojärjestelmän suunnittelussa. Tommi Jauhiainen Helsinki

Miten ja miksi asiasanastoista kehitetään ontologioita

YSAsta YSOon. Mikko Lappalainen Sisällönkuvailun asiantuntijaryhmän kokous,

Finton hyödyntäminen ministeriöiden palveluissa. erityisasiantuntija Pilkkuniina Brandt, VNK

ONKI-projekti tuo ontologiat käyttöön sisällönkuvailussa

Yleisen suomalaisen ontologian kehitystyö

E. Oja ja H. Mannila Datasta Tietoon: Luku 2

Mitä on sisällönkuvailu

Sisällönkuvailun tulevaisuus: YSA vai YSO?

ONKI kansallinen ontologiapalvelu: kohti yhtenäistä sisällönkuvailua

Finto-tilannekatsaus. Asiantuntijaseminaari KANSALLISKIRJASTO - Kirjastoverkkopalvelut

Kysy kirjastonhoitajalta. Syksy 2008

ONKI SKOS Sanastojen ja ontologioiden julkaiseminen ja käyttö Asiasanaston muuntaminen SKOS muotoon: case YSA

ONKI-PROJEKTIN ESITTELY. Matias Frosterus ja Osma Suominen JHKA sanastotyöpaja

Automaattinen semanttinen annotointi

Finto-projektin tilannekatsaus

Ontologioiden yhdistäminen YSO:oon

Kohti Yleistä suomalaista ontologiaa (YSO)

Suomi.fi palvelutietovaranto

Case YLE D-keskus. Digiwiki-työpaja Kiasmassa: Videoiden digitoinnin perusteet ja prosessit

KAMUT: Muistiorganisaatioiden tietovarannot yhteiskäyttöön. ÄLYÄ VERKOSSA - WEB INTELLIGENCE Tiedekeskus Heureka, Vantaa

ONKI-projekti JUHTA KANSALLISKIRJASTO - Kirjastoverkkopalvelut

Kansalliskirjasto ja Finto-palvelu kuvailun infrastruktuurin rakentajana

SELVITYS ERIKOISKIRJASTOJEN KÄYTTÄMISTÄ ASIASANASTOISTA JA LUOKITUKSISTA. Anne Holappa, STKS:n Erikoiskirjastojen työryhmä Tieteiden talo

Yleinen suomalainen ontologia YSO

Semanttisen Webin mahdollisuudet yrityksille

Pysyvä ja muuttuva A:sta O:hon sisällönkuvailussa. Mirja Anttila Kansalliskirjasto

Finton jatko vuosina

Taustamuistio 1 (6) Yhteinen tiedon hallinta -hanke. Taustatietoa Sanaston metatietomallin määrittely -työpajan keskusteluun

Kohti kansallista semanttisen webin sisältöinfrastruktuuria

Asiasanastosta ontologiaksi

Suomi.fi-palvelutietovaranto

Luku 2. Datasta tietoon: mitä dataa? mitä tietoa?

Seitsemän syytä semanttiseen webiin. Eero Hyvönen Aalto-yliopisto ja HY Semanttisen laskennan tutkimusryhmä (SeCo)

Media- ja kulttuuripalvelut

KAM-sektori paikkatiedon kansallisessa ekosysteemissä. Mikko Lappalainen Nimitietopalvelua ja paikkatietopalvelua koskeva seminaari, 30.1.

Finto-palvelu ja ontologioiden kehitystyön tuki Suomessa

Tieto matkaa maailmalle

Mitä mahdollisuuksia tuloksemme tarjoavat museoille?

Asiasanastoista ontologioita: Yleinen suomalainen ontologia YSO ja sen laajennukset

Juuli-julkaisutietoportaali

Tutkijan informaatiolukutaito

Sisällönkuvailu Fennicassa. Mirja Anttila Sisällönkuvailupäivä

Finna Johtava avoimen kulttuurin ja tieteen hyödyntämisen väylä

Ohjausryhmän perehdytys

MALog-projekti kehittää oppimateriaalia matemaattiseen logiikkaan. Insinöörikoulutuksen foorumi

Suositus asiasanastojen, luokitusjärjestelmien ja ontologioiden käytöstä luetteloinnissa Suomen museoissa

Aiheenvalinta ilmoitetaan MyCoursesin keskustelualueella (ei saman yrityksen tarkastelua lähes samasta näkökulmasta) viimeistään tiistaina 27.2.

MITÄ KUULUU KIRJASAMPO? TAMPEREEN KAUPUNGINKIRJASTO /KAISA HYPÉN

Keltaisten sivujen palveluiden kuvaaminen ontologioiden avulla

Suomi.fi-palvelutietovaranto

TUTKIMUSDATAN KUVAILU. Kuvailun tiedotuspäivä Tieteenala-asiantuntija, FT Katja Fält

DAISY. Esteetöntä julkaisua

B U S I N E S S O U L U

Kirjasampo [lyhyt oppimäärä]

YHTEISET TIEDON HALLINNAN SANASTOPALVELUT tutkimus- ja kehittämishankkeen toimintasuunnitelma 2017

Kansalliset kehittämishankkeet: Etenemissuunnitelmat

Käsitemallit muistiorganisaatioiden kuvailun yhdenmukaistamisen välineenä

Finto-tilannekatsaus. Osma Suominen Kansalliskirjaston asiantuntijaseminaari

Taloustieteet ja YSA. Eeva Kärki Kansalliskirjasto

Tietotermit tiedonhallintaan Säätytalo

Valtakunnallinen kehittämistehtävä Matti Sarmela

Avoin tieto ja World Wide Web tietoyhteiskunnan palveluksessa. Open Data and the World Wide Web in Service for the Informaton Society

Ryhmäharjoitus II: Blogger. TIEY4 Tietotekniikkataidot, kevät 2017 Tehdään ryhmäharjoitustunnilla 16.3.

Kilda-projektin tilannekatsaus: tulokset ja tavoitteet Kilda-projektin ohjausryhmän kokous Marja-Liisa Seppälä

Kansallinen yhteisluettelo kirjastojen luettelointiyhteistyön tukena. Pori Nina Hyvönen

Prosessikuvauksesta vauhtia taideteollisuusalan ontologia TAOn ensiaskeleihin

Kirjastot.fi-palvelut Matti Sarmela, päätoimittaja, Kirjastot.fi-toimitus

MuseumPlus RIA - kokoelmahallintajärjestelmä

LAADUKAS SISÄLLÖNKUVAILU -SUOSITUS

YSAsta YSOon kirjastoissa: miksi ja miten

Finto-palvelu ja ontologioiden käyttöönotto sisällönkuvailussa

labs.kirjastot.fi Antti Pakarinen Timo Tuominen

HALLINNON YHTEINEN VERKKOPALVELURATKAISU ,

Avoin data Avoin kirjasto Kuvailupäivät

ONKI Living Lab. Semanttisen laskennan tutkimusryhmä SeCo Aalto-yliopisto

Kansallinen semanttisen webin sisältöinfrastruktuuri FinnONTO - visio ja sen toteutus

Finto palveluiden toteuttamisen alustana

Semantic Web käytännön sovelluksissa. TkT Janne Saarela Profium Oy

Tietoasiantuntija Juha Piukkula Eduskunnan kirjasto

KODAK EIM & RIM VIParchive Ratkaisut

Lingsoft. Tietotermit-palaveri. Täyden palvelun kielitalo. Tapaaminen VM:n kanssa, Lingsoft Oy

ONKI-palvelin ja sen hyötykäyttö: selain, valitsin ja verkkopalvelut

AHAA-palvelu ja Finnan räätälöinti

ONKI Light -ontologiaselaimen käytettävyystestaus: ensimmäinen testikierros

Sisällönhallinnan menetelmiä

Yleisten kirjastojen kuvailutyön kansallinen viitekehys. Yleisten kirjastojen neuvosto Anu Jäppinen

KIRJASTO- JA TIETOPALVELUALAN AMMATILLISET ERIKOISTUMIS- OPINNOT (60 op)

Luento 12: XML ja metatieto

Susanna Nykyri

ONKI: sanastojen ja avoimen linkitetyn datan tekninen infrastruktuuri Juha Hakala Kansalliskirjasto

Kielipankki ja FIN-CLARIN

Verkkopalvelut ja konversio

Finna ja ontologiat tms.

Transkriptio:

Asiasanoittamisen kehittäminen ja sisältöjen automaattisen analysoinnin kokeilut Ylellä Pia Virtanen / Yle Internet-media Kuvailun tiedotuspäivä 26.10.2016

Esityksen sisältö: Oma tausta Asiasanoittamisen kehittäminen Ylellä: Mitä tavoitellaan ja miten Käytössä olevat ontologiat Miltä asiasanoittaminen näyttää eri järjestelmissä Miksi asiasanoittamista kehitetään Äänen, kuvan ja tekstin automaattinen sisältöanalyysi: Osa-alueita Ylen kokeilut Miksi automaattista sisällönkuvailua ja sen kehittämistä Miten (ehkä) vaikuttaa sisällönkuvailijan työhön

Oma tausta Kääntäjä + informaatiotutkimuksen aineopinnot, töissä aiemmin ennen kaikkea yliopistoilla Kiinnostuksen kohteet kielten opinnoissa ja opettajana: leksikografia, terminologia / erikoisalojen sanastotyö automaation mahdollisuudet: esim. konekääntäminen, automaattinen indeksointi Kirjastoalan työkokemus: Yleinen kirjasto (ulkomailla), Ylen Kirjasto-tietopalvelu (2005-) Tällä hetkellä Ylen Internet-media -yksikössä, tehtävänä verkkosisältöjen sisällönkuvailun, ennen kaikkea asiasanoittamisen, kehittäminen, lisäksi mukana automaattisen sisältöanalyysin mahdollisuuksia tutkivassa tiimissä Nykyisessä tehtävässä (ollut) haastavaa: Epätäydellisyyden sietäminen: metadataa ei-ammattilaisten tuottamana, massatuotantona ja joukkoistamalla Ei tarpeeksi teknistä osaamista Aina asiakashyöty edellä

Asiasanoittamisen kehittäminen Ylellä Tavoite: Asiasanastojen ja asiasanoitusprosessien yhtenäistäminen: Yksi yhteinen Yle-käsitteistö kaikkien käytössä

Keinot päästä yhteiseen käsitteistöön ja yhtenäisiin prosesseihin 1. Käytetään ulkoisia ontologioita / sanastoja asiasanojen lähteenä 2. Tarjotaan yksi yhteinen rajapinta näihin ontologioihin (Meta-API) 3. Jo käytössä olleet sanastot muunnetaan yhteisen käsitteistön mukaisiksi 4. Tuetaan ja opastetaan Kaikki Ylen sisältöjen kuvailussa käytetyt asiasanat (henkilöiden, organisaatioiden, paikkojen, tapahtumien jne. nimiä sekä muita aiheita) muodostavat Meta-APIin tallennetun Yle-käsitteistön

Paljon teknistä kehitystä

Massiivisia siltausoperaatioita

Jatkuvaa datahuoltoa

Satoja sisällönkuvailijoita, joista suurin osa sisällönkuvailun eiammattilaisia (esim. toimittajat)

Käytössä olevat ulkoiset ontologiat Kansalliskirjaston Finto-palvelun KOKO (http://finto.fi/koko/fi/) kokoelma suomalaisia ydinontologioita: YSO ja joukko erityisalojen ontologioita n. 50 000 käsitettä Ennen kaikkea yleiskäsitteitä kuten rock, sota, politiikka, työttömyys, tulevaisuus tai lastenohjelmat Wikidata (https://www.wikidata.org/) tietopankki, joka on sekä ihmisten että koneiden luettavissa ja muokattavissa n. 24 miljoonaa kohdetta Ennen kaikkea erisnimiä: henkilöitä, organisaatioita, paikkoja, tapahtumia kuten Pirkka-Pekka Petelius, EBU, Geneve, Panaman paperit Leiki (http://www.leiki.com/) Suomalaisen yrityksen oma ontologia n. 170 000 käsitettä Sekä yleiskäsitteitä että erisnimiä

Asiasanoittamista käsin ja koneellisesti Käsin asiasanoitus Automaattinen asiasanoitus

Wikidatasta Vapaa ja avoin tietopankki Sekä ihmisten että koneiden luettavissa ja muokattavissa Toimii samasta aiheesta kirjoitettujen Wikipediaartikkeleiden linkittäjänä sekä strukturoidun datan lähteenä esim. Wikipedian infoboxeille Yli 24 miljoonaa datakohdetta Sisältö yksinkertaistaen: Jokaista Wikipedia-artikkelia vastaa Wikidata-käsite + Wikidataan mahdollista luoda käsitteitä, joista ei ole Wikipedia-artikkelia Ylellä käytössä huhtikuusta 2016: Hyviä kokemuksia! Hyvin suomalaisia henkilöitä ja organisaatioita Uudet käsitteet nopeasti, myös suomeksi, esim. Panaman paperit, Brysselin räjähdykset 2016, Ruotsin prinssi Oscar

Ylen kokemuksista Wikidatan käytöstä Blogikirjoitus: Mikael Hindsberg, Svenska Yle: Yle <3 Wikidata http://wikimedia.fi/2016/04/15/yle-3-wikidata/

LISÄÄ ASIASANA Asiasanoittaminen Ylen julkaisujärjestelmissä: Drupal

Asiasanoittaminen Ylen julkaisujärjestelmissä: Drupal Video asiasanoitusprosessista: https://drive.google.com/file/d/0b4zkkcgts hw7bxgycvdesm1qbw8/view Ehdota termejä Automaattisen asiasanoituksen tuloksia

Asiasanoittaminen Ylen julkaisujärjestelmissä: Escenic

Asiasanoittaminen Ylen julkaisujärjestelmissä Valokuvien hallintajärjestelmä IMS (Images management system) Arkistointijärjestelmä Metro (Avid Interplay)

Yle-käsitteistön (Meta-APIn) käyttö Ylellä = Yhdistetty Meta-APIinI = Meta-APIin yhdistäminen työn alla Elävä arkisto ARTIKKELIT OHJELMAT Svenska Yle (Drupal SYND ) Luovat sisällöt, tvkanavat, yhtiösivut (Drupal FYND ) Yle Uutiset, Yle Urheilu, radiokanavat (Escenic) Suunnittelujärjestelmä (Ceiton) Uudet tv-ohjelmat (Plasma) Arkistoidut tvohjelmat (Avid Interplay Metro ) VALOKUVAT Uutiset ( IMS ) Yle Arkisto (Avid Metro ) Svenska Yle, Luovat sisällöt, ( IMS ) Yle-käsitteistö Meta-API N. 100 000 käsitettä Uudet radio-ohjelmat (RadioMan) Uu Arkistoidut radioohjelmat (Avid Interplay Metro ) KOKO Wikidata Leiki

Miksi asiasanoittamista kehitetään Ylellä? Parempi löydettävyys Uudenlaiset, aihepohjaiset sisältökokonaisuudet verkossa Samanaiheisten sisältöjen suosittelu Palvelujen aihepohjainen personointi

Personoitava Yle Urheilun etusivu Uutisia kolmella kielellä: Personoitava Uutisvahti

Asiasanoitus mahdollistaa samasta aiheesta tuotettujen sisältöjen yhteen saattamisen verkossa

Äänen, kuvan ja tekstin automaattinen sisältöanalyysi: Sisältömetatiedon koneellisen tai koneavusteisen tuottamisen kokeilut Ylellä

Automaattinen sisältöanalyysi: Ylelle relevantteja osa-alueita Ääni Puheentunnistus (tekstitys, litterointi, dataa tekstianalyysia varten) Musiikintunnistus Musiikkikappaleiden tunnistus Puhujan tunnistus Kielen tunnistus Kuva (still + video) Kuvassa näkyvien objektien tunnistus Kasvojen / Henkilön tunnistus... Teksti Automaattinen asiasanoitus Laajempi aiheen / teeman tunnistus Verkkokeskustelujen moderointi...... Esim. tv-ohjelman sisällönkuvailu: Yhdistelmä useita eri analyyseja

Automaattinen sisältöanalyysi: Missä Ylellä jo käytössä Ääni Puheentunnistus (tekstitys, litterointi, dataa tekstianalyysia varten) Musiikintunnistus Musiikkikappaleiden tunnistus Puhujan tunnistus Kielen tunnistus Kuva (still + video) Kuvassa näkyvien objektien tunnistus Kasvojen / Henkilön tunnistus... Teksti Automaattinen asiasanoitus Laajempi aiheen / teeman tunnistus Verkkokeskustelujen moderointi......

Ylen automaattisen sisältöanalyysin tiimi 2016 Jäseniä eri puolilta Yleä Tavoitteita: Tutustua automaattiseen sisältöanalyysiin ja sen menetelmiin (deep learning, koneoppiminen jne.) teoriassa ja käytännössä Solmia kontakteja alan toimijoihin varsinkin Suomessa Jakaa tietoa Ylellä: Yritysten ja tutkimusorganisaatioiden vierailuja Yksi isompi, kaikille avoin tapahtuma: 29.9. TUNNISTA JA ANALYSOI! Missä menee äänen, kuvan ja tekstin automaattinen sisältöanalyysi Suomessa Viedä läpi muutama laajempi pilottiprojekti Löytää käytännön ratkaisuja sisällönkuvailun automatisointiin

Automaattinen sisältöanalyysi: Joitain (suomalaisia) yrityksiä ja tutkimusorganisaatioita Ääni Lingsoft (+ Jutel) Aalto-yliopisto: Puheentunnistus Qvik (Googlen työkalut) Limecraft (Belgia) Kuva (still + video) Top Data Science Valossa IBM Aalto-yliopisto: Kuvantunnistus Teksti Leiki Lingsoft Connexor Aalto-yliopisto: Semanttisen laskennan keskus Utopia Analytics

Vuoden 2016 pilottiprojektit Artikkeleiden automaattinen asiasanoitus: 2 koneellisesti tuotettua asiasanoitusta vastakkain, ihmiset arvioijina Kokemusta millaista asiasanoitusta KOKOa ja Wikidataa käyttäen voi tuottaa Kokemusta järjestelmän opettamisvaiheesta TV-ohjelmien sisällönkuvailun automatisointi: Ohjelman segmentointi, kuvassa näkyvien objektien tunnistaminen, aiheen tunnistaminen tekstitystä analysoimalla Valokuville tehtävä kuva-analyysi: 11 000 valokuvaa Ylen valokuva-arkistosta Loppuvuodesta mahdollisesti vielä myös: Radio-ohjelmien puheentunnistus + automaattinen asiasanoitus Musiikkikappaleiden automaattinen tunnistus Haastattelujen litterointi puheentunnistuksella

Artikkeli ja sille kahdesta eri lähteestä (Leiki ja Lingsoft) haetut, automaattisesti tuotetut asiasanat Tunnistettujen asiasanojen arviointi Keskeinen - OK - Epärelevantti -Väärä -asteikolla Mitä koneet eivät tunnistaneet tekstistä laisinkaan

Uutislähetykselle tehty analyysi Tekstitystiedostosta tunnistettuja aiheita Kuvapinnassa olevien tekstien (planssitekstit) pohjalta tunnistettuja tekijöitä ja haastateltavia Kuvapinnasta tunnistettuja objekteja

Suunnitelmia vuodelle 2017 Käytännön ratkaisuja automaattiseen sisältöanalyysiin Myös jalat irti maasta -kokeiluja, jotta opitaan uutta (Yle Beta) Kansainvälinen yhteistyö, varsinkin muiden EBU-maiden kanssa

Miksi automaattisen sisällönkuvailun kehittämistä? Vrt. asiasanoittamisen kehittäminen: Löydettävyys, suosittelu ja personointi! Sisällöt - varsinkin audiot ja videot - ovat vaikeasti löydettävissä, ellei niistä ole käytettävissä sisältömetatietoa. Lähde: Kim Viljanen, Yle, 29.9.2016

Miksi automaattista sisällönkuvailua? Enemmän, tehokkaammin, parempilaatuista ja tasalaatuista sisältömetatietoa Kone ei väsy eikä nuku. Myös vanhojen sisältöjen takautuva sisällönkuvailu mahdollistuu. Koska - nyt tai ainakin lähitulevaisuudessa - mahdollista! Nykyään konekin oppii uutta!

Joitain ajatuksia: Miten sisällönkuvailijan työ muuttuu? Enemmän apua koneelta Laatutason määrittelyä Sisältömetatiedon kuratointia/validointia Koneen opettamista Lisää ymmärrystä menetelmistä, jotta pystyy arvioimaan tarjolla olevia mahdollisuuksia... Lähde: Robotit töihin, 2016

Linkkejä Pia Virtanen, Kim Viljanen, Mikael Hindsberg: YLE s Meta-API: Improving the Findability of Web Content with Semantic Tagging. In: Tech Report 019. EBU-MIM Semantic Web Activity Report, 2015. Annex 9, p. 43-56. https://tech.ebu.ch/publications/tr019 Pia Virtanen: Tagging Content at the Finnish Broadcasting Company Yle (esitys EBUn metadata-workshopissa 7.6.2016) https://tech.ebu.ch/docs/events/mdn2016/presentations/pia_virtanen_yle_ebu%20mdn%202016.pdf Mikael Hindsberg: Yle <3 Wikidata: http://wikimedia.fi/2016/04/15/yle-3-wikidata TUNNISTA JA ANALYSOI! Missä menee äänen, kuvan ja tekstin automaattinen sisältöanalyysi -tilaisuuden ohjelma, jossa linkit esityksiin sekä videotallenteeseen, pidetty Ylellä 29.9.2016: bit.ly/tunnistajaanalysoi-ohjelma Kim Viljanen: Ylen metatietotarpeet 2020 -esitys tilaisuudessa: https://drive.google.com/file/d/0by_jnebqwqdgtlpzz245a01wq0u/view Andersson Cristina et al.: Robotit töihin. EVA, 2016: http://www.eva.fi/wp-content/uploads/2016/09/robotitt%c3%b6ihin.pdf

Kiitos! Kysymyksiä? Yhteystiedot: pia.virtanen@yle.fi Yle-käsitteistön eniten käytettyjä käsitteitä