HAKURATKAISUN ANATOMIA - KURKISTUS PELLIN ALLE

Samankaltaiset tiedostot
Action Request System

Kirjastoverkkopäivät 2017 Erkki Tolonen

Virtualisointi Kankaanpään kaupungissa. Tietohallintopäällikkö Jukka Ehto

Maiju Mykkänen Susanna Sällinen

Federoitu keskitetty sovellus

labs.kirjastot.fi Antti Pakarinen Timo Tuominen

Web-sisällönhallintajärjestelmät. Sisältö. Mitä on web-sisällönhallinta?

Hallintatyökaluja Fujitsu-työasemille

Tekninen suunnitelma - StatbeatMOBILE

KAIKKI LAITTEET KÄYNNISTETÄÄN UUDELLEEN ENNEN TARKISTUSTA

Web-sisällönhallintajärjestelmät

TYÖKALUT HAKUKONEOPTIMOINTIIN

AsioEduERP v12 - Tietoturvaparannukset

Koira testissä vai Racci tuotannossa O10G/IAS10 Linuxilla

Työasemien hallinta Microsoft System Center Configuration Manager Jarno Mäki Head of Training Operations M.Eng, MCT, MCSE:Security, MCTS

SOA & Ajax Sanahelinää vai toimivaa käytäntöä sähköisessä asioinnissa? Fenix hankejohtaja Harri Juuti Projektipäällikkö Teemu Karvonen

Intranetin rakentaminen ja käyttöönotto. Pitkästä tavarasta, elementteinä vai avaimet käteen -toimituksena?

Finna ja ontologiat tms.

Harjoituksen aiheena on tietokantapalvelimen asentaminen ja testaaminen. Asennetaan MySQL-tietokanta. Hieman linkkejä:

Uusi kirjastojärjestelmä UKJ

Jouko Nielsen. Ubuntu Linux

Miten voin selvittää säästömahdollisuuteni ja pääsen hyötymään niistä?

CUDA. Moniydinohjelmointi Mikko Honkonen

Järjestelmäarkkitehtuuri (TK081702) Järjestelmäarkkitehtuuri. Järjestelmäarkkitehtuuri

Android ohjelmointi. Mobiiliohjelmointi 2-3T5245

Virtualisointi Käytännön kokemuksia järjestelmien virtualisoinnista

Liite 3. Tekninen vaatimusmäärittely

Tietotekniikka / Tietoverkkotekniikka. Markus Autio WWW-sisällönhallintajärjestelmät Linux-järjestelmät. Lukukausi: Kevät 2014

Tietotekniikan koulutusohjelma / Tietoverkkotekniikka

Työpöytävirtualisointi

Mikä on WordPress? itse ylläpidettävä (self-hosted) WordPress.com: ilmainen 3. osapuolen ylläpitämä pilvipalvelu (Cloud-hosted)

Lisensointikuulumisia - Kustannustehokkuus Oracle lisensoinnissa

Tekninen suunnitelma - StatbeatMOBILE

ASIAKASLIITTYMÄ. Erikoiskirjastokokous Ari Rouvari Kansalliskirjasto

TYPO3 - Open Source Enterprise CMS

SAP. Lasse Metso

Facta palvelimien uusiminen Helsingin kaupunki

KAIKKI LAITTEET KÄYNNISTETÄÄN UUDELLEEN ENNEN TARKISTUSTA!

E-AINEISTOJEN ESILLEPANO KIRJASTOSSA Asiakastablettien tekninen ratkaisu

Arkkitehtuurikuvaus. Ratkaisu ohjelmistotuotelinjan monikielisyyden hallintaan Innofactor Oy. Ryhmä 14

Avoimen lähdekoodin ohjelmistot julkisessa hallinnossa

Datan hallinnan nykykäytännöt ja tulevaisuuden suunnitelmat Ville Tenhunen Helsingin yliopisto / Tietotekniikkakeskus

Museoiden keskustelutilaisuus Kansalliskirjasto Museovirasto Arkistolaitos

Nebula Pilvi 9.0. Nebula-palvelut. Palvelukuvaus 9.1. Aito, avoin ja luotettava.

Historiaa. Unix kirjoitettiin kokonaan uudestaan C-kielellä Unix jakautui myöhemmin System V ja BSDnimisiin. Kuutti, Rantala: Linux

egradu & Muuntaja Ylemmän tutkintovaiheen opinnäytetöiden elektroninen arkistoiminen ja esilletuonti

Haka-palveluiden valvonta ja tilastointi AAIEye -työkalun avulla. Mika Suvanto, CSC

Opencast Matterhorn Luentotallennus- ja videojulkaisujärjestelmä

Museoiden kokoelmanhallinta ja Kansallinen digitaalinen kirjasto

T Testiraportti - järjestelmätestaus

Microsoft Office SharePoint Server 2007

Valppaan asennus- ja käyttöohje

Webpalvelin muistitikulle - Ohje

Kymenlaakson Ammattikorkeakoulu

1 of :58

TK Palvelinympäristö

Avoin lähdekoodi. Jani Kylmäaho Maanmittauslaitos

KODAK EIM & RIM VIParchive Ratkaisut

Sisältö IT Linux 2001:n uudet ominaisuudet IT Linux 2001:n yhteensopivuus Red Hat 7.0:n kanssa Asennuksen valmistelu

TIEDONHAKU INTERNETISTÄ

Tekstinlouhinnan mahdollisuudet Digin historiallisessa sanomalehtiaineistossa. Kimmo Kettunen Dimiko (Digra-projekti)

Kuinka hallita Linux -palvelimia paremmin (kuin ennen) Perttu Muurimäki

PILVIPALVELUT HYÖTYKÄYTÖSSÄ. Jarkko Muhonen TeamProg

Tekniikka ja kehittäminen Minna Hillebrand Pauli Kujala

Linux rakenne. Linux-järjestelmä koostuu useasta erillisestä osasta. Eräs jaottelu: Ydin Komentotulkki X-ikkunointijärjestelmä Sovellusohjelmat

Valtion konesali- ja kapasiteettipalvelu mistä on kyse Valtorin ja Tiedon välisessä palvelusopimuksessa?

Tiedon suojaaminen ja hallinta. Sytyke seminaari

PATA WEB KÄYTTÖLIITTYMISTÄ

Liityntäpalvelimen asentaminen

Tietojärjestelmät Metropoliassa Mikko Mäkelä & JHH

. Wake on moderni kehitysalusta käyttäjäkeskeisille verkko- ja. mobiilisovelluksille. Wake antaa täydet vapaudet suunnitella verkkopalvelun

VERKKOKAUPAN TUOTEHAUN TOTEUTTAMINEN APACHE SOLRILLA

efront virtuaalinen oppimisympäristö Antti Rantala & Erkki Mauno

SharePoint verkkopalvelualustana

Yliopisto- ja AMK-kirjastokonsortioiden tietokantapalvelimet

HY:n alustava ehdotus käyttäjähallintotuotteesta

Seutudokumenttien pä ivittä misohje

Mark Summary Form. Tulospalvelu. Competitor No Competitor Name Member

Rajattomat tietoverkot ja niiden rooli pilvipalveluissa. Jukka Nurmi Teknologiajohtaja Cisco Finland

Visma Liikkuvan työn ratkaisut VLS lisensointi. Ylläpitäjän opas

Joustotilat Tampereella

Osaaminen varmistaa että asiat tulevat tehdyiksi!

Uudelleenkäytön jako kahteen

TK Palvelinympäristö

OpenSUSE Build Service

Demo 13. Aihe: Linux. Opettaja: Antti Ekonoja. Tekijä: Heini Puuska

Käytin tehtävän tekemiseen Xubuntu käyttöjärjestelmää aikaisemmin tekemältäni LiveUSB-tikulta.

UKJ ja Kuali Open Library Environment (OLE)

JÄRJESTELMÄTYÖKALUT SEKÄ SOVELLUSTEN POISTAMINEN

ESRC:n uusiutumassa olevat kotisivut on toteutettu WordPress-ohjelmalla (WP). Samaa ohjelmaa käyttävät menestyksellä ainakin SSql, HSRC ja JSK.

Solteq Tekso v Versiopäivitysohje.

Automaatio mahdollistaa Software as a Service - arkkitehtuurin

Pilvi mitä, miksi ja miten

Tietojärjestelmä tuotantoympäristössä. Sovellusohjelmat Helsingin ammattikorkeakoulu Stadia / Tekniikka ja liikenne Vesa Ollikainen

Mylly: Uusi tapa ka sitella teksti- ja puheaineistoa helposti ja tehokkaasti. Mietta Lennes ja Jussi Piitulainen FIN-CLARIN, Helsingin yliopisto

HELIA 1 (16) Outi Virkki Tietokantasuunnittelu

Julkaisutiedot läpinäkyviksi: julkaisuportaali. Tampereen teknillinen yliopisto, Jyrki Ilva

Virtualisointi VMwarella: Orkestroitua elinkaarta ja kustannustehokkuutta

Datanhaku www-käyttöliittymästä Mikko Parviainen, Ilmatieteen laitos / tietojärjestelmät mikko.parviainen@fmi.fi

Transkriptio:

HAKURATKAISUN ANATOMIA - KURKISTUS PELLIN ALLE Jukka Huhta Nikke Myöhänen Ville Tenhunen 5.11.2014

AGENDA MITÄ? MIKSI? ARKKITEHTUURI KAHLAUS INDEKSIT INTEGRAATIOT KÄYTTÖLIITYMÄT RAUDAT KÄYTTÖ NYT JA JATKOSSA SEURAAVAKSI

MITÄ? Entinen www-hakukone Googlen Search Appliance vuodesta 2008 Niiden lisenssit umpeutuivat loppusyksystä 2014 Uudeksi hakukoneeksi avoimen lähdekoodin Apache Solr

MIKSI? + Skaalautuvuus suhteessa kustannuksiin + Mahdollisuudet vastata muuttuviin vaatimuksiin + Yhteentoimivuus + Muokattavuus, säädettävyys ja avoin lähdekoodi + Komponenttien saatavuus, monipuolisuus ja vaihtoehdot + Dokumentaatio ja yhteisötuki

ARKKITEHTUURI WWW Intranet Drupal Esityskerros Solr Datan käsittely Index search Index reader Query parser Request writer Kahlaaja (Nutch) Index writer Apache Tika (dokumentit) Normalizer (URL) Hakukone Request handler Indeksit Filtterit Parserit Jetty Hadoop Sovelluspalvelin Konfiguraatiot Indeksit Kahlatut segmentit Tallennus

TOIMINTA WWW-sivut WWW-haku Kahlaaja Prosessointi Indekseri Admin Kahlaaja Solrindekseri - Parserit - Normalisointi - Filtterit - Osumat - IndexWriter - Kirjautuminen Admin Haku indeksi

KAHLAUS WWW-ilmentymien kahlauksesta vastaa Nutch (versio 1.9) Neljä instanssia Helsinki.fi Flamma-fi, Flamma-sv ja Flamma-en Kahlaaja seuraa annettua URLia etsien uusia linkkejä sivuilta. Hakua rajataan FQDN domain-osion perusteella Kahlaukset esim. 30 min välein, 2h välein ja 1 krt / päivä (syvyys vaihtelee). Syväkahlaus 1 krt / päivä. Hakutulokset talletetaan palvelimen levylle erillisiin segmentteihin, joista ne kirjoitetaan indekseihin.

KAHLAAJAT JA INDEKSIT *.helsinki.fi Intranet / Flamma Instanssit Nutch julkinen Nutch Flamma-fi Nutch Flamma-sv Nutch Flamma-en Indeksit Julkinen Flamma Julkinen & Flamma

INDEKSI Indeksejä 3 kpl (kahlaajan indeksiä päivittävät instanssit) Flamma (flamma-fi, flamma-sv, flamma-en) Helsinki.fi (helsinki.fi) Kaikki [Flamma + Helsinki.fi] (flamma-fi, flamma-sv, flamma-en ja helsinki.fi) Indeksin "Kaikki" voisi myös yhdistää Flamma- ja helsinki.fi -indekseistä, mutta toimenpide on liian hidas. Nopeampi tapa on indeksoida kahlatut segmentit suoraan kahteen erilliseen indeksiin. Indeksiä voi kirjoittaa yksi index-writer kerrallaan. Samaan aikaan indeksistä voidaan kuitenkin hakea hakutuloksia.

INDEKSOINTI JA HAUT Hae: yliopisto Nutch julkinen Hae: opiskelu Nutch Flamma-fi Flamma & julkinen Snapshot muistissa Flamma & julkinen Indeksi, jota kirjoitetaan t

INTEGRAATIOT Aluksi vain HTTP(S) rajapintaa, ei varsinaisia integraatioita Käyttöliittymät standalone Flamma vaatii kahlaajalta kirjautumisen sisältöihin pääsemiseksi. Solr-indeksiin voitaisiin syöttää tietoa useiden järjestelmien kuten Drupalin kautta (onnistuisi myös esim. Djangon tai WordPressin) Suunnitelmia: Matterhorn, Drupal, Koulutushaku

SOVELLUKSET Solr versio 4.8.1 (indeksi) Jetty 6.1.26 Nutch versio 1.9 (kahlaaja) Hadoop (hadoop-core 1.2.0) Käyttöliittymät PHP (ml. solr-php-client -kirjasto) Joitain omia skriptejä (bash, Perl) hallintaan

RAUDAT 2 kpl virtuaalipalvelimia CPU: 2 x 2560 Mhz Muisti: 16 Gt Systeemilevy: 10 Gt Datalevy: 900 Gt Käyttöjärjestelmä: Red Hat Enterprise Linux Server release 6.5 (Santiago) Kahdennus: Fail over

KÄYTTÖ NYT JA JATKOSSA Käyttö alkuvaiheessa Ensin WWW-haku julkisille sivuille ja intranetiin Sivustokohtaiset haut Mahdollisia kehitysideoita Sivustojen omaa skeemaa ja indeksiä vaativat haut Aineistojen hallinta Yhteistyö kirjastojen kanssa

SEURAAVAKSI Versiopäivitykset Arkkitehtuurimuutokset Klusterointi ja hajautus kuormantasauksen taakse? Tietokantaratkaisut? Rautapalvelimet? Nutchin ja Solr:n eriyttäminen koneilla? Jatkokehitys WWW-konsepteihin Uudet käyttötavat ja kohteet Suorituskyvyn ja palvelutason jatkuva kehittäminen

Kiitos! Lisätiedot projektista: ville.tenhunen@helsinki.fi