2012/816 ISSN 1797-3457 (verkkojulkaisu) ISBN (PDF) 978-951-25-2410-5 TIIVISTELMÄRAPORTTI (SUMMARY REPORT) Ilmavälkkeen automaattinen luokittelu ja ominaisuudet 5 GHz:n kaksoispolarisaatiomittauksissa Tiivistelmä Teemu Mäkinen, Jarmo Koistinen, Seppo Pulkkinen, Pekka Rossi & Ari-Matti Harri Ilmatieteen laitos, PL 503, 00101 Helsinki / teemu.makinen@fmi.fi Tässä projektissa ilmavälkkeen tilastollisia ominaisuuksia tutkittiin datalähtöisesti valitsemalla operatiivisesta kaksoispolarisaatiotutkadatasta näytteitä eri tyyppisistä välkkeistä ja määrittämällä kunkin näytteen luokka meteorologisen asiantuntemuksen perusteella. Näin saatujen luokkien tilastolliset ominaisuudet mallinnettiin tarkoitusta varten kehitetyillä menetelmillä, jotka ottavat yksittäisen pisteen lisäksi huomioon ympäröivän alueen tekstuurin. Malleja vertailemalla voitiin kullekin luokalle määritellä yksinkertainen jäsenfunktio, joka mahdollistaa automaattisen ja reaaliaikaisen tutkadatan luokittelun. 1. Johdanto Troposfäärissä vallitsevien olosuhteiden tosiaikainen ja automaattinen tulkinta on hyvin merkityksellistä sotilaallisille operaatioille, erityisesti lento- ja tiedustelutoiminnalle. Haitallisten sääilmiöiden kuten rankkasade, pyry, jäätävä sade, rakeet, salamointi, turbulenssi, puuskat ja syöksyvirtaukset lisäksi siihen kuuluvat myös muut ilmakehässä mitatut ilmiöt kuten silppu, linnut, hyönteiset ja lentolaitteet, sekä todellista kohdetta vailla olevat häiriötekijät kuten vieraat lähettimet, peiliheijastukset, kohina ja sironta yksikäsitteisen tutkamittausalueen takaa. Laaja-alaisesta ilmakehän siroajajoukosta tulevaa tutkasignaalia nimitetään usein ilmavälkkeeksi. Ilmavälkkeen tunnistamisessa yllä mainittuihin eri aiheuttajiin on alettu etenemään vasta viime aikoina mitattujen polarisaatiosuureiden avulla, kun sääpalvelukäyttöön on otettu 5 GHz:n kaksoispolarisaatiosäätutkat. Laajemman mittaussuurevalikoiman johdosta kaksoispolarisaatio tarjoaa oivan välineen ilmavälkkeen ja muiden kohteiden tunnistamiseen. Operatiivista luokittelijaa kaikille kohteille ei ole kuitenkaan aikaisemmin ollut saatavilla, ja erityisesti ei-meteorologisten kohteiden tilastolliset ominaisuudet ovat olleet huonosti tunnettuja. Jatkuvasti mittaavia kaksoispolarisaatiotutkajärjestelmiä on Suomessa tällä hetkellä kolme sekä T&K-toiminnassa kaksi. Lähivuosina kaksoispolarisaatiojärjestelmät tulevat kattamaan koko Suomen. Kohteiden automaattinen luokittelija on mahdollista asentaa osaksi Ilmatieteen laitoksen operatiivista (24/7) säätutkapalvelutoimintaa Puolustusvoimille. Toinen tarve on sotilaallisessa suunnittelussa, missä täytyy mallintaa esimerkiksi lentävien järjestelmien selviytymistä erilaisissa skenaarioissa ilmavälkkeiden seassa. Mallinnusta varten on tunnettava ilmavälkkeen eri luokkien tilastolliset ominaisuudet tutkamittauksissa, mukaanlukien polarisaatiosuureet ja niiden tekstuurit. Tällainen tieto auttaa optimoimaan muun muassa oman kohteen häiveominaisuuksia ja toisaalta vieraan kohteen havaitsemisalgoritmeja. Postiosoite MATINE Puolustusministeriö PL 31 00131 HELSINKI Sähköposti matine@defmin.fi Käyntiosoite Puhelinvaihde Eteläinen Makasiinikatu 8 00130 HELSINKI (09) 16001 WWW-sivut Y-tunnus www.defmin.fi/matine FI01460105 Pääsihteeri (09) 160 88310 OVT-tunnus/verkkolaskuosoite Itellan operaattorivälittäjätunnus Suunnittelusihteeri Toimistosihteeri (09) 160 88314 050 5555 837 Faksi kirjaamo (09) 160 88244 Verkkolaskuoperaattori Yhteyshenkilö/Itella 003701460105 003710948874 Itella Information Oy helpdesk@itella.net
2. Tutkimuksen tavoite ja suunnitelma Tutkimuksen keskeinen tavoite oli kehittää tarvittavat välineet ilmavälkkeen tosiaikaiseen tunnistamiseen ja kerätä riittävä tilastollinen perustieto sen mallintamiseen. Tämä päätavoite jakautui kolmeen selkeään alakohtaan: 1. Kehitetään ja testataan uusi matemaattinen menetelmä, jolla voidaan mallintaa moniulotteista ja osin puutteellista dataa halutulla tarkkuudella. Tehokkuusvaatimus ulottuu varsinaisesta mallin parametrien määrittelemisestä keskeisiin analyysin vaatimiin operaatioihin kuten pisteen luokkaan kuulumisen todennäköisyyteen (jäsenfunktio) tai mallien väliseen yhtenevyysmittaan (divergenssi). 2. Lasketaan laajan, noin 30 ilmavälkeluokkaan jaetun, kokeneen asiantuntijan poimiman kaksoispolarisaatiotutkadatan eri luokkien tilastolliset ominaisuudet ja esitetään ne havainnollisesti. 3. Määritellään kullekin luokalle optimoitu jäsenfunktio, joka mahdollistaa tutkadatan automaattisen ja reaaliaikaisen luokittelun. 3. Aineisto ja menetelmät Käsitelty tutkamittausaineisto poimittiin Ilmatieteen laitoksen kolmelta 5.6 GHz:n kaksoispolarisaatiotutkalta, jotka sijaitsevat Vantaalla, Anjalankoskella ja Ikaalisissa. Poiminta tehtiin tunnin välein operatiivisista sääpalvelua varten tehdyistä mittauksista, eli erityistä tutkimusmittausohjelmaa ei tarvittu. Mittaukset ovat tutkalla IRIS-formaatissa (Vaisala/SIGMET), josta ne muunnetaan jatkokäsittelyä varten eurooppalaisen säätutkayhteistyön käyttämään HDF5/ODIM-formaattiin. Kaikki valitut mittaukset olivat PPI-tyyppisiä, sisältäen mittaussuureet kokonaisheijastus dbt, korjattu kokonaisheijastus dbz, säteittäisnopeus V, spektrin leveys W, signaalin laatuindeksi SQI, korrelaatiokerroin ρ HV, heijastusero ZDR, vaihe-ero Φ DP, vaihe-eron muutos K DP sekä indeksin HydroClass, jota ei tutkimuksessa käytetty. Datalähtöinen luokittelumenetelmä tarvitsee toimiakseen edustavan näytteen kustakin kohdeluokasta. Nämä näytteet poimi kokenut asiantuntija, joka pystyi nimeämään ne luotettavasti. Tätä metadatan lisäämistä olemassa oleviin mittauksiin kutsutaan tässä yhteydessä kouluttamiseksi. Kouluttaminen onnistuu parhaiten etsimällä näytteitä, jotka edustavat mahdollisimman puhtaita kohdeluokkia. Projektin aikana luotiin graafinen koulutuskäyttöliittymä tutkadatan selaamiseen ja yksittäisten näytteiden rajaamiseen. Käyttöliittymän avulla voidaan määritellä sekä kohteen alueellinen ulottuvuus että mahdolliset raja-arvot mittaussuureille, helpottaen mittausdatan rajattua poimintaa kussakin tapauksessa niin, että se parhaiten edustaa puhdasta luokkaa. Jotta luokista saataisiin riittävän kattavat näytteet koulutustapauksia määriteltiin yhteensä yli tuhat kappaletta, sisältäen noin 7.7 miljoonaa tutkapistettä. Alustavan analyysin perusteella oli käynyt ilmeiseksi, että edes laajennettu kaksoispolarisaatiosuurejoukko ei ole riittävän laaja kaikkien haluttujen luokkien erottamiseksi toisistaan pelkästään mittauspisteen arvojen perusteella. Käytännössä kohteita luokitteleva meteorologi perustaa päätelmänsä sekä suureiden arvoihin että kohteen laajempaan muotoon ja tekstuuriin. Nämä tekijät sisällytettiin järjestelmään määrittelemällä joukko filttereitä, jotka antavat tietoa yksittäisen pisteen lähiympäristön tilastollisista ominaisuuksista kuten entropiasta tai yksityiskohtien tyypillisestä skaalasta. Näin johdettuja lisäsuureita käsiteltiin samoin kuin varsinaisia mittaussuureita, laajentaen mallinnetun datajoukon 58-dimensioiseksi. Jo projektin alussa oli tiedossa, että olemassa olevat monidimensioiset analyysimenetelmät eivät olleet erityisen sopivia vaadittua tehtävää varten, ja tämän vuoksi merkittävä osa projektista käytettiin uuden menetelmän kehittämiseen, toteuttamiseen ja testaukseen. Mene-
telmä pohjautuu ortogonaalipolynomeihin normalisoidussa koordinaatistossa ja sen matemaattisista yksityiskohdista on valmisteilla erillinen julkaisu. Projektin kannalta menetelmän oleellisia ominaisuuksia ovat suora parametrien määrittely (mallia luotaessa kukin datapiste käydään läpi vain kerran) ja mallien eksakti summautuvuus (summattu malli on invariantti datan jakamiselle mielivaltaisiin osajoukkoihin), käyttäjän määriteltävissä oleva mallinnustarkkuus, aidosti moniulotteinen malli sisältäen virhearvion, sekä nopeasti laskettavissa olevat pistekohtainen todennäköisyystiheys ja kahden mallin yhdenmukaisuustekijä. Teoreettisten tarkastelujen perusteella oli myös tiedossa, että mallin tarkkuus suhteessa vaadittujen parametrien määrään on heikompi voimakkaasti yksittäisten arvojen ympäristöön keskittyville jakaumille. Tällä oli merkitystä vain korrelaatiokertoimen ρ HV yhteydessä, mitattujen arvojen painottuessa useimmilla luokilla vaihteluvälin toiseen ääripäähän. Suureeseen kohdistettiin ennen mallintamista epälineaarinen muunnos, joka levitti mitatut arvot tasaisemmin vaihteluvälin alueelle, parantaen näin mallin tarkkuutta. Luokkakohtaiset mallit muodostettiin laskemalla yhteen kunkin luokan tapausten yksittäiset mallit. Näiden avulla etsittiin matalaulotteinen aliavaruus, joka minimoi mallien yhdenmukaisuustekijöiden neliösumman. 4. Tulokset ja pohdinta Kehitetty mallinnusmenetelmä toimi asetettujen vaatimusten mukaisesti. Koulutusdata voitiin käsitellä kokonaisuudessaan yhdessä päivässä tavallisella henkilökohtaisella tietokoneella. Valitun koulutusdatan koko oli noin 1.2 GB pakattua binääridataa. Mallinnusjoukon kooksi muodostui noin 800 MB pakkaamatonta ASCII-dataa, josta täydellisten luokkamallien osuus oli noin 26 MB. Optimaaliseen aliavaruuteen projisoidut luokittelumallit veivät yhteensä 133 kb. Mallijoukon kokoa voidaan jatkossa pudottaa vielä tästäkin murto-osaan ottamalla käyttöön parametri-optimointi, mikä kuitenkin tarvittavan työmäärän laajuuden vuoksi rajautui tämän projektin ulkopuolelle. Menetelmää kehittäessä hankittua tietotaitoa ja työkaluja voidaan jatkossa käyttää muihin, moniulotteisen datan analyysia vaativiin projekteihin. Mallinnusmenetelmä tuotti suoraan luokkien todennäköisyystiheysjakaumat määritellyssä suureavaruudessa. Näiden jakaumien yksi- ja kaksiulotteisia projektioita tarkastelemalla voitiin todeta sekä mallin että aliavaruusoptimoinnin toiminnan oikeellisuus. Tämän lisäksi yksiulotteisia projektioita verrattiin samasta datasta laskettuihin yksinkertaisiin frekvenssijakaumiin ja todettiin niiden olevan yhteneviä määritellyn tarkkuuden rajoissa. Nämä luokkakohtaiset jakaumat ovat projektin välittömimmin käyttökelpoinen päätulos, ja niiden yksityiskohtaisempia tarkasteluja tullaan lähiaikoina julkaisemaan erikseen. Luokittelun kannalta optimaaliset aliavaruudet olivat, yhdestä viiteen ulottuvuuteen, { O(W) }, { Φ DP, SQI }, { Φ DP, SQI, O(V) }, { Φ DP, SQI, V, O(V) } ja { Φ DP, SQI, V, O(V), R(dbT) }, missä O(X) merkitsee suureeseen X kohdistettua entropiafiltteriä ja R(X) kaistanpäästödifferenssifiltteriä. Tätä ylempiulotteisilla malleilla ei saavutettu merkittävää luokittelutarkkuuden parantumista geneerisen luokittelijan tapauksessa. Vastaavaan keskimääräiseen tarkkuuteen päästiin myös kaksi- tai kolmiulotteisilla malleilla määrittämällä kullekin luokalle oma optimaalinen aliavaruus. Tässä yksityiskohtaisemmassa analyysissä voitiin havaita selkeä kahtiajako meteorologisten ja ei-meteorologisten kohteiden välillä, ensimmäisten luokittelun pohjautuessa pääasiassa kokonaisheijastukseen ja sen johdannaisiin, ja jälkimmäisten luokittelun tukeutuessa ensisijaisesti signaalin laatuindeksiin.
Yksittäisten luokkaryhmien, kuten linnut tai hyönteiset, alaluokkia keskenään vertailemalla voitiin arvioida alajaon tarkkuus ja tarpeellisuus. Koulutustapausten perusteella esimerkiksi päivä- ja yöhyönteisten välinen ero ei ollut tunnistamisen kannalta merkittävä tekijä, maa- ja merihyönteisten välinen ero sen sijaan oli. Paitsi että nämä tarkastelut ovat mielenkiintoisia tieteellisessä mielessä, niiden avulla on myös mahdollista rakentaa tarpeen mukaan hyvin tarkkaan määritelty tuote. Mallinnusjärjestelmän komponenteista rakennettiin automaattisen luokittelijan prototyyppi, joka määrittää todennäköisimmän luokan yksittäisille tutkamittauksille. Toisin kuin suhteellisen raskas analysointivaihe, kokonaisen tutkakuvan luokittelu tapahtuu sekunnin murtoosissa, mahdollistaen reaaliaikaisen automaattisen luokittelun. Käytännössä operatiivinen luokittelija pitää räätälöidä asiakkaan tarpeiden mukaiseksi, ja projektin työkalujen modulaarinen toteutus sopii tähän erittäin hyvin. Suurin yksittäinen epävarmuustekijä on koulutustapausten luokittelun oikeellisuus. Tämä vaikutus todettiin minimaaliseksi vertaamalla kahden riippumattoman asiantuntijan luokittelua samalle aineistolle. Lisäksi itse mallinnusmenetelmää voitiin käyttää tarkastamaan luokan yhtenäisyys laskemalla yksittäisten tapausten väliset yhdenmukaisuustekijät, jotka todettiin korkeiksi. Tämä tulos osoittaa myös, että poimitut tapaukset muodostavat kattavan otoksen kustakin luokasta. 5. Loppupäätelmät Projekti saavutti kaikki sille asetetut tavoitteet ja osittain ylittikin ne, nostaen esiin uusia, mielenkiintoisia etenemissuuntia jatkotutkimuksille. Määriteltyjen luokkien tilastolliset ominaisuudet ovat sellaisenaan julkaisukelpoista materiaalia, ja muodostavat erinomaisen perustan sekä teoreettisille että käytännön tarkasteluille. Kehitetty mallinnusmenetelmä todettiin toimivaksi ja tehokkaaksi. Järjestelmän kyky suorittaa automaattista luokittelua todennettiin, ja projektissa kehitettyjen työkalujen avulla on varsin suoraviivaista rakentaa operatiivisia tuotteita tarkemmin määriteltyihin tarpeisiin. Menetelmää on jatkossa mahdollista vielä parantaa nykyisestä ottamalla käyttöön teknisiä ratkaisuja kuten yllä mainittu parametri-optimointi tai ketjutettu luokittelu. Tämän, välittömästi hyödynnettävien tieteellisten tulosten ja rakennettavissa olevien operatiivisten tuotteiden vuoksi aihepiiriin liittyvää tutkimus- ja kehitystoimintaa kannattaa ehdottomasti jatkaa. 6. Tutkimuksen tuottamat tieteelliset julkaisut ja muut mahdolliset raportit Kehitetystä menetelmästä ja tutkimuksen päätuloksista on valmisteilla julkaisuja. 7. Hankkeen seuraajan lausunto raportista Hankkeessa tutkittiin C-alueen tutkavälkkeen luokittelua Ilmatieteen laitoksen säätutkadatoja hyödyntäen. Ensinnäkin hankkeen aikana luotiin työkaluja tutkamaalien tyyppien ihmisavusteiseksi tunnistamiseksi. Tämä työvaihe on välttämätön luotettavan opetusaineiston saamiseksi luokitinta varten, ja onnistuu vain Ilmatieteen laitoksen asiantuntijoiden tekemänä. Kehitetyt työkalut parantavat suuren datamäärän käytettävyyttä myös muihin tutkimustarkoituksiin.
Varsinainen välke- ja maalityyppien luokittimen rakentaminen osoittautui sangen haastavaksi ongelmaksi. Ilmatieteen laitoksella kehitettiin erittäin innovatiivisia, täysin uusia, matemaattisia menetelmiä luokittimen eri toiminnallisuuksien toteuttamiseksi. Alustavat luokittelutulokset vaikuttavat hyvin lupaaville. Tutkimussuunnitelmassa asetetut tavoitteet saavutettiin kiitettävästi. Tulosten hyödynnettävyys varsinaisen luokittimen osalta sekä luokittelun lopputuotteen - reaaliaikainen tieto tutkamaalien tyypistä - osalta on erittäin hyvä. MATINE-hankkeen loppulaskutuksen edellytyksenä on loppuraportointi, joka koostuu tälle pohjalle laaditusta Tiivistelmäraportista sekä erillisestä vapaamuotoisesta Kustannusselvityksestä. (Tiivistelmäraportti korvaa aiemmin vaaditut Loppuraportin ja Tiivistelmän). Tiivistelmäraportti keskittyy hankkeen tieteellisiin aikaansaannoksiin tiedon käytettävyyttä ja sovellettavuutta korostaen. Tutkimustulosten osalta MATINE kannustaa avoimeen tieteelliseen kansainväliseen tai kansalliseen julkaisutapaan ja/tai muuhun aktiiviseen omatoimiseen julkaisemiseen (esim. tutkimuslaitoksen omissa sarjoissa); näissä julkaisuissa tulee MATINE mainita rahoittajana. Tiivistelmäraportin tulee olla itsenäinen esitys MATINEn rahoittaman tutkimushankkeen tavoitteista, sisällöstä, toteutuksesta ja tuloksista. Tiivistelmäraportti on pituudeltaan 6-10 sivua ja se julkaistaan sellaisenaan MATINEn verkkosivuilla. Tiivistelmäraportti kirjoitetaan Word-tiedostoon joko suomeksi tai englanniksi. Poikkeustapauksissa jolloin hankkeessa käsitellään tai hankkeessa on syntynyt maanpuolustuksellisista syistä salassa pidettävää tietoa, tulee tiivistelmäraportin laadinnassa rajoittua julkiselle tasolle. Kirjoita teksti harmaalle alueelle pohjaan tehdyn jaottelun mukaisesti otsakkeen alle (poista otsikosta tarpeeton engl. / suomenkielinen vaihtoehto). Fontti Verdana 10. Omia väliotsakkeita saa käyttää jäsentelyn tueksi. Käytä otsakkeissa ja tekstissä pohjan tyylejä. Kohtaan Tiivistelmä/Abstract on tarkoitus tehdä koko tutkimusta lyhyesti kuvaava teksti, jonka lukemalla saa käsityksen tutkimuksen sisällöstä. Tutkimuksen johtaja voi halutessaan pyytää asiantuntijalausunnon hanketta seuranneelta jaostolta tai hallinnonalan edustajalta hankkeen tulosten sovellettavuudesta ja relevanssista toimialalla. MATINEn sihteeristö pyytää MPKK:n kirjastosta julkaisulle sähköisen ISBN tunnuksen (PDF), jolloin tiivistelmäraporttiin voidaan viitata julkaisuna. Verkkojulkaisun ISSN numero on 1797-3457.