PLS-REGRESSIO KEMOMETRIAN KALIBROINTIONGELMASSA

Samankaltaiset tiedostot
Tilastollisen analyysin perusteet Luento 9: Moniulotteinen lineaarinen. regressio

Regressioanalyysi. Vilkkumaa / Kuusinen 1

Regressioanalyysi. Kuusinen/Heliövaara 1

Tilastollisen analyysin perusteet Luento 7: Lineaarinen regressio

Harjoitus 9: Excel - Tilastollinen analyysi

Mat Tilastollisen analyysin perusteet, kevät 2007

Yhtälöryhmä matriisimuodossa. MS-A0007 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Tilastollisen analyysin perusteet Luento 8: Lineaarinen regressio, testejä ja luottamusvälejä

Yhtälöryhmä matriisimuodossa. MS-A0004/A0006 Matriisilaskenta. Tarkastellaan esimerkkinä lineaarista yhtälöparia. 2x1 x 2 = 1 x 1 + x 2 = 5.

Inversio-ongelmien laskennallinen peruskurssi Luento 4

Yleistetyistä lineaarisista malleista

Tilastollinen vastepintamallinnus: kokeiden suunnittelu, regressiomallin analyysi, ja vasteen optimointi. Esimerkit laskettu JMP:llä

Aki Taanila YHDEN SELITTÄJÄN REGRESSIO

Dynaamiset regressiomallit

MS-A0204 Differentiaali- ja integraalilaskenta 2 (ELEC2) Luento 7: Pienimmän neliösumman menetelmä ja Newtonin menetelmä.

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Mat Tilastollisen analyysin perusteet, kevät 2007

Keskipisteen lisääminen 2 k -faktorikokeeseen (ks. Montgomery 9-6)

Moniulotteisia todennäköisyysjakaumia

Ratkaisuehdotukset LH 7 / vko 47

Numeeriset menetelmät TIEA381. Luento 8. Kirsi Valjus. Jyväskylän yliopisto. Luento 8 () Numeeriset menetelmät / 35

Inversio-ongelmien laskennallinen peruskurssi Luento 2

Ilkka Mellin Todennäköisyyslaskenta Osa 3: Todennäköisyysjakaumia Moniulotteisia todennäköisyysjakaumia

Vastepintamenetelmä. Kuusinen/Heliövaara 1

Sovellettu todennäköisyyslaskenta B

Kohdeyleisö: toisen vuoden teekkari

2. Teoriaharjoitukset

4.0.2 Kuinka hyvä ennuste on?

MS-A0003/A Matriisilaskenta Laskuharjoitus 6

Likimääräisratkaisut ja regularisaatio

3 Lineaariset yhtälöryhmät ja Gaussin eliminointimenetelmä

Vapaus. Määritelmä. jos c 1 v 1 + c 2 v c k v k = 0 joillakin c 1,..., c k R, niin c 1 = 0, c 2 = 0,..., c k = 0.

MS-C1340 Lineaarialgebra ja differentiaaliyhtälöt

Johdatus regressioanalyysiin. Heliövaara 1

Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia. Moniulotteisia todennäköisyysjakaumia: Mitä opimme?

Dynaamiset regressiomallit

Yhden selittäjän lineaarinen regressiomalli (jatkoa) Ensi viikolla ei pidetä luentoa eikä harjoituksia. Heliövaara 1

Inversio-ongelmien laskennallinen peruskurssi Luento 7 8

Johdatus todennäköisyyslaskentaan Moniulotteisia todennäköisyysjakaumia. TKK (c) Ilkka Mellin (2005) 1

MS-C1340 Lineaarialgebra ja

Lineaarialgebra ja matriisilaskenta II Syksy 2009 Laskuharjoitus 1 ( ) Ratkaisuehdotuksia Vesa Ala-Mattila

Otannasta ja mittaamisesta

Mittaustulosten tilastollinen käsittely

Laskennallinen data-analyysi II

Korrelaatiokertoinen määrittely 165

Diskriminanttianalyysi I

Lineaariset luokittelumallit: regressio ja erotteluanalyysi

Lineaarikombinaatio, lineaarinen riippuvuus/riippumattomuus

805306A Johdatus monimuuttujamenetelmiin, 5 op

Matriisi-vektori-kertolasku, lineaariset yhtälöryhmät

MS-A0004/A0006 Matriisilaskenta

Kokonaislukuoptiomointi Leikkaustasomenetelmät

Sovellettu todennäköisyyslaskenta B

Harjoitusten 5 vastaukset

MAIDON PROTEIININ MÄÄRÄN SELVITTÄMINEN (OSA 1)

Estimointi. Estimointi. Estimointi: Mitä opimme? 2/4. Estimointi: Mitä opimme? 1/4. Estimointi: Mitä opimme? 3/4. Estimointi: Mitä opimme?

Sovellettu todennäköisyyslaskenta B

Johdatus tilastotieteeseen Estimointi. TKK (c) Ilkka Mellin (2005) 1

Harha mallin arvioinnissa

Inversio-ongelmien laskennallinen peruskurssi Luento 3

Talousmatematiikan perusteet: Luento 10. Lineaarikuvaus Matriisin aste Determinantti Käänteismatriisi

2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio. 2.2 Gaussin eliminaatio

MS-A0207 Differentiaali- ja integraalilaskenta 2 (Chem) Yhteenveto, osa I

Testejä suhdeasteikollisille muuttujille

pitkittäisaineistoissa

1 Kannat ja kannanvaihto

Kanta ja Kannan-vaihto

805306A Johdatus monimuuttujamenetelmiin, 5 op

Identifiointiprosessi

Identifiointiprosessi

MS-A0003/A0005 Matriisilaskenta Laskuharjoitus 3 /

MS-C1340 Lineaarialgebra ja

Kannan vektorit siis virittävät aliavaruuden, ja lisäksi kanta on vapaa. Lauseesta 7.6 saadaan seuraava hyvin käyttökelpoinen tulos:

xi = yi = 586 Korrelaatiokerroin r: SS xy = x i y i ( x i ) ( y i )/n = SS xx = x 2 i ( x i ) 2 /n =

Tässä harjoituksessa käydään läpi R-ohjelman käyttöä esimerkkidatan avulla. eli matriisissa on 200 riviä (havainnot) ja 7 saraketta (mittaus-arvot)

1 Ominaisarvot ja ominaisvektorit

2.5. Matriisin avaruudet ja tunnusluvut

Laskennallinen data-analyysi II

Numeeriset menetelmät TIEA381. Luento 12. Kirsi Valjus. Jyväskylän yliopisto. Luento 12 () Numeeriset menetelmät / 33

Laskuharjoitus 9, tehtävä 6

Ei välttämättä, se voi olla esimerkiksi Reuleaux n kolmio:

Numeeriset menetelmät TIEA381. Luento 5. Kirsi Valjus. Jyväskylän yliopisto. Luento 5 () Numeeriset menetelmät / 28

Väliestimointi (jatkoa) Heliövaara 1

Vapaus. Määritelmä. Vektorijono ( v 1, v 2,..., v k ) on vapaa eli lineaarisesti riippumaton, jos seuraava ehto pätee:

Numeeriset menetelmät

Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt. Latinalaiset neliöt: Mitä opimme? Latinalaiset neliöt

Matematiikan tukikurssi

ABHELSINKI UNIVERSITY OF TECHNOLOGY

7 Vapaus. 7.1 Vapauden määritelmä

Ilkka Mellin Tilastolliset menetelmät. Osa 4: Lineaarinen regressioanalyysi. Yleinen lineaarinen malli. TKK (c) Ilkka Mellin (2007) 1

Sovellettu todennäköisyyslaskenta B

Vektoreiden virittämä aliavaruus

Ilkka Mellin Tilastolliset menetelmät Osa 2: Otokset, otosjakaumat ja estimointi Estimointi

Männyn laaturajojen integrointi runkokäyrän ennustamisessa. Laura Koskela Tampereen yliopisto

Johdatus lukuteoriaan Harjoitus 2 syksy 2008 Eemeli Blåsten. Ratkaisuehdotelma

5 Ominaisarvot ja ominaisvektorit

Epäyhtälöt ovat yksi matemaatikon voimakkaimmista

Liittomatriisi. Liittomatriisi. Määritelmä 16 Olkoon A 2 M(n, n). Matriisin A liittomatriisi on cof A 2 M(n, n), missä. 1) i+j det A ij.

Lineaarialgebra ja matriisilaskenta I, HY Kurssikoe Ratkaisuehdotus. 1. (35 pistettä)

Matriisit ja vektorit Matriisin käsite Matriisialgebra. Olkoon A = , B = Laske A + B, , 1 3 3

Transkriptio:

AB Mat-.08 Sovelletun matematiikan erikoistyöt PLS-REGRESSIO KEMOMETRIAN KALIBROINTIONGELMASSA Teppo-Heikki Saari, 58096R 9. helmikuuta 008 TEKNILLINEN KORKEAKOULU Teknillisen fysiikan ja matematiikan osasto Systeemianalyysin laboratorio

Sisältö Johdanto. Yhden muuttujan kalibrointi.................... Usean muuttujan kalibrointi................... 4.. Klassinen suora ja epäsuora kalibrointi......... 4.. Käänteinen kalibrointi.................. 5 Kalibrointimenetelmistä 7. Pääkomponenttianalyysi ja -regressio.............. 7.. Yleistä........................... 7.. Datan esikäsittely..................... 8.. Pääkomponenttien määrääminen............ 8..4 Pääkomponenttiregressio (PCR)............. 9..5 Pääkomponenttimenetelmän edut kalibroinnissa.... 0..6 Pääkomponenttimenetelmän haittoja........... Osittainen pienimmän neliösumman menetelmä (PLS)...... Yleistä............................. Datan esikäsittely....................... PLS-regressiomalli.................... 4..4 Osittaisen pienimmän neliösumman regressiomallin tulkinta.......................... 6..5 Geometrinen tulkinta................... 8..6 PLS-regressioalgoritmi.................. 8..7 Mallin validointi..................... 0..8 Puuttuvat havainnot.....................9 Osittaisen pienimmän neliösumman menetelmän haittoja ja etuja..........................0 PLS:n yhteydet muihin monimuuttujamenetelmiin... Sovellus bensiinin oktaaniluvun määritykseen 4. Data................................ 4. Tulokset.............................. 6

4 Pohdinnat 4 Kirjallisuutta 5

Luku Johdanto Kemometria on tieteenala, jonka tutkimuskohteena on tilastollisten ja matemaattisten metodien, sekä myös metodien, joiden pohjana on matemaattinen logiikka, soveltaminen kemiaan. [4] On myös väitetty, että oikeanlaisen analyyttisen kemian täytyisi sisältää myös kemometrinen lähestymistapa, ja että näin tekemällä saavutetaan huomattavia etuja. [] Kemometria on tieteenalana ollut vahvassa kasvussa kolmisenkymmentä vuotta, ja eräs sen tärkeimpiä ongelmia on kalibrointi. Kalibrointi viittaa prosessiin, jossa määritetään suhteet mittausinstrumentin ulostulojen/vasteiden ja konsentraatioiden välille. Kalibraatio yleisesti viittaa myös usein mittainstrumentin ulostulon tai indikaattorin säätämiseen siten, että indikaattori vastaa tiettyä mittastandardia tietyllä tarkkuudella. [0] Kalibrointia tarvitaan silloin kun työläs tai kallis mutta tarkka mittaus halutaan korvata halvalla ja nopealla mutta epäsuoralla tai vähemmän tarkalla mittauksella. [9] Kemometrisestä kalibroinnista voidaan erotella monenlaisia osa-alueita: kohinan vähentäminen mittauksissa, häiriötekijöiden käsittely, eksploratorinen datan käsittely sekä mahdollisten poikkeavien havaintojen minimointi. Lisäksi myös koesuunnittelulla on erittäin suuri painoarvo. [0, ] Tämän työn tarkoituksena on tarkastella kemometrian kalibrointiongelmaa sekä sen erilaisia ratkaisuja sovellettujen regressiomallien avulla. Ensimmäisessä kappaleessa tarkastellaan yksi- ja moniulotteista kemometrian kalibrointiongelmaa, toisessa kappaleessa tutustutaan tarkemmin yleisimpiin kalibrointimenetelmiin, kolmannessa kappaleessa sovelletaan pääkomponenttiregressiota sekä PLS-regressiota bensiinin oktaaniluvun määritykseen. Viimeisessä kappaleessa on hieman pohdintaa aiheeseen liittyen.

. Yhden muuttujan kalibrointi Kalibrointi voidaan suorittaa sekä yhdelle että monelle muuttujalle. Yhden muuttujan kalibroinnissa datasta valikoituu kaikkein käyttökelpoisin muuttuja, joka kuvaa datan vaihtelua parhaiten. Monissa kemiallisissa tutkimuksissa halutaan selvittää yhden tai useamman ainesosan konsentraatiot mittaamalla systeemin ominaisuuksia. Tässä voidaan käyttää hyväksi Beer-Lambertin lakia elektromagneettiselle säteilylle, joka antaa yhteyden absorboituneen säteilyn aallonpituuden ja konsentraation välille: I(λ) I 0 (λ) = e ɛ λcl (.) jossa I(λ) on valon intensiteetti aallonpituudella λ, joka läpäisee näytteen, jonka paksuus on l. I 0 (λ) on tulevan valon intensiteetti aallonpituudella λ, ɛ λ on moolinen häviämiskerroin (molar extinction coefficient), eli absoptiivisuus moolia kohden, ja c on aineen konsentraatio. Systeemin kalibrointi tapahtuu mittaamalla sarja näytteitä valon absorptiosta kun aineen konsentraatio on tunnettu: [ ] I0 (λ) log = α λ = ɛcl (.) I(λ) missä α on absorption määrä tietyllä aallonpituudella. [] Jos oletetaan, että mittausvirheet ovat odotusarvoltaan nolla ja korreloimattomia, voidaan mitattuihin arvoihin sovittaa lineaarinen funktio tavallisen pienimmän neliösumman menetelmän (OLS) avulla. Mallin osat ovat tällöin [6] ˆ Malli: y i = B + Ax i + e yi = E(y i ) + e yi (.) ˆ Estimaatti: ˆ Residuaali: ŷ i = ˆB + Âx i (.4) d yi = y i ŷ i = y i ˆB Âx i (.5) jossa E(y i ) on y i :n odotusarvo. Yleinen neliösummakriteeri ilmaistaan neliövirhesummana m m SSD = [(y i ŷ i )/σ i ] = (d yi /σ i ) (.6) i= jossa σ i on keskihajonta havaintopisteelle i ja m on kalibrointimittausten määrä. Tehtävänä on siis minimoida neliövirhesummaa.6. Kriteeri muuttuu mikäli jokin seuraavista ehdoista täyttyy: [6] i=

. Virheet esiintyvät vain mitatuissa arvoissa y: Aσ x σ y (.7) ja lisäksi jos virheet σ y ovat vakioita useissa kalibrointipisteissä (homoskedastisuus): σ y = σ y =... = σ yh = σ y (.8) tai ilmaistuna näiden estimaateilla, jolloin täytyy ottaa huomioon virheen tilastollinen riski α s y = s y =... = s yn = s y (.9) Mikäli virheet ovat homoskedastisia ja x:n virheet voidaan jättää huomiotta, saadaan pienimmän neliösumman minimoitavaksi kriteeriksi m SSD = d yi (.0) i=. Mikäli mittausvirheet σ y vaihtelevat (σ x edelleen pieni verrattuna mittausvirheisiin), täytyy olettaa heteroskedastisuus, ja minimoitava kriteeri on muotoa.6.. Yleisessä tapauksessa molemmat muuttujat sisältävät virhettä, ja tällöin yhtälö.7 ei päde, virhe on muotoa σ i = σ yi + A σ xi (.) jolloin summa d x+y täytyy minimoida ortogonaalisesti regressiosuoran suhteen, eikä koordinaattiakselin suuntaisesti. Yhtälön.7 mukaan virheet mittauksissa ovat häviävän pieniä ja konsentraatiot ovat täten todellisia. Tämän ehdon täyttyessä kalibrointifunktioksi tulee y = B x + A x x + e y (.) jonka parametrit A x ja B x saadaan estimoitua normaalisella pienimmän neliösumman algoritmilla homoskedastisessa tapauksessa:  x = Q xy /Q xx (.) ˆB x = ( y  x x ) /m (.4) Q xx = j Q yy = j Q xy = j (x j x) (.5) (y j ȳ) (.6) (x j x) (y j ȳ) (.7)

Korrelaatiokertoimella yllämainitussa regressiossa ei ole merkitystä, sillä arvot x eivät ole satunnaismuuttujia kalibroinnissa (x:n virhe on merkityksetön). Koska yhden muuttujan kalibrointi suoritetaan yhden muuttujan lineaarisella regressiolla, datan tarvitsee täyttää joitakin oletuksia, jotka ovat [] ˆ Selektiivisyys: yhden muuttujan kalibraatiomalli voi tarjota tarkkoja tuloksia vain silloin, kun mitattuun signaaliin ei vaikuta mikään muu lähde. Toisin sanoen vain tutkimuksen kohteena olevan analyytin tulisi vaikuttaa mittaustuloksiin. Yhden muuttujan signaalista on vaikea tarkistaa ovatko tulokset oikeita, ja tulosten oikeellisuus jää uskonvaraiseksi. ˆ Lineaarisuus: analyytin konsentraation ja signaalin välillä täytyy olla lineaarinen riippuvuus. Tämä on selvää kun käytetään lineaarisia menetelmiä.. Usean muuttujan kalibrointi.. Klassinen suora ja epäsuora kalibrointi Kun näytteessä on enemmän kuin yhtä ainetta, ongelma tulee vaikeammaksi sillä systeemissä useat eri aineet saattavat absorboida samalla aallonpituudella. Tietyllä aallonpituudella useiden eri aineiden seoksen absorptio kiinnitetyn matkan l yli voidaan tulkita yksittäisten ainesosien absorptioiden painotettuna summana, kun useaa absorboivaa ainesosaa mitataan m eri taajuudella: p y j (λ i ) = ɛ (λ i )c j l + ɛ(λ i )c j l +... + ɛ p (λ i )c pj l = ɛ k (λ i )c kj l (.8) k= jossa i on indeksi aallonpituuksille,..., m, j on indeksi näytteille,.., j ja komponenttien määrä, joka siis tulee määrittää ongelmassa, on p. Yhtälö.8 saadaan kirjoitettua matriisimuotoon: Y = XA (.9) jossa Y on n m-matriisi, joka sisältää riippuvat muuttujat absorptiot m eri aallonpituudella tai vasteet m eri sensorille; X on n p-matriisi, joka sisältää riippumattomat muuttujat konsentraatiot n eri ainesosalle; ja A on p m-matriisi, joka sisältää kalibrointikertoimet (nk. herkkyysmatriisi). 4

n on kalibrointistandardien lukumäärä (seokset), joka on sama kuin mittausten lukumäärä. [7] Klassista kalibrointia voidaan käyttää vain kun kaikki ainesosat, jotka vaikuttavat spekrin muotoon ovat tunnettuja. Lisäksi voimassa on rajoite, joka kieltää ainesosien reaktiot toisten ainesosien tai analyyttien välillä, sekä näiden vaikutukset (esim. lämpötilanmuutokset). Konsentraatioiden estimaatit saadaan pienimmän neliösumman menetelmällä: ˆX = YA +, missä A + on yleistetty Moore-Penrosen m p- pseudoinverssimatriisi A + = (A T A) A T (.0) Mikäli puhtaan ainesosan spektriä ei voida mitata suoraan, kalibraatiodata voidaan keskittää (ts. poistaa keskiarvot: y i ȳ, x i x). Vaikka puhtaan ainesosan spektriä ei voisikaan suoraa mitata, voidaan A-matriisi estimoida epäsuorasti spektristä olettaen että kaikki ainesosat analyytistä tunnetaan: Â = (X T X) X T Y (.) Tämän jälkeen analyyttisten arvojen estimointi toimii samalla tavalla pienimmän neliösumman estimaatteina: [7] ˆX = YÂ T (.) Kalibrointiongelman ratkaisemiseen on yhden komponentin tapauksessa käytetty tavallista lineaarista regressiota, joka toimiikin erittäin hyvin. Usean komponentin tapauksessa ongelmaksi muodostuvat kollineaarisuus, vierekkäisten aallonpituuksien korrelaatio ja mittausvirheet. [] Näiden tekijöiden välttämiseksi käytetään yleensä biasoituja regressiometodeja, joita yleisesti kutsutaan usean muuttujan kalibrointimenetelmiksi. Suoraa kalibrointia voidaan käyttää kun kalibrointikertoimet ovat tunnettuja, muutoin käytetään hyväksi epäsuoraa kalibrointia. Epäsuorassa kalibroinnissa kalibrointikertoimet lasketaan kokeellisesti määritettyjen spektrikonsentraatio-relaatioiden avulla... Käänteinen kalibrointi Kuten jo aiemmin on todettu, klassinen suora tai epäsuora kalibrointi tapahtuu pienimmän neliösumman menetelmällä. Analyyttiset arvot x oletetaan (mittaus)virheettömiksi, tai ainakin erittäin pieniksi verrattuna y:n virheisiin. Lisäksi systeemin kaikkien ainesosien täytyy olla tunnettuja ja mukana kalibroinnissa. Mikäli näitä ehtoja ei ole täytetty, joudutaan käyttämään käänteistä kalibrointia. [7] 5

Käänteisessä kalibroinnissa analyyttiset arvot x (konsentraatiot) regressoidaan mitatuille (spektrin) arvoille y. Vaikka pienimmän neliösumman virheettömysvaatimusta rikotaankin, sillä mittaukset y eivät ole virheettömiä, voidaan silti osoittaa Monte Carlo -simuloinneilla, että käänteisen kalibroinnin konsentraatio = f(mittaus) tuottamat ennusteet ovat tarkempia kuin klassisen kalibroinnin mittaus = f(konsentraatio) tuottamat ennusteet. [5] Tämä pätee erityisesti monen muuttujan kalibroinnissa. [7] Käänteistä kalibraatiomallia kutsutaan usein myös m n P-matriisimalliksi: X = YP. Matriisin P alkiot ovat kalibraatiokertoimia, jotka voidaan estimoida: ˆP = Y + X = (Y T Y) Y T X (.) Tuntematon näyte voidaan analysoida (ts. selvittää konsentraatiot) sen mitatusta spektristä y: ˆx = yˆp (.4) On epäedullista, että kalibraatiokertoimet, eli matriisin P alkiot, eivät omaa minkäänlaista fysikaalista merkitystä sillä ne eivät heijasta yksittäisen ainesosan spektriä. Lisäksi voi esiintyä multikollineaarisuuksia jotka tekevät matriisin Y kääntämisestä vaikeaa. Toisaalta käytettäessä latenttimuuttujia alkuperäisten muuttujien tilalla, voidaan käyttää pehmeitä mallinnusmetodeja, jotka perustuvat käänteiseen kalibrointiin jossa analyyttiset arvot regressoidaan spektraalidatalle: X = YB (.5) jossa B on kalibrointikertoimien m n-matriisi. Toisin kuten P-matriisin kanssa, kaikkia spektrin Y dimensioita ei käytetä, vaan ainoastaan ne, jotka on havaittu tärkeiksi tiettyjen pääkomponenttien suhteen. Tällöin B- matriisin kertoimien estimointi voidaan suorittaa pääkomponenttiregression (PCR) tai osittaisen pienimmän neliösumman regression (PLS) avulla. 6

Luku Kalibrointimenetelmistä. Pääkomponenttianalyysi ja -regressio Pääkomponenttiregressio (PCR) on kaksiosainen menetelmä spektroskooppidatan kalibrointiongelman ratkaisemiseksi. Ensimmäisessä osassa datalle suoritetaan pääkomponenttianalyysi (PCA). Mitatut muuttujat, esim. spektrin absorptiot eri aallonpituuksilla, muunnetaan uusiksi muuttujiksi, esim. latenttimuuttujien pääkomponenttipisteiksi. Tätä vaihetta seuraa monen muuttujan lineaarinen regressiovaihe (MLR), jossa PCA:n tuottamat pääkomponenttipisteet liitetään yhteen analyyttisten arvojen (konsentraatioiden) kanssa lineaarisella mallilla... Yleistä Pääkomponenttianalyysi kuuluu dimensionvähennystekniikoihin, ja menetelmän tarkoituksena on löytää havaitusta datasta pienempi määrä ilmiön takana piileviä oikeita satunnaismuuttujia, jotka selittävät havaitut tulokset (niiden varianssin) mahdollisimman hyvin perustuen datan kovarianssitai korrelaatiomatriisiin. Pääkomponenttianalyysi suorittaa koordinaattiakselien ortogonaalisen kierron siten, että havaintopisteiden varianssi on mahdollisimman suuri ensimmäisen akselin suhteen, ja jäännösvarianssi on aina suurin mahdollinen seuraavan seuraavan koordinaattiakselin suhteen. Uudet muuttujat ovat täysin korreloimattomia, ja kukin uusi koordinaattiakseli on lineaarikombinaatio alkuperäisistä muuttujista. 7

.. Datan esikäsittely Ennen pääkomponenttien etsimistä dataa yleensä esikäsitellään. Tämä tarkoittaa datan nollakeskiarvoistamista poistamalla siitä keskiarvo. Eräs yleisimmistä metodeista on tehdä datasta sarakekeskeistä, eli vähentää jokaisesta alkiosta kyseisen sarakkeen keskiarvo, joka vastaa siis kyseistä spektrin aallonpituutta. Tämä on yleinen menettely kun kalibrointitehtävä liittyy spektroskoopilla saatuihin arvoihin, ja se on kyseisessä tapauksessa yleensä myöskin ainoa tarvittava. [5] Toinen tapa esikäsitellä dataa on suorittaa autoskaalaus, jossa sarakekeskistyksen lisäksi jokainen alkio jaetaan vastaavan sarakkeen keskihajonnalla, jolloin sarakkeiden varianssiksi tulee. Tämäntyyppistä skaalausta voidaan käyttää kun tutkitaan muuttujien suhteellista tärkeyttä, mutta sitä ei suositella yleisesti käytettäväksi, sillä se lisää kohinan määrää tietyillä alueilla... Pääkomponenttien määrääminen Pääkomponentit voidaan ratkaista singulaariarvohajotelmalla (SVD), ominaisarvohajotelmalla (EVD) tai tähän tarkoitukseen käytettävillä sekventiaalisilla algoritmeilla kuten NIPALS tai POWER. Tarkastelkaamme tässä ominaisarvohajotelmaa. Olkoon x = (x, x,..., x p ) satunnaisvektori, jolle pätee E(x) = 0 ja Cov(x) = Σ. Kovarianssimatriisi Σ on ei-negatiivisesti definiitti: Σ 0. Nollaodotusarvo ei ole rajoittava, sillä aina voidaan määritellä satunnaisvektori, jonka odotusarvo on nolla ts. datasta vähennetään keskiarvo. Tehtävänä on etsiä edellä määritellyn satunnaisvektorin x alkioiden lineaarikombinaatio β T x = p i= β i x i, jonka varianssi on suurin mahdollinen. Varianssi D (β T x) toteuttaa tällöin normeerausehdon β T x = β T β =. Voidaan osoittaa, että max D (β T x) = β β T T Σβ = λ (.) β= jossa λ on kovarianssimatriisin Σ suurin ominaisarvo ja β kovarianssimatriisin Σ suurinta ominaisarvoa vastaava ominaisvektori. Yhtälö. pätee myös seuraaville pääkomponenteille, mutta tällöin yhtälölle täytyy asettaa lisärajoitusehto, jossa jokainen seuraava ominaisvektori on kohtisuorassa edellisiä vektoreita vastaan. Itse pääkomponenttivektoria merkitään y = β T x. Pääkomponenttianalyysin tulokset esitetään yleensä p r pääkomponenttimatriisissa: F r = [ λ β λ β... ] λ r β r = B r Λ / r, jota kutsutaan yleisesti myös latausmatriisiksi. Pääkomponenttipisteet 8

saadaan kertomalla havaintovektoreita x pääkomponentteja vastaavilla ominaisvektoreilla: y j = ˆB T r x j, jossa ˆB r on kovarianssimatriisin ˆΣ r suurinta ominaisarvoa vastaavien ominaisvektoreiden muodostama p r-matriisi...4 Pääkomponenttiregressio (PCR) Pääkomponenttiregressio on käänteinen kalibrointimenetelmä, ja kalibrointi suoritetaankin luvussa.. kerrotulla tavalla. Pääkomponenttianalyysi antaa uudet latenttimuuttujat X:n singulaariarvohajotelmalla: X = UΛP T = TP T (.) jossa X on riippumattomien muuttujien eli konsentraatioiden n p- matriisi, jonka sarakkeet ovat konsentraatioita eri aallonpituuksilla. U on painottamattomien (normalisoitujen) pääkomponenttipisteiden n p- matriisi ja T (kokoa n p) sisältää painotetut (normalisoimattomat) pääkomponenttipisteet. Nämä matriisit edustavat mittauksia uudessa latenttimuuttujien muodostamassa koordinaatistossa. Pääkomponenttipistematriisilla on seuraavat ominaisuudet: []. Rivien lukumäärä on yhtä suuri kuin alkuperäisessä datamatriisissa, joka on yleensä näytteiden lukumäärä.. Sarakkeiden lukumäärä on yhtä suuri kuin merkitsevien tekijöiden lukumäärä datassa, ja se voi olla mikä tahansa ykköstä suurempi kokonaisluku. Ideaalitapauksessa sarakkeiden lukumäärä on alkuperäisen datajoukon ainesosien lukumäärä, mutta kohina ja spektrin samankaltaisuus yhdessä vääristävät lukumäärää. Jokainen sarake vastaa pääkomponenttia.. Jokaisen sarakkeen alkion neliöiden summa liittyy matriisin ominaisarvoon. Mitä suurempi ominaisarvo, sitä suurempi merkitys on pääkomponentilla. Pääkomponentit ratkaistaan tärkeysjärjestyksessä. P on p p-latausmatriisi, jonka sarakkeet sisältävät pääkomponentit. Matriisin P alkiot ovat alkuperäisten muuttujien ja ominaisvektorien välisiä latauksia (painokertoimia). Λ on p p-diagonaalimatriisi, joka sisältää singulaariarvot λ i, jotka ovat kovarianssimatriisin (X T 0 X 0 ) ominaisarvojen neliöjuuria. Edellä matriisi X 0 on esikäsitelty keskistämällä alkuperäisestä datamatriisista X. [5] Latausmatriisilla on seuraavat ominaisuudet: 9

. Sarakkeiden lukumäärä on yhtä suuri kuin alkuperäisen datamatriisin sarakkeiden lukumäärä, joka on yleensä aallonpituuksien tai havaitsijoiden lukumäärä.. Rivien lukumäärä on yhtä suuri kuin merkitsevien tekijöiden lukumäärä datassa. Jokainen rivi vastaa pääkomponenttia.. Jokaisen sarakkeen alkioiden neliösumma on. HUOM! Matemaattisesti menetelmän johtamisessa tehdään useasti oletus, että n p. Koska spektroskopiassa yleensä mittauksia on vähemmän kuin aallonpituuksia eli n < p, joudutaan yhtälön. dimensioita muuttamaan siten, että size(x) = n p, size(u) = (n ) (n ), size(λ) = (n ) (n ), size(p) = p (n ) ja size(t) = n (n ). Edellä operaattori size() kuvaa matriisin/vektorin kokoa. Tämä johtuu datasta, sillä siitä on mahdollista saada vain n pääkomponenttia kun n < p. [5] Kun PCA on suoritettu, muodostetaan lineaarinen malli Y = Tb + e (.) jolla on ratkaisu ˆb = ( T T T ) T T Y (.4) Uudelle näytteelle saadaan ennusteteina pääkomponenttipisteet (konsentraatiot) käyttämällä kalibrointidatasta saatuja kertoimia ˆx = yˆb (.5) jossa size(x) = (n ), size(y) = p ja size(ˆb) = p (n ). [5]..5 Pääkomponenttimenetelmän edut kalibroinnissa Eräs usean muuttujan kalibroinnissa saavutettava etu on kohinan vähentyminen. Tällöin käytetään yleensä pääkomponenttianalyysia tai vastaavaa korrelaatio-/kovarianssimatriisia hyväksikäyttävää menetelmää, mikä paljastaa datasta suurimman pääkomponentin, eli latenttimuuttujan, joka selittää suurimman osan datan vaihtelusta. Lisäksi data on ortogonaalista, jolloin matriisien kääntäminen ei enää tuota vaikeuksia. Pääkomponenttianalyysia käytettäessä kalibraatiomalli jakautuu tällöin kolmeen osaan: [] ˆ lataukset kertovat yleisesti kaikkien mittausten muodon 0

ˆ pääkomponenttipisteet ovat näytekohtaista informaatiota ˆ residuaalit ovat se osa mittauksista joka eroaa yleisestä muodosta Ideaalitapauksessa residuaalit ovat mittauskohinaa. Mallia kutsutaan myös yksikomponenttiseksi, sillä pääkomponenttipistevektoria kohti on vain yksi latausvektori. Malli, eli lataukset ja pääkomponenttipisteet, määritellään painotettuna keskiarvona kaikkien alkuperäisten muuttujien yli. Painot on annettu latausvektorissa, joka kuvaa minkälaista informaatiota näytteet sisältävät. Pääkomponenttipisteitä hyväksikäyttäviä kalibraatiomalleja kutsutaan pääkomponenttiregressiomalleiksi. [] Ennustettaessa uuden näytteen haluttujen analyyttien konsentraatioita näytteestä mitataan sekoiteprofiili (spektri). Kalibrointivaiheessa saaduista latausvektoreista voidaan laskea uuden näytteen lataukset ja pääkomponenttipisteet. Nämä syötetään sen jälkeen regressioyhtälöön ja näin ollaan saatu konsentraatioiden estimaatit. Pääkomponenttiregression tuottama data on hyväksikäytettävissä myös muilla tavoin kuin pelkästään konsentraatioiden estimoinnissa. [] Esimerkiksi latauksia tutkimalla voidaan selvittää mikäli jotkin mitatut muuttujat eivät käyttäydy osotetulla tavalla, esimerkiksi tilanteessa, jossa sensori on vioittunut. Äärimmäinen pääkomponenttipisteen arvo viittaa äärimmäiseen näytteeseen, mahdollisesti poikkeavaan havaintoon. Pääkomponenttipisteistä saadaan selville myös mallin toimivuus, ja tiedolla voidaan myös yrittää parantaa mallia. Lisäksi voidaan tutkia eri mittausten eroavaisuuksia, esimerkiksi pistediagrammien avulla. Kaikki nämä ja muut visualisointikeinot auttavat ymmärtämään miksi malli toimii tai miksi se ei toimi...6 Pääkomponenttimenetelmän haittoja PCR on metodi, jotka perustuu pienimmän neliösumman menetelmään ja tästä syystä se on herkkä poikkeaville havainnoille. Poikkeavia havaintoja on monenlaisia, mallin poikkeavia havaintoja, X:n ja y:n poikkeavia havaintoja sekä näiden kombinaatioita. Ennen mallin luontia ei voida tietää mitkä havainnot ovat mallin suhteen poikkeavia, mutta X:n ja y:n suhteen näitä voidaan tarkastella. X:n suhteen poikkeavien havaintojen etsimiseen voidaan käyttää esimerkiksi Grubbsin tai Dixonin testejä. [5]

. Osittainen pienimmän neliösumman menetelmä (PLS).. Yleistä PLS-regressio on usean muuttujan lineaarisen regression (MLR) yleistys, joka kykenee, toisin kuten MLR, analysoimaan voimakkaasti kollineaarista ja kohinaista dataa sekä useita X- ja Y-muuttujia sisältäviä malleja. [] PLS on painotettu regressiometodi, jota käytetään tiivistämään prediktorien (n kpl) datamatriisi X = [x, x,..., x p ] A kappaleen latenttimuuttujajoukoksi tai faktoripisteiksi, jossa A p. Kalibrointiongelmassa PLS pyrkii siis ennustamaan vastemuuttujat Y prediktorien X avulla. Painotettujen regressiomenetelmien etuja on että ne eivät edellytä aallonpituuksien valintaa ennen kalibrointiregressiovektorin määritystä. Tällöin menetelmät sallivat käyttää enemmän aallonpituuksia kuin näytteitä on, ja ne tarjoavat edun signaalin keskiarvoistuksen muodossa, joka vähentää virheitä mitatuissa vasteissa. [0] Monesti puhutaan PLS:stä sekä PLS:sta. Tämä tarkoittaa vain vastemuuttujan Y kokoa. PLS:n tapauksessa Y on vektori, PLS taas tarkoittaa, että kalibroitavana on useampia vastemuuttujia, ja Y on matriisi. Algoritmi toimii edelleen kuitenkin samalla tavalla molemmissa tapauksissa. Seuraavissa PLS:ää käsittelevissä kappaleissa käytän seuraavanlaista notaatiota:

a A i N k m X Y b m B c a C E F p a P R r a R Q t a T u a U w a W komponenttien indeksi (mallin dimensiot), a =,,..., A mallin komponenttien kokonaislukumäärä havaintojen/tapausten indeksi, i =,,..., N havaintojen lukumäärä X-muuttujien indeksi, k =,,..., K Y-muuttujien indeksi, m =,,..., M prediktorimuuttujien N K-matriisi vastemuuttujien N M-matriisi Y:n m:s K -regressiokerroinvektrori kaikkien Y:den K M-regressiokerroinmatriisi komponentin a PLSR Y-painot Y-painojen M A-matriisi, c a ovat tämän sarakkeet X-residuaalien N K-matriisi Y-residuaalien N M-matriiisi komponentin a PLSR X-lataukset K A-latausmatriisi, p a ovat tämän sarakkeet korrelaatiokerroin eli selitysaste, kuinka paljon Y -muuttujien vaihtelua on selitetty PLSR-painot jotka on muunnettu komponenteista riippumattomiksi muunnettujen painojen K A-matriisi, jonka sarakkeet ovat r a ristivalidoitu R, kuinka hyvin Y-muuttujia on ennustettu komponentin a X-komponenttipisteet N A-komponenttipistematriisi, jonka sarakkeet ovat t a komponentin a Y-komponenttipisteet N A-komponenttipistematriisi, jonka sarakkeet ovat u a komponentin a PLSR X-painot X-painojen K A-matriisi, jonka sarakkeet ovat w a.. Datan esikäsittely Ennen analyysiä X- ja Y-muuttujat usein ajetaan muunnoksen läpi, jotta niiden jakaumista tulisi symmetrisempiä. Muuttujat, joiden vaihtelu on useita dekadeja muunnetaan usein logaritmisesti. Projektiometodien, kuten PLSR, tulokset riippuvat datan skaalauksesta. Standardi menettelytapa on ollut (i) skaalata jokaisen muuttujan varianssi ykkösen suuruiseksi jakamalla jokainen muuttuja keskihajonnallaan, sekä (ii) keskittää muuttujat vähentämällä niistä keskiarvonsa. Tämä vastaa jokaiselle muuttujalle saman painon antamista (prioritärkeys). []

.. PLS-regressiomalli PLS etsii annetusta datasta pienemmän määrän uusia muuttujia t a, a =,,...,A. Sekä X että Y oletetaan ainakin osittain olevan mallinnettu samoilla latenttimuuttujilla. Muuttujien t a oletetaan olevan ortogonaalisia. Ne estimoidaan alkuperäisten muuttujien x k lineaarikombinaatioina, joiden painokertoimet ovat r ka, a =,,...,A t ia = k r ka X ik (.6) joka voidaan esittää matriisimuodossa T = XR (.7) PLS-regression kaksi pääyhtälöä ovat matriisien X ja Y latenttimuuttujien avulla ilmaistut hajotelmat: X ik = a t ia p ak + e ik, (.8) ja y im = a c ma t ia + f im, (.9) jotka ovat matriisimuodossa ilmaistuna sekä X = TP T + E (.0) Y = TC T + F (.) Oheisissa yhtälöissä matriisit P ja C ovat latausmatriiseja. Vastemuuttujamatriisille Y on olemassa vielä oma relaationsa, jonka avulla se voidaan hajoittaa Y-latausmatriisin C avulla: y im = a u ia c am + g im, (.) joka on matriisimuodossa Y = UC T + G (.) Ottamalla huomioon yhtälö.6, saadaan yhtälö.9 näyttämään regressiomallilta: y im c ma r ka x ik + f im = b mk x ik + f im (.4) a k k 4

joka voidaan esittää matriisimuodossa Y = XRC T + F = XB + F (.5) PLS-regression regressiokertoimet b mk voidaan kirjoittaa b mk = a c ma r ka (.6) matriisimuodossa B = RC T (.7) Yhtälössä. u ia on Y-matriisin PLS-komponenttipisteet ja c am (monesti merkitään myös q:lla) Y-matriisin lataukset. Vastaavasti yhtälössä.8 p ak on X-matriisin lataukset ja t ia X-matriisin PLS-komponenttipisteet. Lataukset tässäkin pyrkivät selittämään selittävän muuttujan variaatioita. X- komponentit pyrkivät selittämään variaatioita eri aallonpituuksien välillä. Yhtälössä.7 esiintyy muunnettujen X-painojen matriisi R. Alempana määritelty PLS-algoritmi laskee ainoastaan painot W. Muunnetut painot saadaan alkuperäisistä seuraavasti: R = W(P T W) (.8) Kun kertoimet B on määritetty, on mahdollista estimoida uuden näytteen konsentraatiot, kun näytteelle on mitattu spektri x (vaakavektori): ŷ = xb (.9) Regressiokertoimet B tulkitaan usein virheellisesti Y:ssä ilmaistujen ainesosien spektriprofiiliksi. Kertoimet B ovat kuitenkin Y-matriisiin liittyvät regressiokertoimet, eivätkä ne liity matriisiin X. Suora PLS PLS-malli on mahdollista järjestää uudelleen niin, että malli ennustaakin Y:tä X:n sijaan. [8] Yhtälö.5 voidaan uudelleenjärjestää: Y F = XB (.0) ja kertomalla molemmat puolet (B T B) B T :llä, saadaan (Y F)(B T B) B T = XB(B T B) B T (.) Korvaamalla XB(B T B) B T = X E, saadaan (Y F)(B T B) B T = X E (.) 5

ja kun määritellään K T = (B T B) B T sekä Ŷ = (Y F), saadaan josta lopulta siirtelemällä termejä saadaan ŶK T = X E (.) X = ŶKT + E (.4) Tästä nähdään, että epäsuorat kalibrointimenetelmät, kuten PLS, kykenevät ennustamaan myös puhtaiden ainesosien spektriprofiileja suoran kalibroinnin tavoin...4 Osittaisen pienimmän neliösumman regressiomallin tulkinta Eräs PLS-regression tulkinta on, että se muodostaa uudet x-muuttujat t a vanhojen x:ien lineaarikombinaationa, ja tämän jälkeen malli käyttää näitä uusia muuttujia ennustamaan Y:tä. Uusia muuttujia muodostetaan vain sellainen määrä, joka on ennustamisessa merkitsevä. Kaikki mallin osat, t, u, w (ja r), p ja c määrittyvät allakuvatun algoritmin perusteella. PLS-regressiomallin tulkinnan kannalta tärkeät muuttujat ovat PLS-komponenttipisteet t ja u, jotka sisältävät informaatiota annetun ongelman ja mallin suhteen. Painot w a (tai r a ) sekä c a kuvaavat kuinka muuttujat muodostavat kvantitatiivisen relaation X:n ja Y:n välille. Suuret painokertoimien arvot kertovat mitkä X-muuttujat ovat tärkeitä, sekä mitkä X-muuttujat sisältävät samaa informaatiota (samanlaiset kertoimet). [] Residuaalit ovat datan se osa, jota malli ei selitä, ja siksi ne ovatkin tärkeitä tutkimuskohteita. Suuret Y-residuaalit viittaavat siihen, että malli on huono, ja normaalipaperikuvat ovat hyvä keino selvittää poikkeavien havaintojen olemassaolo T:n ja Y:n välillä. X:n residuaaleja ei käytetä hyväksi Y:n mallintamisessa, vaikka X-residuaaleista saakin selville poikkeavat havainnot X-avaruudessa, eli molekyylit joiden rakenne ei sovi malliin sekä prosessin osat jotka eroavat normaaleista prosessioperaatioista. PLS-regressiomallin tulkintaan on olemassa muutamia ohjeita: [] ˆ Hanki hyvä tuntemus käsiteltävästä ongelmasta etenkin mitkä vastemuuttujat Y ovat tarkasteltavana mittauksissa ja mallissa, sekä mitä prediktoreja X tulisi mitata ja varioida. Mikäli X-muuttujien koeolosuhteita voidaan muuttaa, on hyvä käyttää hyväksi koesuunnittelua X-matriisin konstruoinnissa. ˆ Hanki hyvää dataa niin prediktoreista kuin vasteista. Monen muuttujat Y:t tarjoavat huomattavasti enemmän informaatiota, sillä ne voidaan 6

kaikki analysoida erikseen pääkomponenttianalyysillä. Tämä antaa kuvan systemaattisesta variaatiosta Y:n sisällä, mitkä Y-muuttujat tulisi analysoida yhdessä jne. ˆ Ensimmäinen tieto mallista on sen asteluku A, ts. kuinka monta merkitsevää komponenttia mallissa on. Komponenttien lukumäärä antaa alarajan sille lukumäärälle vaikutuksia, jotka aiheuttavat muutoksia tarkasteltavassa systeemissä. Latenttimuuttujien käsitteen voidaan nähdä olevan yhtäläinen em. vaikutusten kanssa. ˆ Mallin sovitteen hyvyys saadaan selitysasteesta R sekä Q (ristivalidoitu R ). Usean Y-muuttujan tapauksessa on mahdollista määrittää R m ja Q m jokaiselle y m. Selitysasteet R antavat ylärajan sille kuinka hyvin malli selittää dataa ja ennustaa uusia havaintoja, Q antaa vastaavan alarajan. ˆ (u, t)-kuvaajat mallin ensimmäisen kahden tai kolmen dimension suhteen paljastavat datan kaarevuuden, ryhmät sekä poikkeavat havainnot. ˆ (t, t)-kuvaajista on mahdollista nähdä datan homogeenisuudet, ryhmät ja muut ilmiöt. (r, c)-kuvaajat antavat näistä löytyville ilmiöille tulkinnan. ˆ Etenkin spektroskopiassa käytetty datan visualisointitapa on piirtää lataukset p a aallonpituuden funktiona, jolloin saadaan jokaisen komponentin spektri esiin. Latauksia käytetään alkuperäisten muuttujien ja PLS-komponenttipisteiden välisen suhteen tulkinnassa. ˆ Latauksia erikseen tarkasteltaessa positiiviset piikit kuvaajassa aiheutuvat yleensä tarkasteltavan komponentin spektripiikeistä, kun taas negatiiviset piikit vastaavat häiriökomponentteja. [] ˆ Jos esiintyy ongelmia, ts. pieniä R :n tai Q :n arvoja, poikkeavia havaintoja, ryhmiä tai kaarevuuksia PLS-komponenttipisteiden kuvaajissa, ongelma kannattaa yrittää korjata. Residuaalien kuvaajista (normaalipaperikuvat, DModX, DModY) saattaa löytyä lisäinformaatiota ongelman aiheuttajasta. Yksittäiset poikkeavat havainnot tulee tarkastaa datan paikkansapitävyyden varmistamiseksi, ja jos tämä ei auta, poistaa analyysistä (kuitenkin vain jos ne eivät ole kiinnostavia). (u, t)-kuvaajan kaarevuutta voidaan korjata muuntamalla data esim. logaritmisesti tai lisäämällä malliin neliöllisiä tai kuutiollisia termejä. 7