6.5.20088 Rautalankamalleja sekvenssihakuihin STN:ssä VTT, Tietoratkaisut, Riitta Housh 1. Sekvenssitietokannat...2 2. BLAST...3 2.1 REGISTRY/(H)CAplus...3 2.2 DGENE, PCTGEN ja USGENE...4 2.3 Päällekkäisten viitteiden poisto multifile-blast-haussa...5 3. GETSIM (=FASTA)...6 4. Sequence Code Match (SCM) = GETSEQ...7 4.1 REGISTRY/(H)CAplus (S./SQ..)...7 4.2 DGENE, PCTGEN ja USGENE (RUN GETSEQ)...8 4.3 Päällekkäisten viitteiden poisto multifile-sequence Code Match-haussa...8 Tässä on esitetty vain rautalankamalleja ilman hakuesimerkkejä. Katso esimerkkejä ja lisätietoja sekvenssihauista netistä http://www.stn-international.de/training_center/mat_sea_stn.html#bioseq STN International http://www.fiz-karlsruhe.de/stn.html VTT http://www.vtt.fi/palvelut/all/all_1/stn.jsp c/o FIZ Karlsruhe Tietoratkaisut, Vuorimiehentie 5, Espoo P.O. Box 2465 PL 1000, 02044 VTT D-76012 Karlsruhe Riitta Housh Puh. 020 722 4381 Germany Riitta Metsäkoivu Puh. 020 722 4372 Telephone: +49 7247 808 555 Telefax: +49 7247 808 259 Faksi: 020 722 4374 Email: hlpdeskk@fiz-karlsruhe.de Email: etunimi.sukunimi@vtt.fi
1. Sekvenssitietokannat Registry/(H)CAplus Sekvenssit 52 patenttivirastosta + muusta kirjallisuudesta. 60 milj. sekvenssiä.viive 3 4 viikkoa. Sekvenssit Registryssä, julkaisujen tiedot (H)CAplussassa. BLAST (25 euroa) Sequence Code Match, SCM ( Exact 6 euroa, Subsequence 25 euroa) Osumasekvenssin tulostus: Registry SQIDE 4 euroa/kpl, (H)CAplus HITSEQ 4 euroa/kpl. Sekvenssivertailu BLAST-haun jälkeen saadusta BLAST-raportista (osumasekvenssien CASnumerot, nimet ja vertailu haettuun sekvenssiin). Saadaan mukaan STN Expressin raporttiin Results/BLAST Report with Alignment Data, jos se tallennetaan erikseen. Vertailua ei saada näkyviin CA-viitteisiin online. DGENE Sekvenssit 42 patenttivirastosta. 10 milj. sekvenssiä.viive noin 3 kk. Vain Basic-julkaisun sisältämät sekvenssit. Jokaisella sekvenssillä on oma viite, joten sekvenssihaku antaa useita viitteitä samasta julkaisusta. Kaikki julkaisun (perheen) osumasekvenssit voidaan koota yhteen FSORTilla. FSORT järjestää vain haussa löytyneen joukon, eikä tuo mukaan julkaisun muita sekvenssejä. Viitteet voidaan tulostaa myös WPINDEXissä, jolloin saadaan patenttiperheen tiedot, mutta silloin ei saada mukaan sekvenssivertailua eikä osumasekvenssin tietoja. BLAST ja GETSIM (FASTA) kumpikin 22 euroa tai 8 + 27 euroa GETSEQ (Sequence Code Match SCM) 16 euroa. Osumasekvenssin tulostus: SEQ ja SQIDE (myös identifiointitiedot) 6 euroa. Sekvenssivertailu: ALIGN (maksuton). Ei kuulu ALL-formaattiin! PCTGEN Sekvenssit PCT-hakemuksista. 5 milj. sekvenssiä. Viive 1 pv. Uusimmat vain täältä. Jokaisella sekvenssillä on oma viite, joten sekvenssihaku antaa useita viitteitä samasta julkaisusta. Kaikki julkaisun (perheen) osumasekvenssit voidaan koota yhteen FSORTilla. BLAST ja GETSIM (FASTA) kumpikin 12 tai 4 + 13 euroa GETSEQ (Sequence Code Match SCM) 9 euroa Osumasekvenssin tulostus: SEQ ja SQIDE (myös identifiointitiedot) 1,3 euro/kpl Sekvenssivertailu: ALIGN (maksuton). USGENE Sekvenssit US-hakemuksista ja myönnetyistä patenteista. Viive 3 pv. Uusimmat vain täältä. Patenttiperheestä voi olla useita julkaisuja ja jokaisella sekvenssillä on oma viite, joten sekvenssihaku antaa useita viitteitä samasta patenttiperheestä ja samasta julkaisusta. Kaikki julkaisun (perheen) osumasekvenssit voidaan koota yhteen FSORTilla. BLAST- ja FASTA (GETSIM)-haut (kumpikin 16 tai 5 + 18 euroa)-haut Sequence Code Match SCM (GETSEQ) (16 euroa). Sekvenssivertailu saadaan maksutta viitteen yhteyteen ( ALIGN). Osumasekvenssin tulostus: SEQ ja SQIDE (myös identifiointitiedot) 3 euroa/kpl Sekvenssivertailu: ALIGN (maksuton). 2
2. BLAST Registry haetaan STN Expressin CAS Registry BLAST kautta. Muut tietokannat komennolla RUN BLAST. 2.1 REGISTRY/(H)CAplus Tee BLAST-haku Registrystä Valitse Similar sequences Hae sekvenssi: Read from file tai kopioi tai käytä CAS- tai GENBANK-numeroa. Valitse nukleotideille BLASTn, BLASTx tai tblastx ja proteiineille BLASTp tai tblastn Valitse All Sequences Muuta oletuksia BLAST Settings -kohdassa: o Low Complexity Filteristä ruksi pois patenttihauissa o Max Number of Answers Returned => 1000 (ei välilyöntiä 0:n ja 1:n välissä). o PAM30 lyhyille sekvensseille 10 15; oletus BLOSUM 62 pitkille Tutki ja valitse vastaukset Kun haku on valmis (Completed), klikkaa View Results Vastaukset on automaattisesti järjestetty paremmuusjärjestykseen eri osioihin. Alignment displays: o koodi exact match o välilyönti ei osumaa o + perheosuma o - gap Valitse haluamasi sekvenssit Save Results File /Save As. Tallenna TXT-tiedostona (oletuksena). Hae ja tulosta STN-viitteet (H)Caplussasta Get STN Results; Valitse sekvenssin tiedot, jos haluat tulostetaa ne Registryssä. Muulloin CA- References. Tallenna Registry BLASTin sekvenssit ja vertailut.xss (STN Express saved Sequences). Ohjelma ottaa automaattisesti yhteyden STN:ään ja hakee ensin sekvenssit Registrystä ja sitten niitä vastaavat viitteet CAplussassa. Sekvenssit ovat lopullisessa joukossa sekaisin. Jos haluat saada CAplus-viitteet erikseen parhaille sekvensseille, niin hae skriptin suorituksen jälkeen Registryn osajoukot S L1, S L2 jne CAplussassa erikseen, sillä ne ovat BLAST-haun mukaisessa paremmuusjärjestyksessä. Tee CAplussassa tarvittavat rajaukset, esim. P/DT, roolit tai muu jatkohaku. Tulosta esim. D IBIB AB HITIND (tai HITRN). Jos haluat sekvenssin tiedot, niin lisää HITSEQ Tee haun jälkeen raportti: Results/BLAST Report with Alignment Data Jos haluat haun jälkeen tietää, mitkä osumasekvenssit jäivät rajoituksen jälkeen jäljelle o Siirrä osumasekvenssit (HIT RN) REGISTRYyn ja tulosta siellä. SEL HIT RN 1- => E1 THROUGH En ASSIGNED FIL REG S E1-En 3
2.2 DGENE, PCTGEN ja USGENE Lataa sekvenssi Klikkaa STN Expressin Wizardin vasemmassa palkissa olevaa Upload Sequence => L1 tai UPLOAD R BLAST tai käytä jo ladattua sekvenssiä. Tulosta sekvenssi D LQUE Tee BLAST-haku Hakukomento RUN BLAST Hakukentäksi SQP (polypeptidit/proteiinit), SQN (nukleotidit) tai TSQN (transloidut nukleotidit) Muuta oletusasetuksia lisäämällä hakulausekkeeseen o patenttihauissa Low Complexity Filter pois päältä: -F F o PAM30, jos sekvenssi on lyhyt alle 35; pitkillä oletus BLOSUM 62 on hyvä. Tee sekvenssihaku o RUN BLAST L1/SQP F F polypeptidit/proteiinit (= peptidi vastaan peptidit) o RUN BLAST L1/SQN F F nukleotidit o RUN BLAST L1/TSQN F F transloidut nukleotidit (= peptidi vastaan transloidut nukleotidit) Jos kyseessä SQN tai TSQN, voit valita lisäksi seuraavista: o Single strand (SIN). Oletus FASTAssa. o Complementary strand (COM) o Both strands (BOTH). Haku tehdään kumpaankin suuntaan. Oletus BLASTissa. Jos siis haluat olla täydellinen, niin hae polypeptidit/proteiinit lisäksi myös TSQN-hakuna. o RUN BLAST L1/TSQN F F Valitse, tutki ja järjestä vastauksia BLAST-haku antaa vastaukseksi kuvan, jossa haun osuvuutta on esitetty viivoilla. ja kysyy sen alla HOW MANY ANSWERS WOULD YOU LIKE TO KEEP? Vastaa ALL eli valitse kaikki vastaukset säilytettäviksi. On parempi jättää tässä vaiheessa kaikki osumat, vaikkakin tässä voidaan myös valita vain parhaat. Järjestä sekvenssit paremmuusjärjestykseen SORT SCORE D Tutki sekvenssiosumia maksuttomassa muodossa D SCORE TRIAL ALIGN 1- Alignment häviää helposti, kun tehdään jatkohaku yhdistämällä joukko teksti tai aikatermeihin. Jos se häviää, niin järjestä uudelleen SORT SCORE D. Jos edelleen poissa, niin yhdistä joukko ANDillä alkuperäiseen joukkoon siten, että alkuperäinen SORTattu joukko annetaan ensin. Järjestä viitteet lopuksi patenttiperheittäin. Järjestä vastaukset patenttiperheittäin ennen lopullista tulostusta FSORT Tulosta Julkaisutiedot kullekin perheelle vain kerran ja lisäksi osuvin sekvenssi ja vertailu D PFAM=1- SCORE IALL ALIGN PSL Loput haussa löytyneet saman patenttiperheen sekvenssit maksuttomassa muodossa D PFAM=1- SCORE TRIAL ALIGN 2-4
2.3 Päällekkäisten viitteiden poisto multifile-blast-haussa HUOM! Jos vastauksia vain vähän, niin kannattaa tulostaa kaikki kustakin tietokannasta saadut, eikä poistaa päällekkäisiä viitteitä. Tee haku ensin Registryssä ja tulosta viitteet CAplussassa. (L5) Tee haku DGENEssä (L6). Jos vastauksia vain vähän, niin kannattaa tulostaa ne kaikki. Jos vastauksia tulee paljon, niin voit poistaa aiemmin tulostetut seuraavasti: o Siirrä CAplussassa tulostetut viitteet DGENEeen TRANSFER L5 PN APPS 1- (L8) o Poista jo CAplussasta löytyneet viitteet DGENEn vastausjoukosta. S L6 NOT L8 o Järjestä jäljelle jääneet viitteet paremmuusjärjestykseen. Alignment säilyy. SORT SCORE D o Järjestä sitten viitteet patenttiperheittäin FSORTilla o Tulosta loput sekvenssivertailuineen (ALIGN) D SCORE TRIAL ALIGN 1- D PFAM=1- SCORE IALL ALIGN PSL D PFAM=1- SCORE TRIAL ALIGN 2- Tee haku PCTGENissä (L9). Jos vastauksia vain vähän, niin kannattaa tulostaa ne kaikki. Jos vastauksia tulee paljon, niin voit poistaa aiemmin tulostetut seuraavasti: o Siirrä CAplussassa tulostetut viitteet PCTGENiin TRANSFER L5 PN APPS 1- (L10) o Siirrä DGENEssä tulostetut viitteet PCTGENiin TRANSFER L6 PN APPS 1- (L12) o Poista jo CAplussasta ja DGENEssä löytyneet viitteet PCTGENin vastausjoukosta. S L 9 NOT (L10 OR L12) o Järjestä jäljelle jääneet viitteet paremmuusjärjestykseen SORT SCORE D o Järjestä sitten viitteet patenttiperheittäin FSORTilla o Tulosta loput sekvenssivertailuineen (ALIGN) D SCORE TRIAL ALIGN 1- D PFAM=1- SCORE IALL ALIGN PSL D PFAM=1- SCORE TRIAL ALIGN 2- Tee haku USGENEssä (L14). Jos vastauksia vain vähän, niin kannattaa tulostaa ne kaikki. Jos vastauksia tulee paljon, niin voit poistaa aiemmin tulostetut seuraavasti: o Siirrä CAplussassa tulostetut viitteet USGENEen TRANSFER L5 PN APPS 1- (L16) o Siirrä DGENEssä tulostetut viitteet USGENEen TRANSFER L6 PN APPS 1- (L18) o Siirrä PCTGENissä tulostetut viitteet USGENiin. Tuskin päällekkäisiä on. TRANSFER L6 PN APPS 1- (L20) o Poista jo CAplussasta, DGENEssä ja PCTGENistä löytyneet viitteet USGENEn vastausjoukosta. S L 14 NOT (L16 OR L18 OR L20) o Järjestä jäljelle jääneet viitteet paremmuusjärjestykseen SORT SCORE D 5
o Järjestä sitten viitteet patenttiperheittäin FSORTilla o Tulosta loput sekvenssivertailuineen (ALIGN) D SCORE TRIAL ALIGN 1- D PFAM=1- IBIB AB CLM ALIGN PSL (Sekvenssi mukaan => SEQ) D PFAM=1- SCORE TRIAL ALIGN 2-3. GETSIM (=FASTA) GETSIM on käytettävissä vain DGENE-, PCTGEN- ja USGENE-tietokannoissa. FASTA on täydellisempi, mutta hitaampi hakutapa kuin BLAST, mutta jompikumpi riittää. FASTA katsoo enemmän kokonaisuutta ja löytää paremmin alhaisia homologeja. BLAST vertailee lyhyempiä pätkiä. GETSIM-parametrejä ei voida muuttaa. Hakukomento on RUN GETSIM. o RUN GETSIM L1/SQP o RUN GETSIM L1/SQN o RUN GETSIM L1/TSQN Tee aina eräajona lisäämällä hakulauseeseen termi BATCH, sillä GETSIM-haku kestää yleensä melko kauan vähintään 0,5 h. o RUN GETSIM L1/SQP o RUN GETBATCH tarkistaa, onko haku päässyt loppuun asti (Completed) Koko muu proseduuri on samanlainen kuin BLAST-haussa. 6
4. Sequence Code Match (SCM) = GETSEQ Sopii primereille ja muille lyhyille sekvenssipätkille. Hakukenttävaihtoehdot Polypeptidit/proteiinit Nukleotidit Exact /SQEP /SQEN Exact family /SQEFP Subsequence /SQSP /SQSN Subsequence Family /SQSFP Subsequence-hauissa voit käyttää erityisiä symboleja kuvaamaan sallittuja motifs, patterns and gaps. Katso esim. DGENE Workshop material, Liite 6 http://www.stn-international.de/training_center/bioseq/dgene_wm.pdf Sekvenssivertailu näytetään viivoina a.o. kohdassa sekvenssin alla. Osumasekvenssit näytetään aina kokonaan. Ei ole maksutonta muotoa vertailun näyttämiseksi. 4.1 REGISTRY/(H)CAplus (S./SQ..) Tee sekvenssihaku Registryssä FIL REG S /SQ.. => L1 Voit rajoittaa hakua esim, sekvenssin pituudella SQL-kentässä S L1 AND SQL>=40 Voit tulostaa sekvenssin tiedot ja osumasekvenssin. Sekvenssivertailu mukaan automaattisesti. D SEQ (pelkkä sekvenssi) tai D SQID (sekvenssi + identifiointitiedot) Hae ja tulosta julkaisut (H)CAplussasta FIL HCAPLUS tai FIL CAPLUS S L1 => L2 Tulosta D BIB AB / D IALL / Jos haluat myös osumasekvenssin, niin lisää komentoon HITSEQ. Ei anna sekvenssivertailua. D BIB AB HITSEQ Voit myös jatkaa hakua, esim. S L2 AND P/DT (vain patentit) S L2 AND ANTIBODY? Jos haluat haun jälkeen tietää, mitkä osumasekvenssit jäivät rajoituksen jälkeen jäljelle o Siirrä osumasekvenssit (HIT RN) REGISTRYyn ja tulosta siellä. SEL HIT RN 1- => E1 THROUGH En ASSIGNED FIL REG S E1-En 7
4.2 DGENE, PCTGEN ja USGENE (RUN GETSEQ) Tee sekvenssihaku FIL DGENE tai FIL PCTGEN tai FIL USGENE RUN GETSEQ../SQ.. => L1 Mahdollisia rajoituksia sekvenssihaun jälkeen Sekvenssin pituus numeerinen SQL-kenttä, esim. S L1 AND SQL>=8 Annotation NTE-kenttä esim. kokoproteiinin laaja luokitus (cyclic ym.) tai kemiallinen modifikaatio (metal complex, bridge ym.) S L1 AND CYCLIC/NTE Voit jatkaa hakua muilla termeillä. Jotta sekvenssivertailu säilyy tulosteissa, yhdistä nämä uusi joukko ANDillä alkuperäisen GETSEQ-haussa saatuun joukkoon siten, että GETSEQillä saatu alkuperäinen joukko annetaan ensin. Järjestä viitteet lopuksi patenttiperheittäin. FSORT L1 => L2 Tulosta viitteet Julkaisutiedot kullekin perheelle vain kerran ja lisäksi osuvin sekvenssi ja vertailu D PFAM=1- IALL tai D PFAM=1- IBIB SEQ Muutkin haussa löytyneet hakemuksen sisältämät sekvenssit D PFAM=1- SEQ 2- DGENEssä saat mukaan koko WPINDEXin patenttiperheen tiedot lisäämällä FAM. D PFAM=1- IALL FAM 4.3 Päällekkäisten viitteiden poisto multifile-sequence Code Matchhaussa HUOM! Jos vastauksia vain vähän, niin kannattaa tulostaa kaikki kustakin tietokannasta saadut, eikä poistaa päällekkäisiä viitteitä. Haku tehdään kaikissa sekvenssitietokannoissa ja kustakin tulostetaan vain uniikit viitteet. Jo tulostettujen tietokantojen viitteet poistetaan käyttäen hyväksi TRANSFERia. REGISTRY/(H)CAplus Tee sekvenssihaku FIL REG S /SQ.. => L1 Rajoita hakua tarvittaessa esim, sekvenssin pituudella SQL-kentässä S L1 AND SQL>=8 Voit halutessasi tulostaa sekvenssin tiedot ja osumasekvenssin. Mukana sekvenssivertailu D SEQ (pelkkä sekvenssi) tai D SQID (sekvenssi + identifiointitiedot) 8
Hae ja tulosta julkaisut (H)CAplussasta FIL HCAPLUS tai FIL CAPLUS S L1 => L2 D BIB AB / D IALL HITRN D BIB AB HITSEQ Jatka hakua tarvittaessa, esim. S L2 AND P/DT (vain patentit) S L2 AND ANTIBODY? Jos haluat haun jälkeen tietää, mitkä osumasekvenssit jäivät jäljelle, siirrä joukko REGISRTYyn ja tulosta siellä. SEL HITRN 1- => E1 THROUGH En ASSIGNED FIL REG S E1-En DGENE Tee sekvenssihaku FIL DGENE RUN GETSEQ../SQ.. => L3 Poista (H)CAplus-viitteet TRANSFER L2 PN APPS => L5 S L3 NOT L5 => L6 (vain DGENEstä löytyneet viitteet) Jotta sekvenssivertailu säilyisi tulosteissa Yhdistä nämä DGENEstä löytyneet uniikit viitteet (L6) ANDillä alkuperäisen DGENE-joukkoon (L3) siten, että GETSEQillä saatu alkuperäinen joukko annetaan ensin. S L3 AND L6 => L7 Järjestä jäljelle jääneet vain DGENEstä löytyneet viitteet patenttiperheittäin. FSORT L7 => L8 Tulosta viitteet Julkaisutiedot kullekin perheelle vain kerran ja lisäksi osuvin sekvenssi ja vertailu D PFAM=1- IALL tai D PFAM=1- IBIB SEQ PSL Mukaan muutkin haussa löytyneet hakemuksen sisältämät sekvenssit D PFAM=1- SEQ 2- PCTGEN Tee sekvenssihaku FIL PCTGEN RUN GETSEQ../SQ.. => L9 Poista (H)CAplus- ja DGENE-viitteet TRANSFER L2 PN APPS => L11 TRANSFER L3 PN APPS => L13 9
S L9 NOT( L11 OR L13) => L14 (vain PCTGENistä löytyneet viitteet) Jotta sekvenssivertailu säilyisi tulosteissa Yhdistä nämä PCTGENistä löytyneet uniikit viitteet (L14) ANDillä alkuperäisen PCTGENjoukkoon (L9) siten, että GETSEQillä saatu alkuperäinen joukko annetaan ensin. S L9 AND L14 => L15 Järjestä jäljelle jääneet vain PCTGENEstä löytyneet viitteet patenttiperheittäin FSORT L15 => L16 Tulosta viitteet Julkaisutiedot kullekin perheelle vain kerran ja lisäksi osuvin sekvenssi ja vertailu D PFAM=1- IBIB SEQ Mukaan muutkin haussa löytyneet hakemuksen sisältämät sekvenssit D PFAM=1- SEQ 2- USGENE Tee sekvenssihaku FIL USGENE RUN GETSEQ../SQ.. => L17 Poista (H)CAplus-, DGENE- ja PCTGEN-viitteet TRANSFER L2 PN APPS => L19 TRANSFER L3 PN APPS => L21 TRANSFER L9 PN => L23 S L17 NOT ( L19 OR L121 OR L23) => L24 (vain USGENEstä löytyneet viitteet) Jotta sekvenssivertailu säilyisi tulosteissa Yhdistä nämä USGENEstä löytyneet uniikit viitteet (L24) ANDillä alkuperäisen USGENEjoukkoon (L17) siten, että GETSEQillä saatu alkuperäinen joukko annetaan ensin. S L17 AND L24 => L25 Järjestä jäljelle jääneet vain USGENEstä löytyneet viitteet patenttiperheittäin FSORT L25 => L26 Tulosta viitteet Julkaisutiedot kullekin perheelle vain kerran ja lisäksi osuvin sekvenssi ja vertailu D PFAM=1- IBIB AB SEQ PSL CLM Mukaan muutkin haussa löytyneet hakemuksen sisältämät sekvenssit D PFAM=1- SEQ 2-10