Esimerkki laajasta - datajoukosta Abstraktitietokanta: 29, abstraktia jotka kuvaavat NSF:n rahoittamia perustutkimushankkeita http://kdd.ics.uci.edu/databases/nsfabs/nsfaward s.html Datasta tietoon syksy 25
Esimerkki Title : Mathematical Sciences: Structure and Rigidity of Graphs with Applications to Network Models of Materials Type : Award NSF Org : DMS Latest Amendment Date : July 5, 994 File : a9427 Award Number: 9427 Award Instr.: Standard Grant Prgm Manager: Michael H. Steuerwalt DMS DIVISION OF MATHEMATICAL SCIENCES MPS DIRECT FOR MATHEMATICAL & PHYSICAL SCIEN Start Date : July, 994 Expires : June 3, 998 (Estimated) Expected Total Amt. : $67877 (Estimated) Investigator: Deborah S. Franzblau (Principal Investigator current) Sponsor : Rutgers Univ New Brunswick ASB III, 3 Rutgers Plaza New Brunswick, NJ 89 732/932-5 NSF Program : 27 COMPUTATIONAL MATHEMATICS Fld Applictn: 99 Other Applications NEC 2 Mathematics Program Ref : 96,962,9263,AMPP, Datasta tietoon syksy 25
Esimerkki Abstract : 9427 Franzblau In this project, the principal investigator aims to obtain the following results: () an implementation of a practical combinatorial algorithm to compute bounds on degrees of freedom of a network (in 3 or more dimensions), (2) new combinatorial conditions for rigidity or simple formulas for degrees of freedom in families of graphs, (3) new, easily computed measures of medium-range order in network models of glasses. The methods employed include those of combinatorial optimization, graph theory, and discrete algorithm design. Problems on network models are addressed largely through computer experiments, and make use of algorithms developed and implemented by the investigator. This project has two related aims, and is intended to contribute new results both to mathematics and materials science. The first aim is to address key open problems in the mathematical theory of rigidity, including computing the degrees of freedom of a network (also called a graph). This theory has a long history, which includes the work of Maxwell (864) on determining whether a "scaffold" made of rigid bars and movable joints is itself rigid. The second aim is to address basic issues on network models of solids; such models (also called ball-and-stick models), in which points represent atoms and connections between points represent chemical bonds, are often studied to better understand the properties of both crystalline solids and glassy materials. One focus is to characterize the relationship between the structure of a network model and its rigidity, and the other is to find useful measures which capture this network structure. The work therefore leads to a better understanding of materials properties. Datasta tietoon syksy 25
Datasta tietoon syksy 25 Datan esitys Muutettuna - taulukkomuotoon Sarakkeet vastaavat dokumentteja Rivit vastaavat sanoja attitude abscissa absorb d d2 d3 d4
Esimerkkisanoja 7 abrupt 7 abruptly 72 abs 73 abscissa 74 absence 75 absent 76 absolute 77 absolutely 78 absorb 79 absorbed Datasta tietoon syksy 25
Miksi tällainen esitysmuoto? Tiedonhaun kannalta dokumentin sisältävien sanojen luettelo on monesti riittävä Määrämuotoista dataa on helpompi käsitellä kuin vaihtelevan mittaisia tekstijonoja Datasta tietoon syksy 25
Perustilastoja Dokumentteja: 28, sanoja: 38; ei mitenkään erityisen suuri dokumenttijoukko Taulussa 38*28= 39424 = 4 9 alkiota Ykkösiä datassa 44992 eli,265 =.265 % kaikista alkioista; ei kannata esittää nollia Noin 8 erilaista sanaa / dokumentti Kukin sana esiintyy keskimäärin 34 dokumentissa Jakauma vino: jotkin sanat esiintyvät usein, toiset hyvin harvoin (Joitakin useimmin esiintyviä sanoja on jätetty pois.) Datasta tietoon syksy 25
Erilaisia sanoja dokumentissa Datasta tietoon syksy 25
Erilaisia sanoja dokumentissa Datasta tietoon syksy 25
Histogramma Datasta tietoon syksy 25
Kuinka monessa dokumentissa kukin sana esiintyy? Datasta tietoon syksy 25
Kuinka monessa dokumentissa kukin sana esiintyy? Datasta tietoon syksy 25
Histogramma Datasta tietoon syksy 25
Kuinka monessa dokumentissa kukin sana esiintyy? Miksi kuvaaja on tietyltä osaltaan lähes suora? Datasta tietoon syksy 25
Kattavien joukkojen etsintä Monia algoritmeja löytyy Tai sivulta http://fimi.cs.helsinki.fi Esim. sivulta http://www.adrem.ua.ac.be/~goethals/software/ Datasta tietoon syksy 25
Kattavien joukkojen etsintä datajoukosta; N= k 2 3 4 Ehdokkaita 38 89 79 Kattavia joukkoja 34 7 9 Yhteensä 25 joukkoa Datasta tietoon syksy 25
Kattavien joukkojen etsintä datajoukosta; N=2 k 2 3 4 5 6 Ehdokkaita 38 68535 546 583 92 Kattavia joukkoja 7 7862 698 889 9 Yhteensä 64 joukkoa Datasta tietoon syksy 25
Kattavien joukkojen määrä k Kattavia joukkoja 25 5 539 2 64 96223 Datasta tietoon syksy 25
N=2; 6:n kokoinen kattava joukko 322 business 322 impossible 363 innovation 245 phase 264 project 2322 replications 2333 research 25447 small Datasta tietoon syksy 25
N=; 6:n kokoinen kattava joukko egrep '2582 264 2333 2446 26454 2937' words.txt 2582 program 264 project 2333 research 2446 science 26454 students 2937 university Datasta tietoon syksy 25
Ylimäärin esiintyvien parien etsintä BEGIN {N=28} {if (NF==2) { f[$]=$2 } if (NF==3) { p[$, $2] = $3; } } END { for (u in f) { for (v in f) { if (p[u, v]>) { print u, v, f[u], f[v], p[u,v], p[u,v]/(f[u]*f[v]/n) } } } } Datasta tietoon syksy 25
Karkea analyysi: millä pareilla p(a= & b=)/p(a=)p(b=) on suuri? fellowship postdoctoral 458 32 28 29.874 film thin 2275 322 43 25.789 dissertation doctoral 2272 288 35 22.692 business innovation 447 354 2689 22.754 polymer polymers 2768 254 28 2.9926 microscopy scanning 2925 263 79 2.8298 carolina north 47 4687 24 9.8756 poorly understood 265 4 224 8.549 na nb parin a b esiintymiä Datasta tietoon syksy 25 p(a= & b=)/p(a=)p(b=)
Muuttujapareja löytyy Pari nro : held workshop 547 489 644 7.9449 Pari nro 5: gene identify 4897 845 23 3.8477 Pari nro engineering manufacturing 52 399 334 2.8457 Datasta tietoon syksy 25