Esimerkki laajasta 0-1 datajoukosta

Samankaltaiset tiedostot
Kurssin loppuosa. Luku 8. Diskreettejä menetelmiä laajojen 0-1 datajoukkojen analyysiin. Suuret 0-1 datajoukot. Tämän luvun sisältö

Luku 8. Diskreettejä menetelmiä laajojen 0-1 datajoukkojen analyysiin

Efficiency change over time

Information on Finnish Language Courses Spring Semester 2017 Jenni Laine

Network to Get Work. Tehtäviä opiskelijoille Assignments for students.

The CCR Model and Production Correspondence

Information on Finnish Language Courses Spring Semester 2018 Päivi Paukku & Jenni Laine Centre for Language and Communication Studies

Copernicus, Sentinels, Finland. Erja Ämmälahti Tekes,

Research in Chemistry Education

ECVETin soveltuvuus suomalaisiin tutkinnon perusteisiin. Case:Yrittäjyyskurssi matkailualan opiskelijoille englantilaisen opettajan toteuttamana

Julkaisun laji Opinnäytetyö. Sivumäärä 43

Returns to Scale II. S ysteemianalyysin. Laboratorio. Esitelmä 8 Timo Salminen. Teknillinen korkeakoulu

Constructive Alignment in Specialisation Studies in Industrial Pharmacy in Finland

Capacity Utilization

Alternative DEA Models

Simulation model to compare opportunistic maintenance policies

Information on Finnish Courses Autumn Semester 2017 Jenni Laine & Päivi Paukku Centre for Language and Communication Studies

HARJOITUS- PAKETTI A

3 9-VUOTIAIDEN LASTEN SUORIUTUMINEN BOSTONIN NIMENTÄTESTISTÄ

Skene. Games Refueled. Muokkaa perustyyl. for Health, Kuopio

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

Advanced Research on Steels Research on Advanced Steels. CASR Research Seminar Opening and Current Issues

OPINTOJAKSOJA KOSKEVAT MUUTOKSET/MATEMATIIKAN JA FYSIIKAN LAITOS/ LUKUVUOSI

1. Gender - Sukupuoli N = Age - Ikä N = 65. Female Nainen. Male Mies

Relevanttien sivujen etsintä verkosta: satunnaiskulut verkossa Linkkikeskukset ja auktoriteetit (hubs and authorities) -algoritmi

Technische Daten Technical data Tekniset tiedot Hawker perfect plus

Recommended background: Structural Engineering I and II

Information on preparing Presentation

VUOSI 2015 / YEAR 2015

Co-Design Yhteissuunnittelu

Kaivostoiminnan eri vaiheiden kumulatiivisten vaikutusten huomioimisen kehittäminen suomalaisessa luonnonsuojelulainsäädännössä

Varmista oma paikkasi tulevaisuuden digitaalisilla markkinoilla. IPR-aamiaisseminaari, Ravintola Pörssi,

7. Product-line architectures

Uusia kokeellisia töitä opiskelijoiden tutkimustaitojen kehittämiseen

2017/S Contract notice. Supplies

Heisingin kaupungin tietokeskus Helsingfors stads faktacentral City of Helsinki Urban Facts 0N THE EFFECTS 0F URBAN NATURAL AMENITIES, ARCHITECTURAL

WP3 Decision Support Technologies

Jussi Klemola 3D- KEITTIÖSUUNNITTELUOHJELMAN KÄYTTÖÖNOTTO

Yliopistojen profiloitumisen vahvistaminen (Profi) -rahoituksen väliraportointiohje

Tutkimusdata ja julkaiseminen Suomen Akatemian ja EU:n H2020 projekteissa

Hankintailmoitus: Pohjois-Savon sairaanhoitopiirin kuntayhtymä/kiinteistöyksikkö : Puijon sairaalan Pääaula-alueen uudistus, Sähköurakka

Master's Programme in Life Science Technologies (LifeTech) Prof. Juho Rousu Director of the Life Science Technologies programme 3.1.

SELL Student Games kansainvälinen opiskelijaurheilutapahtuma

Mitä meneillään FinBraTechissa?

Infrastruktuurin asemoituminen kansalliseen ja kansainväliseen kenttään Outi Ala-Honkola Tiedeasiantuntija

Operatioanalyysi 2011, Harjoitus 3, viikko 39

Bachelor level exams by date in Otaniemi

Informaatioteknologia vaikuttaa ihmisten käyttäytymiseen ja asenteisiin

Sivuainekokonaisuus: Moninäkökulmainen asiantuntijuus kiertotaloudessa

Bachelor level exams by subject in Otaniemi

Camilla Wikström-Grotell, prefekt, prorektor DIAK to be Arcada s new neighbour A new sports hall is being planned

Tarua vai totta: sähkön vähittäismarkkina ei toimi? Satu Viljainen Professori, sähkömarkkinat

hyvinvointia pohjoisen villamateriaalista

EUROOPAN PARLAMENTTI

Capacity utilization

JA CHALLENGE Anna-Mari Sopenlehto Central Administration The City Development Group Business Developement and Competence

Data quality points. ICAR, Berlin,

Sivuainekokonaisuus: Moninäkökulmainen asiantuntijuus kiertotaloudessa

Valuation of Asian Quanto- Basket Options

Työelämäkysymykset osaksi tohtoriopintojen opetussuunnitelmia kehitteillä valtakunnallinen digitaalinen koulutuspaketti

General studies: Art and theory studies and language studies

Questionnaire for graduated doctors from the School of Science 2014 Kysely Perustieteiden korkeakoulusta valmistuneille tohtoreille 2014

Indoor Environment

* for more information. Sakari Nurmela

make and make and make ThinkMath 2017

Computing Curricula raportin vertailu kolmeen suomalaiseen koulutusohjelmaan

toukokuu 2011: Lukion kokeiden kehittämistyöryhmien suunnittelukokous

Sisällysluettelo Table of contents

Students Experiences of Workplace Learning Marja Samppala, Med, doctoral student

7.4 Variability management

Miehittämätön meriliikenne

SUORITUSTASOILMOITUS Nro: DoP [FI]

Aalto Service Factory

KONEISTUSKOKOONPANON TEKEMINEN NX10-YMPÄRISTÖSSÄ

Rakentamisen 3D-mallit hyötykäyttöön

Integration of Finnish web services in WebLicht Presentation in Freudenstadt by Jussi Piitulainen

Paikkatiedon semanttinen mallinnus, integrointi ja julkaiseminen Case Suomalainen ajallinen paikkaontologia SAPO

NAO- ja ENO-osaamisohjelmien loppuunsaattaminen ajatuksia ja visioita

Introduction to Automotive Structure

Additions, deletions and changes to courses for the academic year Mitä vanhoja kursseja uusi korvaa / kommentit

Voitelulaitteen kannessa olevalla säätöruuvilla voidaan ilmaan sekoittuvan öljyn määrä säätää helposti.

Metsälamminkankaan tuulivoimapuiston osayleiskaava

Augmented Reality (AR) in media applications

ELEMET- MOCASTRO. Effect of grain size on A 3 temperatures in C-Mn and low alloyed steels - Gleeble tests and predictions. Period

Lapuan myöntämä EU tuki SOLUTION asuinalueille omakoti- tai rivitaloa rakentaville

Results on the new polydrug use questions in the Finnish TDI data

LYTH-CONS CONSISTENCY TRANSMITTER

BOARD PROGRAM Hallitusohjelma

Genome 373: Genomic Informatics. Professors Elhanan Borenstein and Jay Shendure

Operatioanalyysi 2011, Harjoitus 4, viikko 40

Johnson, A Theoretician's Guide to the Experimental Analysis of Algorithms.

Ammatillinen opettajakorkeakoulu

Choose Finland-Helsinki Valitse Finland-Helsinki

Avoimen tutkimuksen suunnittelu tietojärjestelmätieteen tutkijan näkökulmasta

Hankkeen toiminnot työsuunnitelman laatiminen

Salasanan vaihto uuteen / How to change password

( ( OX2 Perkkiö. Rakennuskanta. Varjostus. 9 x N131 x HH145

812336A C++ -kielen perusteet,

On instrument costs in decentralized macroeconomic decision making (Helsingin Kauppakorkeakoulun julkaisuja ; D-31)

HITSAUKSEN TUOTTAVUUSRATKAISUT

Transkriptio:

Esimerkki laajasta - datajoukosta Abstraktitietokanta: 29, abstraktia jotka kuvaavat NSF:n rahoittamia perustutkimushankkeita http://kdd.ics.uci.edu/databases/nsfabs/nsfaward s.html Datasta tietoon syksy 25

Esimerkki Title : Mathematical Sciences: Structure and Rigidity of Graphs with Applications to Network Models of Materials Type : Award NSF Org : DMS Latest Amendment Date : July 5, 994 File : a9427 Award Number: 9427 Award Instr.: Standard Grant Prgm Manager: Michael H. Steuerwalt DMS DIVISION OF MATHEMATICAL SCIENCES MPS DIRECT FOR MATHEMATICAL & PHYSICAL SCIEN Start Date : July, 994 Expires : June 3, 998 (Estimated) Expected Total Amt. : $67877 (Estimated) Investigator: Deborah S. Franzblau (Principal Investigator current) Sponsor : Rutgers Univ New Brunswick ASB III, 3 Rutgers Plaza New Brunswick, NJ 89 732/932-5 NSF Program : 27 COMPUTATIONAL MATHEMATICS Fld Applictn: 99 Other Applications NEC 2 Mathematics Program Ref : 96,962,9263,AMPP, Datasta tietoon syksy 25

Esimerkki Abstract : 9427 Franzblau In this project, the principal investigator aims to obtain the following results: () an implementation of a practical combinatorial algorithm to compute bounds on degrees of freedom of a network (in 3 or more dimensions), (2) new combinatorial conditions for rigidity or simple formulas for degrees of freedom in families of graphs, (3) new, easily computed measures of medium-range order in network models of glasses. The methods employed include those of combinatorial optimization, graph theory, and discrete algorithm design. Problems on network models are addressed largely through computer experiments, and make use of algorithms developed and implemented by the investigator. This project has two related aims, and is intended to contribute new results both to mathematics and materials science. The first aim is to address key open problems in the mathematical theory of rigidity, including computing the degrees of freedom of a network (also called a graph). This theory has a long history, which includes the work of Maxwell (864) on determining whether a "scaffold" made of rigid bars and movable joints is itself rigid. The second aim is to address basic issues on network models of solids; such models (also called ball-and-stick models), in which points represent atoms and connections between points represent chemical bonds, are often studied to better understand the properties of both crystalline solids and glassy materials. One focus is to characterize the relationship between the structure of a network model and its rigidity, and the other is to find useful measures which capture this network structure. The work therefore leads to a better understanding of materials properties. Datasta tietoon syksy 25

Datasta tietoon syksy 25 Datan esitys Muutettuna - taulukkomuotoon Sarakkeet vastaavat dokumentteja Rivit vastaavat sanoja attitude abscissa absorb d d2 d3 d4

Esimerkkisanoja 7 abrupt 7 abruptly 72 abs 73 abscissa 74 absence 75 absent 76 absolute 77 absolutely 78 absorb 79 absorbed Datasta tietoon syksy 25

Miksi tällainen esitysmuoto? Tiedonhaun kannalta dokumentin sisältävien sanojen luettelo on monesti riittävä Määrämuotoista dataa on helpompi käsitellä kuin vaihtelevan mittaisia tekstijonoja Datasta tietoon syksy 25

Perustilastoja Dokumentteja: 28, sanoja: 38; ei mitenkään erityisen suuri dokumenttijoukko Taulussa 38*28= 39424 = 4 9 alkiota Ykkösiä datassa 44992 eli,265 =.265 % kaikista alkioista; ei kannata esittää nollia Noin 8 erilaista sanaa / dokumentti Kukin sana esiintyy keskimäärin 34 dokumentissa Jakauma vino: jotkin sanat esiintyvät usein, toiset hyvin harvoin (Joitakin useimmin esiintyviä sanoja on jätetty pois.) Datasta tietoon syksy 25

Erilaisia sanoja dokumentissa Datasta tietoon syksy 25

Erilaisia sanoja dokumentissa Datasta tietoon syksy 25

Histogramma Datasta tietoon syksy 25

Kuinka monessa dokumentissa kukin sana esiintyy? Datasta tietoon syksy 25

Kuinka monessa dokumentissa kukin sana esiintyy? Datasta tietoon syksy 25

Histogramma Datasta tietoon syksy 25

Kuinka monessa dokumentissa kukin sana esiintyy? Miksi kuvaaja on tietyltä osaltaan lähes suora? Datasta tietoon syksy 25

Kattavien joukkojen etsintä Monia algoritmeja löytyy Tai sivulta http://fimi.cs.helsinki.fi Esim. sivulta http://www.adrem.ua.ac.be/~goethals/software/ Datasta tietoon syksy 25

Kattavien joukkojen etsintä datajoukosta; N= k 2 3 4 Ehdokkaita 38 89 79 Kattavia joukkoja 34 7 9 Yhteensä 25 joukkoa Datasta tietoon syksy 25

Kattavien joukkojen etsintä datajoukosta; N=2 k 2 3 4 5 6 Ehdokkaita 38 68535 546 583 92 Kattavia joukkoja 7 7862 698 889 9 Yhteensä 64 joukkoa Datasta tietoon syksy 25

Kattavien joukkojen määrä k Kattavia joukkoja 25 5 539 2 64 96223 Datasta tietoon syksy 25

N=2; 6:n kokoinen kattava joukko 322 business 322 impossible 363 innovation 245 phase 264 project 2322 replications 2333 research 25447 small Datasta tietoon syksy 25

N=; 6:n kokoinen kattava joukko egrep '2582 264 2333 2446 26454 2937' words.txt 2582 program 264 project 2333 research 2446 science 26454 students 2937 university Datasta tietoon syksy 25

Ylimäärin esiintyvien parien etsintä BEGIN {N=28} {if (NF==2) { f[$]=$2 } if (NF==3) { p[$, $2] = $3; } } END { for (u in f) { for (v in f) { if (p[u, v]>) { print u, v, f[u], f[v], p[u,v], p[u,v]/(f[u]*f[v]/n) } } } } Datasta tietoon syksy 25

Karkea analyysi: millä pareilla p(a= & b=)/p(a=)p(b=) on suuri? fellowship postdoctoral 458 32 28 29.874 film thin 2275 322 43 25.789 dissertation doctoral 2272 288 35 22.692 business innovation 447 354 2689 22.754 polymer polymers 2768 254 28 2.9926 microscopy scanning 2925 263 79 2.8298 carolina north 47 4687 24 9.8756 poorly understood 265 4 224 8.549 na nb parin a b esiintymiä Datasta tietoon syksy 25 p(a= & b=)/p(a=)p(b=)

Muuttujapareja löytyy Pari nro : held workshop 547 489 644 7.9449 Pari nro 5: gene identify 4897 845 23 3.8477 Pari nro engineering manufacturing 52 399 334 2.8457 Datasta tietoon syksy 25