Data mining og machine learning i praksis

Senest opdateret d. 27/3-2012
Alexandra Instituttet
Resultatkontrakt 2013-2015 under temaerne Informations- og Kommunikationsteknologi
Jerker Hammarberg
Forsknings- og innovationsingeniør

Der er de seneste år sket store fremskridt inde for data mining og machine learning, men disse fremskridt når kun sjældent til anvendelse i samfundet. Vi vil derfor udvikle teknologiske services med fokus på teknologiernes applikationer og implementering i praksis.
 
Vi ønsker altså dels at bringe state-of-the-art ud til virksomheder, der i forvejen bruger data mining og machine learning; dels at udvikle konkrete services og finde anvendelsesmuligheder til virksomheder, for hvem emnerne er nye.

Forslag til resultatkontrakt: Data mining og machine learning i praksis
Institut: Alexandra Instituttet
Kontaktperson: Jerker Hammarberg
 
Ny viden og serviceydelser
Der er de seneste år sket store fremskridt omkring hvad der er muligt med data mining og machine learning, men disse fremskridt når desværre sjældent til anvendelse i samfundet. Med denne resultatkontrakt ønsker vi derfor at udvikle teknologiske services, med specifikt fokus på applikationer og implementering i praksis. Vi ønsker dels at bringe state-of-the-art ud til virksomheder, der i forvejen benytter sig af data mining og machine learning; dels at udvikle konkrete services og finde anvendelsesmuligheder til virksomheder, for hvem disse emner måske er helt fremmede.
 
Vi mener at fokus på særligt disse konkrete problemstillinger og emner vil skabe værdi for samfund og erhvervsliv:

  • Data mining i skyen. Teknikker for håndtering af store datamængder i skyen. Bl.a. vil vi kigge på hvad man gør, når databehandlingen er så kompleks at det er svært at håndtere vha. Map-Reduce/Hadoop. Vi vil også kigge på andre state-of-the-art teknologier som fx DryadLinq og Qizmt.
  • Self-tuning data mining algoritmer. Med Big Data[1] sker der et paradigmeskift fra rapportbaseret data mining til mere udforskende data mining. En nøgleteknologi for dette er self-tuning data mining algoritmer.
  • Sikkerhed og anonymisering. Data mining på personfølsomme data, hvor misbrug af data skal undgås.
  • Smartphone-sensorer. Anvendelse af smartphonens sensorer til machine learning (inklusive signalbehandling og feature-udtrækning). Udnytte input fra accelerometer, gyro, kompas, GPS, mikrofon, kamera, WiFi med henblik på fx tale-til-tekst eller genkendelse af bevægelsesmønstre.
  • Implementation på mobile platforme. Optimering af beregningstunge algoritmer for afvikling på platforme med begrænset ydeevne. Lige nu er mange applikationer kun mulige på grund af beregninger i skyen (fx Apples Siri eller Google Goggles) – hvor langt kan vi komme med den lokale processorkraft?
  • Distribueret machine learning. Fordeling af beregningsopgaverne over for eksempel en smartphone og et antal servere.

De teknologiske ydelser og produkter vi ønsker at udvikle er:

  • Software og libraries. Fx værktøjer til visualisering af data eller libraries til smartphones. Målrettet mindre virksomheder som udvikler softwaretunge produkter.
  • SaaS-løsninger i skyen. Fx løsninger til klassifikation af data i Amazons Cloud. Primært målrettet små og mellemstore virksomheder med varierende data mining-behov.
  • Kurser. Målrettet alle virksomheder der arbejder med ubehandlede data. Eksempelvis kurser i at benytte komplekse værktøjer til at udføre data mining på konkret data fra virksomheden.
  • Undersøgelser og rådgivning. Hvad er teknisk muligt, hvad er state-of-the-art på forskningsfronten, hvilke eksisterende produkter kan bruges etc. til en given applikation. Målrettet mindre virksomheder med en idé på et tidligt stadium, som har brug for at danne et overblik over mulighederne.
  • Udviklingsforløb. Vi vil opbygge kompetencer til at kunne udføre et udviklingsforløb i samarbejde med virksomheder, der ønsker et produkt som løsning på en konkret problemstilling. Et eksempel kunne være en udbyder af webshops, der ønsker et modul til data mining på kundernes købemønstre.

 
Centrale aktiviteter

  1. Opbygning af overblik over state of the art ved fx litteraturstudier.
  2. Opbygning af kontakter og netværk ved deltagelse i konferencer og andre arrangementer.
  3. Gennemførsel af cases der konkretiserer viden fra punkt 1, i samarbejde med virksomheder[2], fx:
  • Smartphoneapp der genkender spiselige planter gennem telefonens kamera, så man kan bruge den til at plukke sin egen mad i naturen. *
  • Analyse af indkøbsmønstre i supermarkeder for at optimere indkøb og for at udvikle et prisgradueringssystem, hvor kunderne betaler mindre, jo tættere varerne er på udløbsdatoen. *
  • Brug af bevægelsessensorer i intelligent tøj til genkendelse af brugerens bevægelser. Machine learning kan hjælpe med at give brugere feedback i forbindelse med fx genoptræning. *
  • Crowd sensing og prediction for at gøre madboder ved store attraktioner klar til at betjene varierende tilstrømning af kunder og dermed undgå både lange køer og madspild.
  • Prediction på optimalt tidspunkt for vindmølleservice i vindmølleparker. Data mining på sensordata fra vindmøller, anvendelse af stream og self-tuning data mining.
  • Data mining på sundheds- og velfærdsdata, specielt telemedicinske data og patientjournaler, for at identificere risikoadfærd og tidlige sygdomstilstande.
  1. Vidensspredning: Forskningsartikler, blog, præsentationer.

 
Det er her meget vigtigt at notere sig, at anvendelsesmulighederne er meget brede og vidtrækkende – deraf den store spredning i de ovenstående cases. Ydermere skal det understreges, at mens de enkeltvis er meget specifikke, vil viden kunne bruges i andre sammenhænge. Viden om Computer Vision fra den første case kan bruges til mønstergenkendelse hos fx en virksomhed der vil detektere produktionsfejl, og data mining teknikkerne fra den sidste kan overføres til at finde interessante tendenser i mere kommercielt øjemed.
 
Rationale for indsatsen
Vi oplever i forvejen en stigende efterspørgsel på viden indenfor praktisk data mining og machine learning, og vi forventer at efterspørgslen fortsætter i de kommende år, fordi:

  • De sidste års væsentlige fremskridt indenfor forskningen på området muliggør applikationer som tidligere ikke var mulige.
  • Både udbredelsen af smartphones og muligheden for at indsamle store datamængder over internet giver ophav til nye og innovative applikationer, som specielt små og mellemstore virksomheder vil have en interesse i at udvikle.
  • Gedigne kompetencer inden for machine learning og data mining er sjældne udenfor universiteterne, specielt i små og mellemstore virksomheder.

De primære målgrupper vil være:

  • Små og mellemstore it-produktvirksomheder som udvikler produkter der producerer rå, ubehandlet data i en eller anden form, fx et webshop-framework eller systemer til status og indkøb af varer.
  • Større virksomheder som enten ikke har kompetencerne til at behandle store mængder data internt, eller som ønsker at øge gevinsten fra deres eksisterende løsninger – eller der laver innovation inde for robotteknologi eller lignende felter, hvor software skal udføre ikke-triviel styring.

 
Indsatsen bygger på følgende igangværende og afsluttede aktiviteter:

  • RK-Massive Datamængder (2010-2012).
  • Machine learning-bloggen[3].
  • En lang række af igangværende og afsluttede projekter, herunder:

    • Genkendelse af fuglesang (videnkupon med PR Development)
    • Data mining i skyen (videnkupon med d60)
    • Talegenkendelse til personlift (Ergolet)
    • Optisk bestemmelse af friktion og beskaffenhed på landingsbaner (EU FP7 Airfield Monitor)

 
Mulige samarbejdspartnere

  • Faglige: Københavns Universitet, IT-Universitetet i København, DTU Cognitive Systems, Aarhus Universitet.
  • Virksomheder og andre: Softwarevirksomheder, detailhandel, events og festivaller, marketing, regionerne.

[1]   http://radar.oreilly.com/2012/01/what-is-big-data.html
[2]   Ved cases markeret med * har mulige samarbejdspartnere allerede udtrykt interesse
[3]   http://www.swkorridor.dk/en/blogs/machine_learning_applications/

 

7 kommentarer

Herunder er indlæg og kommentarer fra interessenter på aktiviteter og aktivitetsforslag.

stefanrosenlund
Torsdag d. 26/4-12 kl. 18:00

Hej,

Jeg syntes det fremlagte forslag lyder spændende og kunne bestemt godt være noget vi ville støtte op omkring.

Hilsen Stefan Rosenlund
Partner & Salgsdirektør
Zitcom A/S

tordenhuset
Søndag d. 29/4-12 kl. 23:28

Nye forskningsresultater tyder på, at vilde spiselige planter har en lang række sundhedsfremmende egenskaber udover det kulinariske potentiale, der er demonstreret gennem udviklingen af det Ny Nordiske Køkken. Interessen for at samle ind til - eller dyrke - egen vild mad er voldsomt stigende. Men det er en alvorlig barriere, at vi gennem de forløbne 200 år har glemt den traditionelle viden om de mere end 250 spiselige planter, vi har herhjemme. Her vil plantegenkendelsesapp'en nemt og hurtigt være en hjælp til at identificere de enkelte planter og deres farlige forvekslingsmuligheder. Derfra er vejen kort til yderligere oplysninger om næringsindhold, toksikologi, kulturhistoriske informationer og ikke til mindst moderne, nordisk inspirerede, opskrifter. App'en vil være interessant for friluftsorganisationer, patientforeninger, børne- og ældreinstitutioner, fødevareproducenter samt ikke mindst for alle almindelige madinteresserede. Søren Espersen. Kulturlandskab.dk

Morten Grue Sørensen
Tirsdag d. 1/5-12 kl. 16:47

Det lyder som et super spændende projekt. Specifikt kunne det måske anvendes hos DCS til at finde potentielt interessante vare, som måske er interessante ud fra flere kriterier end bare fortjenestes grad.

Altså hjælpe med (Automatisere måske endda) at se store mængder mulige vare igennem og ud fra tidligere salgstal, klik-statistik, prisudvikling og mange flere bestemme hvad der ville være gode vare at anskaffe.

Morten Grue Sørensen
Projektleder og udvikler @ DCS

roald
Onsdag d. 9/5-12 kl. 15:12

Machine Learning teknologier er helt centrale i den software vi udvikler til biologiske data, og vi støder ofte på flere af de nævnte problemstillinger.
Konkret, er vi interesserede i at der i området tilføres kompetencer omkring:
- distribuerede algoritmer til machine learning
- machine learning algoritmer i Skyen som rygrad i SaaS løsninger
- sikkerhed omkring Sky- og machine learning i forbindelse med kliniske data.

Vi er interesserede i at diskutere disse problemstillinger med Alexandra instituttet og udveksle erfaringer og viden.

Roald Forsberg
Vice President, Research and Development CLC bio A/S

larsjessen
Onsdag d. 30/5-12 kl. 22:50

Vi udvikler et system til genoptræning, ICURA, som ved hjælp af bevægelsessensorer skal assistere patienter med træning i hjemmet. Machine learning i forhold til bevægelsesdata er således meget relevant for os og det kan blive en helt central komponent, når der skal skelnes mellem gode og dårlige træningsmønstre. Vores fokus er på mobile platforme, så derfor vil større viden om at afvikle komplekse algoritmer på disse begrænsede platforme være af største interesse.

I vores system opsamles træningsdataen desuden i skyen, hvor terapeuterne skal have adgang til den på en overskuelig måde. Her vil vi kunne have stor gavn af større viden om data mining for at kunne blive i stand til for eksempel at afsløre træningstendenser på tværs af en patientgruppe. Sikkerhed og anonymisering er selvfølgelig central i denne type applikation.

Lars Jessen,
Partner, YOKE
www.icura.dk

Rasmus Vinther
Torsdag d. 31/5-12 kl. 09:56

Indenfor vindmølleindustrien er der voksende fokus på Cost of Energy og for at drive den ned skal møllerne have mindst mulig nedetid og den nødvendige nedetid skal helst foregå når der er lav vind.

Udviklingen går derfor mod brug af større og større datamængder for at få mest mulig information om den forventede levetid for komponenter, forventet produktion, tilgængelighed af reservedele, osv... Data mining bliver derfor en essentiel del af systemerne til at optimere service forretningen i vindmølleindustrien.

Rasmus Tarp Vinther
Director
Optimisation Product Development
Vestas Wind Systems A/S

Palle Erik
Torsdag d. 31/5-12 kl. 12:42

Det ville være særdeles interessant, at få udviklet en app til genkendelse af fuglesang.

Et tidligere videnkupon projekt har vist, at de nuværende teknologier kan videreudvikles til at kunne genkende fuglesang.

Med et hastigt voksende marked af smartphonesbrugere i hele verden er der basis for et interessant forretningsområde, hvis der kunne tilbydes en app, der kan genkende fuglesang.

En sådan app findes ikke, men er meget efterspurgt i forskellige fora se f.eks www.ibird.com

Der findes flere apps som kan vise fugle og gengive fuglens sang, men ingen der kan det modsatte nemlig vise fuglen ved at genkende fuglens sang.

En app til genkendelse af fuglesang kan være af stor interesse for folk i almindelighed, men kan også have flere anvendelsesmuligheder i ornitologiske forsknings- og udviklingsprojekter.

Udvikling af app til genkendelse af fuglesang vil kræve udvikling af teknologierne samt indsamling af store data mængder i form af varierende fuglesang.

I et effekttivt system vil der løbende skulle opdateres ved at nogle brugere opsamler nye varianter af fuglesang og uploader disse til et centralt system.

Virksomheden pr-development har tidligere deltaget i et videnkuponprojekt om genkendelse af fuglesang og har derfor en smule viden om udfordringerne ved at skulle udvikle et sådant system.
Denne viden stiller vi gerne tilrådighed og deltager gerne i den videre udvikling af et system til genkendelse af fuglesang.

Palle Erik Rasmussen
indehaver
pr-development