Dansk for alle

Senest opdateret d. 1/5-2018
Alexandra Instituttet
Resultatkontrakt 2019-2020 under temaerne Informations- og Kommunikationsteknologi

Der er nye muligheder for automatisk håndtering af tekst til næste generation af services, kundesupport og kundefeedback. Der er dog mangel på viden og adgang til ressourcer både i form af annoterede datasæt men også metoder og værktøjsbyggeklodser.

Vi ønsker at udvikle et sæt danske ressourcer til automatisk sproghåndtering. Dvs. et sæt sprogressourcer, der tillader SMV’er (og alle andre) at bygge automatisk håndtering af det skrevne danske sprog. Ressourcerne tager form af datasæt, metoder, regelsæt, værktøjer, opskrifter og tilgængelige best practices, så virksomheder nemt kan komme i gang med at bygge kunstige intelligens-systemer, der håndterer dansk tekst. Der vil være tale om et sæt byggeklodser, der kan anvendes på tværs af forskellige virksomheder og forretningsdomæner. I dette projekt vil vi demonstrere de udviklede ressourcer i cases med særligt udvalgte virksomheder og vise, hvordan man nemt kan håndtere danske tekster ved hjælp af kunstig intelligens.

Store internationale virksomheder som Google, Facebook og Microsoft satser stort på automatisk håndtering af sprog som en service, men dansk understøttes kun sporadisk og opdateringer­ til de nyeste teknologier kommer meget sent. F.eks. ved vi at Nuance (førende leverandør inden for talegenkendelse) har meddelt deres kunder, at dansk ikke er prioriteret, da markedet er for lille, og det er for svært et sprog. Det er et problem i forhold til konkurrenceevne, opbygning af viden og den fremadrettede digitalisering af Danmark både hos virksomhederne og i den offentlige sektor.

 

Der er et kæmpe forholdsvist uudnyttet potentiale i moderne sprogteknologier, kombineret med big data. Vi ønsker at stille dette potentiale til rådighed for danske virksomheder, og vi vil gøre det med konkrete aktiviteter, hvor vi bygger videre på det arbejde, der allerede er gjort i bl.a. DABAI samt med kompetencer opbygget i Alexandra Instituttet som en del af RK Big Data og ph.d.-uddannelser.

Nøgleord

17 kommentarer

Herunder er indlæg og kommentarer fra interessenter på aktiviteter og aktivitetsforslag.

Niels Dahl
Torsdag d. 19/4-18 kl. 15:57

I Digital Revisor ser vi klart et behov for bedre danske tekst ressourcer. Vi ser Alexandra Instituttet som oplagt kandidat til at stå for at indsamle og videreformidle dette.

Jan Neerbek (Data Scientist, Alexandra Instituttet, jan.neerbek@alexandra.dk)
Torsdag d. 19/4-18 kl. 20:19

Hej Niels,
Tak for fin kommentar. Jeg er helt enig - det er på tide vi får gjort det her rigtigt og til gavn for alle!
Mvh
Jan

Lasse Bo Jensen
Fredag d. 20/4-18 kl. 14:41

Her hos IVN arbejder vi med skreven kommunikation og information. Der er god forretning i at få samme kvalitet af værktøjer til skrevet dansk som vi ved eksisterer på engelsk.

Jan Neerbek (Data Scientist, Alexandra Instituttet, jan.neerbek@alexandra.dk)
Mandag d. 23/4-18 kl. 09:10

Hej Lasse,
Det er nemlig helt rigtigt. Der er mange firmaer som jer hvor (automatisk) forståelse af skreven kommunikation er en væsentlig del af forretningen og hvor bedre værktøjer til dansk tekst kan give bedre produkter/services og dermed også bedre forretning. Fin kommentar med forskellen i support af dansk og engelsk - der er ingen grund til at dansk skal være ringere understøttet end engelsk, det kræver "bare" en koncentreret indsats som jeg håber denne RK kan være startskuddet til :)

Jakob S. Bo (CEO, Ideanote)
Torsdag d. 26/4-18 kl. 12:32

Hos Ideanote ser vi et stort behov for dansktalende NLP på niveau med den internationale standard - jeg fik feedback fra vores salgsteam så sent som idag at det engelsktalende NLP der hjælper kunder i vores onboarding gentagne gange misforstår kunder.

Hvis vi i Danmark vil blive ved med at være stolt på at føre i vores produktivt... så skal vi enten alle skifte helt til engelsk eller lade teknolgien rundt om os lære dansk.

Jan Neerbek (Data Scientist, Alexandra Instituttet, jan.neerbek@alexandra.dk)
Torsdag d. 26/4-18 kl. 16:58

Hej Jakob,
Tak for kommentar. Det er spot on i forhold hvad tanken bag forslaget er. Der er ingen grund til at dansk skal være ringere supporteret end fx engelsk. De fleste engelske modeller kan direkte anvendes på dansk - det kræver "blot" nogle gode annoterede datasæt og noget teknisk viden som vi skal sørge for at fastholde.
Det er kroner direkte ind på bundlinjen, hvis vi sørger for at løse det her ordenligt. Og hvem vil dog snakke engelsk til fx SKAT (tak for den!)

Bjørn Reese (Software Director, Roku Denmark)
Tirsdag d. 1/5-18 kl. 12:07

Udbredelsen af automatisk sprogforståelse drives i høj grad af globale virksomheder som ikke fokusere på mindre sprog såsom dansk. Derfor kan initiativer som dette bidrage til at undgå at dansk bliver et sekundært sprog i den digitale verden.

Jan Neerbek (Data Scientist, Alexandra Instituttet, jan.neerbek@alexandra.dk)
Tirsdag d. 1/5-18 kl. 13:44

Hej Bjørn,
Tak for kommentar. Du har ret, dansk er et niche sprog i denne sammenhæng. Derudover tror jeg også at vi (på tværs af forretnings domæner) har brug for noget mere end det f.eks. Facebook eller Google har brug for og vil sælge til os andre. Jeg tror at det er vigtigt at vi i Danmark får momentum på at indsamle og fastholde danske sprog ressourcer og jeg ser dette RK forslag som et vigtigt første skridt til at opnå dette.

Thomas Braad Perret-Gentil (Client Technical Advisor, IBM)
Tirsdag d. 22/5-18 kl. 21:00

For det danske sprog og samfund er der ingen tvivl om at en central opbygning af sprog-materiale til træning og udvikling af kognitive systemer med sproglig forståelse vil være en stor fordel for alle. Ingen tvivl om at dansk er et nichesprog set globalt, men tilgængeligheden af rettighedsfrit, godt og gennemarbejdet træningsmateriale på det danske sprog vil utvivlsomt betyde at teknologi-virksomhedernes appetit for at kaste sig ud i danske implementering vil stige betragteligt.

Jan Neerbek (Data Scientist, Alexandra Instituttet, jan.neerbek@alexandra.dk)
Torsdag d. 24/5-18 kl. 11:38

Hej Thomas,
Tak for din kommentar. Jeg er helt enig i at det er vigtigt at vi har et åbent (rettighedsfrit) sæt af højkvalitets ressourcer til at træne modeller på, det vil give mulighed for alle virksomheder store, som små at lave bedre produkter. Fedt at du som ansat i en rigtig stor spiller som IBM også kan se at åben adgang til højkvalitets data/algoritme ressourcer er vigtig!

Christian Hjortgaard (Co-Founder, Collektive)
Onsdag d. 23/5-18 kl. 12:04

Manglende danske sprog ressourcer er en stor udfordring for udvikling af gode danske NLP-services. Og opgaven er (for) stor for en ren kommerciel virksomhed. Jeg tænker, at det er helt rigtigt at Alexandra Instituttet driver et sådan projekt.

Jan Neerbek (Data Scientist, Alexandra Instituttet, jan.neerbek@alexandra.dk)
Torsdag d. 24/5-18 kl. 11:48

Hej Christian,
Tak for din kommentar. Det er nemlig en vigtig opgave at få løst! Som jeg også skriver i oplægget så vil den kommercielle virksomhed altid fokuserer på en snæver del af sproget og så får vi den situation som vi så med talegenkendelsessystemerne for 10 år siden; en skov af systemer som kun virker 80% af gangene og som kunderne vender ryggen. Hvis de virksomheder dengang havde lagt deres sprog ressourcer i en fælles platform og i stedet fokuseret på at udvikle gode services ville flere af produkterne/virksomhederne nok have overlevet til i dag!

Lasse Lorenzen (Chief Technology Officer, Scio+)
Mandag d. 28/5-18 kl. 17:18

I Scio+ arbejder vi med maskinlæring af på store datasæt og vi i den forbindelse også arbejde med bruger-input. Grundet vores branche er det vigtigt at vi kan arbejde med det danske sprog, specielt hvis vi skal kunne tilbyde løsninger der er er lige så optimerede som dem vi kan tilbyde på de store sprog, og dermed sikre at de danske landmænd har samme vilkår for at konkurrere.

Håber dette forslag får støtte.

Jan Neerbek (Data Scientist, Alexandra Instituttet, jan.neerbek@alexandra.dk)
Mandag d. 28/5-18 kl. 15:42

Hej Lasse,
Tak for din kommentar. Godt at høre at en data-drevet virksomhed som Scio+ også kan se behovet for god understøttelse af dansk sprog. Vi hører fra mange virksomheder at de gerne vil understøtte dansk i deres produkter, men at det kræver at dansk er lige så nemt at gå til (data science/udviklingsindsatsen) som med de store sprog, fx. engelsk.
Jeg håber også at vi får støtte til dette forslag!

Stig Pedersen (Senior Projektleder Machine Learning, Topdanmark Forsikring)
Torsdag d. 31/5-18 kl. 11:02

Automatisk sproghåndtering på dansk er væsentligt indenfor for forsikring. Dette forslag vil kunne styrke tempoet i vores egen modeludvikling og jeg håber meget dette projekt bliver sat i værk.

Jan Neerbek (Data Scientist, Alexandra Instituttet, jan.neerbek@alexandra.dk)
Torsdag d. 31/5-18 kl. 14:21

Hej Stig,
Tak for kommentar og støtte. Det er nemlig også tanken med forslaget at det skal sætte virksomheder i stand til at komme hurtigere i mål med projekter der kræver sprog forståelse. Det betyder jo mere tid til udvikling af features der styrker forretningen og mindre tid skal bruges på at lave basis sprog forståelse.
Mvh
Jan

Dorte Kulle (Chefkonsulent, SMVdanmark)
Torsdag d. 31/5-18 kl. 16:57

Interessant forslag, og med tilgængelig for alle vil det klart være en hjælp for mange SMV'er