Slik jobber Nasjonal­biblioteket med å utvikle norske språkmodeller

– KI kommer til å gjennomsyre alle samfunnsområder. I fremtiden kan vi ikke bruke en bank, søke på nett, melde oss inn i et idrettslag eller snakke med forvaltningen uten å være innom kunstig intelligens på en eller annen måte, sier Aslak Sira Myhre, direktør for Nasjonalbiblioteket (Foto: Gorm K. Gaare / Nasjonalbiblioteket)

Norge kan ikke bare være brukere av Copilot og ChatGPT. Vi må også delta i teknologiutviklingen, mener Norges nasjonalbibliotekar.

Når Aslak Sira Myhre forteller Sillicon Valleys elitegründere om hvordan regjeringen støtter utviklingen av norske språkmodeller, skulle man tro de ville avfeid satsingen som et merkelig sosialistisk prosjekt. 

– Jeg sitter i rådet for biblioteket ved Stanford University sammen med folk som har tjent seg søkkrike på IT. Når jeg forteller om norske språkmodeller, sier de: «Det er fantastisk. Dette skulle alle land gjort.» 

Veien fra universitetet hvor Larry Page gründet Google til det norske Nasjonalbiblioteket, er altså overraskende kort. 

Men når nasjonalbibliotekar Sira Myhre ikke diskuterer med tech-gründere i USA eller håndhilser på paven, er han mest opptatt av å snakke om det norske språket. 

– Vi har fått i oppgave å levere språkmodeller som skal ivareta norsk språk og norsk kunnskap til bruk i både forvaltning og næringslivet, sier han. 

Trent 17 modeller

statsbudsjettet har regjeringen satt av 20 millioner kroner til Nasjonalbibliotekets arbeid med å trene, oppdatere og tilgjengeliggjøre norske språkmodeller. 

Dette er ikke et nytt arbeid, men noe biblioteket har jobbet med omtrent siden ChatGPT ble lansert. 

– Vi har jobbet både med kunstig intelligens og språk i over ti år. Så kom KI-revolusjonen for omtrent to år siden, og maskinene fikk en ny rolle, sier Myhre. 

Gjennom prosjektet Mímir har Nasjonalbiblioteket, UiO og NTNU trent opp 17 ulike generative språkmodeller. 

Norge ligger i forkant

Blant disse er NB Whisper, en tale-til-tekst-modell som er bedre enn OpenAIs grunnmodell til å oversette og transkribere norsk språk. 

Grunnen til at språkmodeller fra Nasjonalbiblioteket presterer så godt, er at den er trent på innhold i Nasjonalbibliotekets digitale samling. Den inneholder nesten alt publisert materiale på norsk gjennom historien. 

– Dette med å utvikle egne språkmodeller er ikke et norsk påfunn. Land som Italia, Tyskland, Frankrike og Belgia diskuterer det samme. Fordelen vår er at vi har digitalisert tilnærmet all tekst, mens de fleste andre land jobber med å skaffe treningsdata. Det har gitt oss muligheten til å faktisk sette modellen i produksjon, sier han. 

NRK og Universitetet i Oslo har laget egne tjenester basert på NB Whisper. Politiet har uttalt at teknologien representerer et «enormt effektiviseringspotensial» når det kommer til transkribering av avhør. 

Spår problemspesifikke modeller

Myhre spår at NB Whisper kommer til å bli et verktøy i en verktøykasse av mange små modeller, som lages for å løse hver sine problemspesifikke oppgaver. 

Dette er i motsetning til GPT-4, som er én stor generell modell, designet for å løse alle slags forskjellige oppgaver. Han forklarer at det er to store fordeler med å gjøre det på denne måten. 

– Det første handler om at du kan renske ut masse drit, slik at det ikke ligger en masse internettsøppel eller kinesisk propaganda i treningsdataene. 

Det andre handler om at små og spesifikke modeller krever mindre datakraft, kan kjøres på mindre maskiner – og enklere kan settes i produksjon uten at man må bygge ut enorme infrastrukturer og energikrevende datasentre. 

Nasjonalbiblioteket jobber ikke bare med bøker og teknologi. Nylig møtte Sira Myhre paven i forbindelse med at Nasjonalbiblioteket og Vatikanet skal samarbeide om et stort digitaliserings- og arkiveringsprosjekt (© Vatican Media)

Lager byggesteiner

Nasjonalbibliotekets språkmodeller skiller seg fra kjente tjenester som ChatGPT, Gemini og Claude. Dette er ikke chat-baserte verktøy du kan kommunisere med, men snarere heller en teknologi som andre står fritt til å utvikle egne produkter og tjenester fra. 

De vil bli bygget ut fra kjent teknologi, som GPT, Mistral og Llama fra Meta, og deretter trent, modellert og fintunet på unike datasett og parametere. 

– Vi lager byggesteiner. Håpet vårt er at Microsoft, Schibsted, NRK eller andre gründere vil bruke modellene, nettopp fordi de leverer noe andre modeller ikke kan. Og at modellene vil gi de som allerede jobber med språk i Norge, forlag, aviser og forfattere, bedre redskaper enn det markedet gir dem i dag. Både som hjelpemidler og til egen forretningsutvikling, sier han. 

– Når vi lager byggesteiner er det markedet som avgjør hva som fungerer, og ikke staten som skal bestemme at vi skal bruke den språkmodellen. 

Viktig med forretningsutvikling

Myhre forklarer at mye av dette også handler om forretningsutvikling og om å legge til rette for norsk næring og innovasjon. 

– Vi har muligheten til å stå på egne bein og være i en langt sterkere posisjon enn mange andre land. Det handler om mer enn bare språkmodeller. Det gjelder også teknologisk infrastruktur, som egen datakraft.

Han viser til arbeidet med Sigma2 som jobber med tungregning og supercomputere, og at regjeringen har bevilget 20 millioner kroner til tungregningskapasitet for trening av språkmodeller. 

– Norge kan ikke bare være brukere av Copilot og ChatGPT. Vi er også nødt til å være kreative, skapbare og delta i teknologiutviklingen, legger han til. 

– Må kjenne til den norske erfaringen

Men hvorfor er det egentlig så viktig med norske språkmodeller? Alle som har prøvd ChatGPT, Copilot eller Gemini merker at de er ganske gode i norsk. 

Problemet er at ganske gode ikke holder når det kommer til nynorsk, samisk, dialekter eller andre nyanser i språket. 

– KI kommer til å gjennomsyre alle samfunnsområder. I fremtiden kan vi ikke bruke en bank, søke på nett, melde oss inn i et idrettslag eller snakke med forvaltningen uten å være innom kunstig intelligens på en eller annen måte, sier Myhre. 

– Om vi ikke lager gode modeller, er det til slutt KI som bestemmer fremtidens rettskriving. Vi vil lage redskaper som gjør at det fortsatt er Språkrådet og måten folk i Norge skriver på som avgjør hvordan vi skriver, ikke en algoritme fra Open AI.  

Da er det avgjørende at treningsdataene gjenspeiler det norske språket – og norsk historie – på en god måte.

– Modellene bør kjenne til norsk litteratur, trepartssamarbeidet og kvinnebevegelsen på 60-70-tallet. Ting som er helt særegne for den norske erfaringen

– Det er viktig at dette, og ikke bare amerikanske samfunnsforhold, ligger til grunn når kunstig intelligens skal brukes i saksbehandlinger, skole, kredittvurderinger og andre viktige beslutninger. 

Det er nemlig også et viktig poeng: Små, gjennomdokumenterte modeller har ikke den samme «black box»-problematikken som store språkmodeller. 

Det er lettere å forstå hvordan de kommer fram til et svar. Derfor kan de være enklere å ta i bruk i miljøer med strenge krav til samsvar, nøyaktighet og nøytralitet.

Forberedt på utfordringer

Allerede har Nasjonalbiblioteket bevist at små, norske språkmodeller kan konkurrere mot de store og generelle kommersielle modellene på flere områder. 

De har bygget opp kompetanse på treningsdata og utvikling – særlig gjennom et godt samarbeid med norske forskningsmiljøer. 

Om statsbudsjettet vedtas, er planen å utvide verktøykassen av språkmodeller med flere generative modeller. Det viktigste er at de skal lage ting folk faktisk tar i bruk. 

– Vi kommer sikkert til å se en rekke problemer og set backs. Noen modeller kommer sikkert til å gjøre feil, mens andre kommer ikke til å virke slik vi ønsker. Det må vi ta høyde for, akkurat som i et marked. 

– For å lykkes må vi i hvert fall være kreative og tørre å feile.