Om prosjektet

Formålet med WebData-prosjektet er å bygge en nasjonal forskningsinfrastruktur for data fra internett. Infrastrukturen skal gi tilgang for forskere, studenter og andre interesserte, samtidig som personvernmessige og opphavsrettslige hensyn ivaretas. Prosjektet er finansiert av Forskningsrådet.

WebData skal legge til rette for forskning på norsk og samisk språk og kultur og bidra til utvikling av språkteknologi for disse språkene, blant annet gjennom å fremstille nettkorpus for bokmål, nynorsk og samisk til bruk i store språkmodeller. Prosjektet har også som mål å undersøke representasjon av samisk språk og kultur i høstede nettressurser, med mål om å bidra til bevaring av og forskning på samisk kulturarv.

WebData vil muliggjøre forskning på hvordan den norske offentligheten er blitt påvirket av overgangen til internett. Det vil åpne for studier av valg, folkestyre, media, ytringsfrihet og mulige trusler mot demokratiske institusjoner.

Prosjektmål

WebData-prosjektet har fire hovedmål. I løpet av prosjektperioden (2025–29) skal vi:

  • Bygge en forskningsplattform for søk, utforskning og uthenting av data
  • Automatisk klassifisere og vaske tekster med (sensitive) personopplysninger
  • Merke opp data for å kunne tilby analytiske tjenester (f.eks. hendelsesekstraksjon, sentimentanalyse, analyse av språkutvikling)
  • Bygge infrastrukturen i tett samarbeid med forskersamfunnet gjennom behovs- og representasjonsstudier

Prosjektorganisering

Nasjonalbiblioteket leder prosjektet. Prosjektet har partnere med ekspertise innenfor språkteknologi og maskinlæring: Norsk regnesentral (NR), Universitetet i Oslo (Språkteknologigruppa og HumIT), og Giellatekno – senter for samisk språkteknologi ved Norges arktiske universitet (UiT).

Arbeidspakker

WebData-prosjektet er organisert i fem arbeidspakker (WP):

  • WP-1: Dataplattform skal utvikle en nettbasert tjeneste med brukergrensesnitt som inngang til nettarkivet.
  • WP-2: Uthenting og rensing av data skal bygge programvare for å trekke ut, rense og kategorisere tekstdata fra nedlastede nettsider.
  • WP-3: Multimodalitet skal utarbeide metoder for uthenting og søk i data som ikke er tekst, f.eks. lyd og (levende) bilder.
  • WP-4: Databeriking har som mål å merke opp et utvalg av nettekster til bruk i språkteknologi, f.eks. for å kunne tilby søk på navn og hendelser.
  • WP-5: Formidling er ansvarlig for kontakt med forskningsmiljøene som skal bruke plattformen og sørger for at plattformen svarer på forskernes behov og at samisk språk er godt representert i høstingen.