
WebData-forskere på nettarkiv-konferanse
Innholdsfortegnelse
Flere av forskerne i WebData-prosjektet har vært i Brussel for å delta på Web Archiving Conference 2026, arrangert av the International Internet Preservation Consortium (IIPC). Der har de presentert foreløpige resultater fra prosjektet, og utvekslet erfaringer med andre som jobber med å legge til rette for forskning på nettarkiv.
Flere bidrag fra WebData
Det var stor interesse for de ulike bidragene fra WebData-prosjektet. WebData var blant annet representert med tre postere:
Assessing the Needs of Researchers: Jon Tønnessen (NB) presenterte resultatene fra behovstudien vi har gjennomført blant 99 forskere som ønsker å benytte nettarkiv i sin forskning. Vi har kartlagt hvilke utfordringer de opplever, og hvilke behov de har for å kunne bruke nettarkivene på en mer effektiv måte. Flere var begeistret for at vi har gjort et slikt arbeid, slik at man kan få et bedre grunnlag for utvikling av tjenester og verktøy som kan møte forskernes behov.
Mapping duplicate images in a web archive using perceptual hashing: Marie Roald (NB) presenterte en metode for å identifisere duplikater av bilder i et nettarkiv ved hjelp av perseptuell hashing (pHash). Dette gjør det langt enklere å finne bilder i arkivet som mennesker vil oppfatte som like, selv om maskiner i utgangspunktet vurderer de som helt ulike. En fordel for prosjektet er at maskinlærings-metoder kan gjøres langt mer bærekraftig, siden omfanget av databeregning kan reduseres betraktelig.
Revisiting a statistical approach for measuring Solr query performance: Jørgen Antonsen (NB) presenterte en metode for å måle og visualisere ytelse ved søk mot WebData-prosjektets testplattform. Metoden gjør det mulig å sammenligne svartider på tvers av ulike typer søkeresultat, for eksempel søk med svært få eller svært mange treff. Dermed får man et bedre grunnlag for å vurdere effekten av ulike tekniske tiltak, slik at ytelsen kan forbedres for sluttbruker.
For øvrig deltok WebData-medarbeidere i tre verksted og én panelsamtale:
- Users first: (Re)designing Web Archives around real Needs (panel)
- Foruten Tønnessen deltok personer fra UK National Archives, Bibliothéque nationale de France, University of Ghent og University of Edinburgh. Det ble særlig løftet fram at nettarkiv trenger å gå fra en «samle først»-tankegang til en mer brukerorientert tilnærming, og der samlingene i større grad kan tilgås av forskere, kulturarvsarbeidere, journalister og andre.
- Workshop on Web Archives and AI (workshop)
- GLAM labs & Jupyter notebooks (workshop)
- SolrWayback (workshop)
Økt fokus på tilgang, forskning og bærekraft
Det var mange interessante bidrag på konferansen. Det er umulig å nevne alle, men vi løfter gjerne fram noen med stor relevans for WebData-prosjektet:
Historikeren Ian Milligan presenterte sin forskning på terrorangrepene 11. september 2001. I presentasjonen Web archives of tragedy: ethical, sustainable access and research use for 9/11 collections viste han hvordan historikere er helt avhengige av å benytte nettarkiv som primærkilder for å gjøre kulturhistorisk og sosialhistorisk forskning på hendelser etter år 2000.
National Archives UK holdt en presentasjon under tittelen Unlocking the Web Archive: understanding researcher needs, og sine undersøkelser av hvordan de bedre kan legge til rette for forskning på sitt nettarkiv. Gjennom workshops med både erfarne og potensielle brukere har de kartlagt ulike barrierer for tilgang, forståelse og forskningsbruk, samt hvilke praktiske og etiske rammer institusjonen må forholde seg til.
Språkteknologen Laurie Burchell presenterte Common Crawl sitt arbeid med å forbedre språkgjenkjenning i nettarkiv. Eksisterende løsninger er enten for unøyaktige, særlig for mindre språk, eller for ressurskrevende til å brukes i stor skala. Common Crawl utvikler derfor et system spesielt for nettdata. Dette kan håndtere flerspråklige nettsider og er laget for å være svært raskt, noe som øker muligheten for å utvikle flerspråklighet i nettarkiv, og styrke arbeidet med språkteknologi for underrepresenterte språk.
Historikeren Jesper Verhoef viste i sitt innlegg, Hyperlinked homeland: A historical hyperlink analysis of 200 Dutch LGBT+ websites, hvordan han har analysert hyperlenker i en nederlandsk nettarkivsamling med LGBT+-nettsteder. Ved å undersøke hvilke nettsteder det ble lenket til kunne han avdekke nettverk av identitet og tilhørighet i det nederlandske nettarkivet. Analysen utfordrer antakelsen om at skeive nettkulturer først og fremst er transnasjonale, blant annet ved å påvise tydelige nederlandske og ofte hyperlokale klynger av skeive nettsted.
David Mahoney delte spennende funn fra sitt PhD-prosjekt, der han benytter nettarkiv til å studere hvordan nettsider har vokst og endret seg over tid. Ved å bruke åpne metadata og visningstjenester kan han måle hvordan den digitale utviklingen har bidratt klimautslipp over tid. Dermed viste hvordan metadata fra bibliotek kan være en viktig kilde til kunnskap om webens utvikling, ressursbruk og bærekraft.
Katy Boss fra presenterte også hvordan NB arbeider med å gjøre digital bevaring mer bærekraftig, blant annet gjennom dataminimering, reduksjon av energiforbruket ved lagring, nesten utelukkende bruk av fornybar energi og en kommende etablering av fjernvarme fra NBs datasenter i Mo i Rana.
