For best experience please turn on javascript and use a modern browser!
You are using a browser that is no longer supported by Microsoft. Please upgrade your browser. The site may not present itself correctly if you continue browsing.

De toegankelijkheid van tekstuele erfgoedcollecties

Dankzij de langdurige inspanningen van erfgoedinstellingen zijn er wereldwijd inmiddels gedigitaliseerde erfgoedcollecties in overvloed. ‘Hoewel het digitaal toegankelijk maken van erfgoedcollecties begint met digitalisatie, eindigt het er niet mee; er is nog veel winst te behalen op het gebied van het indexeren van inhoud en aanbieden van zoekopties voor gebruikers’, vertelt Colavizza. In andere contexten wordt hierbij gebruik gemaakt van een techniek als machine learning, maar daarvoor zijn grote hoeveelheden (meta)data nodig die in de erfgoedcollecties nog ontbreken.

Dit vormde de aanleiding voor Colavizza om te willen onderzoeken of de technieken die komen kijken bij machine learning kunnen worden aangepast voor andere taken waarbij weinig of geen data beschikbaar is. Deze aanpassing wordt aangeduid met de term ‘overdrachtleertechnieken’ (transfer learning); de toepassing hiervan binnen de erfgoedsector is nog niet eerder op een systematische manier onderzocht. ‘De tijd is rijp om door middel van transfer learning een poging te doen om significante verbeterslagen te maken in de toegankelijkheid van tekstuele erfgoedcollecties,’ aldus Colavizza. ‘Het is de bedoeling dat het zoeken in erfgoedcollecties straks net zo soepel gaat als zoeken op het internet.’

Drie taken

‘In ons project willen we transfer learning toepassen op drie taken die gericht zijn op het toegankelijk maken van tekstuele erfgoedcollecties,’ vertelt Colavizza: ‘een zinsontledingstaak waarbij vermeldingen van bijvoorbeeld personen of plaatsen worden gedetecteerd; een taak waarbij door middel van taalbegrip een kennisbank wordt opgebouwd; en een taak gericht op betekenissen van woorden die over tijd veranderd zijn.’

Het onderzoek wordt uitgevoerd op bronnen in twee talen: voor de Engelstalige kant zullen de open access-collecties van de British Library worden aangeboord, en voor het Nederlands gaat Colavizza’s team samenwerken met de Koninklijke Bibliotheek. Niet alleen zal de krantencollectie van de KB worden gebruikt, maar zij delen ook hun expertise en zullen adviseren bij het onderzoek. Het project is tevens ingebed in het onderzoeksprogramma CREATE onder het thema ‘AI for cultural heritage’.

Breder gedragen

Het onderzoek moet leiden tot het indexeren van content en het creëren van zoekopties binnen tekstuele erfgoedcollecties, waardoor de eindgebruiker beter uit de voeten kan met het materiaal. Een verbeterde digitale toegang zou uiteindelijk moeten leiden tot een groter aantal gebruikers. Hierdoor wordt het erfgoed breder gedragen in onze samenleving. ‘Zonder affectieve toegang tot content kan gedigitaliseerd cultureel erfgoed geen onderdeel worden van de geleefde geschiedenis van de maatschappij,’ aldus Colavizza. ‘We willen het uit de wetenschappelijke sfeer halen.’

Over de Ideeëngenerator

De projecten uit het programma Ideeëngenerator van de Nationale Wetenschapsagenda kenmerken zich door hun innovatieve karakter en hun mogelijke impact op de maatschappij. In totaal wordt de subsidie in deze ronde toegekend aan veertig onderzoekers, waaronder acht UvA’ers; er was deze ronde 2 miljoen euro beschikbaar.