Bij het deelproject ‘Saloncatalogi’ werkt Alec Van den broeck aan geautomatiseerde transcriptie en datamining via machine learning op de catalogi van de negentiende-eeuwse kunstsalons. Hiervoor maakt hij gebruik van tekstherkenning. Partner in het project is MSK Gent.
De eerste stap in de automatische datamining van de saloncatalogi bestaat erin om de woorden correct te detecteren in de gescande catalogi.
Vervolgens bracht Alec deze gedetecteerde woorden samen tot tekstregels en paragrafen.
Deze worden daarna uitgelezen door een tekstherkenningsmodel (ook wel Optical Character Recognition of OCR geheten) om zo machinewerkbare tekstbestanden te produceren. De kwaliteit van dit proces wordt gemeten aan de hand van de Character Error Rate (CER), die aangeeft hoeveel karakters er procentueel fout uitgelezen worden. De finale iteratie van de OCR bij het saloncatalogiproject heeft een CER van minder dan 5%.
De volgende stap in het datamining-proces bestaat erin om uit de tekstbestanden persoonsnamen, tijdsaanduidingen en locaties te filteren. Deze bevat immers vitale informatie over de aanwezige kunstenaars. Op basis hiervan kan daarna een link gelegd worden naar externe authorities zoals VIAF, RKD Artists en Wikidata. Ten slotte wordt al deze data in een database verzameld zodat onderzoekers hiermee verder aan de slag kunnen.