01.12.2024
Challenge the Newspaper Data!
Die erste Data Challenge des Datenkompetenzzentrums HERMES, welche zwischen Juli und November 2024 lief, hatte das Ziel, historische Zeitungsdaten aus dem Deutschen Zeitungsportal kritisch zu analysieren. Dabei standen die Qualität der OCR-Texterkennung, die Vollständigkeit des Datensatzes und die Konsistenz der Metadaten im Fokus. Zur Teilnahme eingeladen waren alle, die an der Digitalisierung von GLAM-Beständen interessiert sind und sich gerne im Rahmen einer spannenden Challenge an deren Weiterentwicklung beteiligen wollten.
Die Kick-Off-Veranstaltung fand am 4. Juli 2024 online statt und brachte Interessierte aus verschiedenen Disziplinen zusammen. Am Ende dieses Tages hatten sich acht Teams gebildet, von denen nur ein Team die Challenge abschloss. Dieses Team, bestehend aus Boro Sofranac, Marc Fabian Mezger, Lilian Tai Do Khac und Daniel Thuerck, konnte im November 2024 seine bemerkenswerten Ergebnisse einreichen. Mit viel Expertise, Zeit und Geduld hatten sie die anspruchsvolle Aufgabe gelöst.
Sie brachten durch ihren wirtschaftlichen Hintergrund neue Perspektiven in die Analyse ein. Besonders hervorzuheben ist ihr innovativer Ansatz, Large Language Models (LLMs) zur Verarbeitung der Zeitungsdaten zu testen, um mit diesen Probleme der OCRs Scans (optical character recognition) zunächst zu verbessern und anschließend zusammenfassen zu können. Diese Methode könnte neue Wege für die Nutzung historischer digitaler Bestände eröffnen.
Derzeit ist in Zusammenarbeit mit dem Gewinnerteam eine Publikation in Vorbereitung, in der die Ergebnisse dokumentiert und einer breiteren Fachgemeinschaft zugänglich gemacht werden sollen.
Die zweiten Challenge des Datenkompetenzzentrums HERMES ist bereits in Vorbereitung. Erkenntnisse, welche aus der Evaluation und aus Gesprächen mit den Teams etwa bezüglich des Umfangs und der Komplexität des Datensatzes gewonnen werden konnten, werden in dieser Challenge berücksichtigt werden.