Die automatisierte Erschließung historischer Texte, deren Sprache und Orthografie noch keiner Standardisierung unterliegt, ist schwierig. Am Zentrum für Informationsmodellierung laufen zur Zeit drei Projekte, die sprachlich im Frühneuhochdeutschen angesiedelt sind: die Erforschung frühneuzeitlicher Diplomatenkorrespondenz (fwf, P 30091), die Edition von Reichstagsakten von 1576 (fwf, I 3446) und die Erschließung und Auswertung spätmittelalterlicher Kochrezepte (fwf, I 3614). Um eine computergestützte Aufbereitung sprachlicher Inhalte bei der Texterschließung einsetzen zu können, richten die drei Projekte in Kooperation mit dem HRSM Projekt KONDE – Kompetenznetzwerk Digitale Edition einen Workshop aus, in dem NLP-Methoden und Werkzeuge zum Information Extraction auf frühneuhochdeutsche Texte angewandt werden sollen. Der Workshop umfasst folgende Einheiten:
Montag Nachmittag, 18.03.2019:
- Einführung in die Varianz des Frühneuhochdeutschen (Erika Windberger-Heidenkummer, Universität Graz)
Dienstag, 19.03.2019:
- Corpus Explorer (Jan Oliver Rüdiger, Universität Siegen),https://notes.jan-oliver-ruediger.de/software/corpusexplorer-overview/
- Lunchtime Lecture „A Field Spotter’s Guide to Canonicalization Errors“ (Bryan Jurish, Berlin-Brandenburgische Akademie der Wissenschaften)
- CAB Web Service des Detuschen Textarchivs (Bryan Jurish),http://www.deutschestextarchiv.de/demo/cab/
Mittwoch Vormittag, 20.03.2019:
- SpacyApp (Matthias Schlögl und Peter Andorfer, Österreichische Akademie der Wissenschaften), https://spacyapp.acdh.oeaw.ac.at/
Der Workshop wird auf das Textmaterial der Projekte fokussieren, Interessierte sind aber prinzipiell willkommen! Die Teilnahme ist für zentrumsexterne Personen allerdings kostenpflichtig (€200.-/Person); Anmeldungen bitte bei helmut.klug@uni-graz.at