DTA::CAB ist ein orthographischer Normalisierer für historische Sprachstufen des Deutschen (entwickelt von Bryan Jurish, Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften). Mit diesem Add-on können Sie frühneuhochdeutsche und mittelhochdeutsche Texte automatisch normalisieren und annotieren. Nach der Installation wählen Sie dazu den Tagger „DTA::CAB + TreeTagger“ aus. Eine bestehende Internetverbindung während der Normalisierung/Annotation ist erforderlich, da die Daten an das „Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften“ geschickt werden (es erfolgt keine Speicherung – die Texte werden direkt verarbeitet). Nach der Annotation stehen Ihnen vier Layer bereit (Wort = die normalisierte Wortform / Lemma = das Lemma der normalisierten Wortform / POS = Part-of-Speech bzw. Wortart / Original = der originale Rohtext). Wenn Sie dieses Add-on im Rahmen einer
wissenschaftlichen Arbeit nutzen, dann zitieren Sie bitte folgende Arbeit:
Jurish, B. Finite-state Canonicalization Techniques for Historical German.
PhD thesis, Universität Potsdam, 2012 (defended 2011). URN
urn:nbn:de:kobv:517-opus-55789
Weitere DTA::CAB relevante Arbeiten finden Sie unter:
http://odo.dwds.de/~jurish/software/dta-cab/#pubs
Das Add-on können Sie entweder direkt aus dem CorpusExplorer heraus installieren, oder über die Add-on-Seite herunterladen.