Die anstehende DHd2018 (Köln) ist ein guter Anlass eine bestehende Korpus-Ressource zu veröffentlichen. Der Deutsche Bundestag veröffentlicht unter https://www.bundestag.de/service/opendata die Plenarprotokolle OpenAccess in einem sehr rudimentären XML-Format. Die vorhandenen Metadaten wurden extrahiert und der Text wurde korpuslinguistisch aufbereitet. Der Text wurde hierzu bereinigt, und mittels TreeTagger annotiert (POS, Lemma, Phrasen). Da das Korpus sehr umfangreich ist, wurde für jede Wahlperiode ein eigenes Korpus erstellt. Das analysefertige Gesamtkorpus (für den CorpusExplorer) kann unter [Korpora] herunter geladen werden.
Korpus: Deutscher Bundestag Plenarprotokolle
2018-02-22 | CorpusExplorer