Korpora

Alle hier aufgeführten Korpora (insgesamt über 2 Mrd. Token) sind frei verfügbar und können kostenfrei zu nicht kommerziellen Zwecken genutzt werden (siehe „Allgemein“). Voraussetzung für die Nutzung ist ein bereits installierter CorpusExplorer (kostenfrei / OpenSource). Dieser erlaubt nicht nur die Analyse und Visualisierung der Korpusdaten, sondern sorgt auch dafür, dass Sie immer mit aktuellstem Korpusmaterial arbeiten (Korpus-Autoupdate).

Installationsanleitung:

Stellen Sie sicher, dass der CorpusExplorer geschlossen/beendet ist, bevor Sie weiter fortfahren.
Klicken Sie auf den Download-Button der gewünschten Korpora, um den Download zu starten. Hinweis: Seien Sie bitte nicht irritiert, die Datei ist ca. 1-4 KB groß. Speichern Sie die Datei unter:
„Meine Dokumente“ > „CorpusExplorer“ > „Meine Erweiterungen“
Wenn Sie das nächste Mal den CorpusExplorer starten, werden die Korpora automatisch installiert und auch zukünftig aktuell gehalten. Die Korpora sind dann unter „Korpora“ > „Existierendes Korpus laden“ verfügbar.

Korpora konvertieren:

Korpora auf dieser Seite werden im Format CEC6 ausgeliefert. Ein Export in andere Korpusformate (DTABf, Weblicht, XML, JSON, etc.) ist mittels CorpusExplorer möglich. Für die Konvertierung gibt es vier Optionen (Optionen 1-3 setzen einen installierten CorpusExplorer voraus [kostenlose Installation] – Option 4: Ist webbasiert):

1. ENTWEDER: Sie laden ein Korpus in den CorpusExplorer und exportieren es via ‚Schnappschuss Übersicht‘ > ‚Exportieren‘.
2. ODER: Sie drücken gleichzeitig die Tasten WINDOWS und R. Der Dialog „Ausführen“ erscheint. Geben Sie hier folgendes ein: CorpusExplorer –conv
  Bestätigen Sie die Eingabe mit OK und folgen Sie den Anweisungen.
3. ODER: Die Konvertierung ist auch ohne GUI möglich, mittels CMD-Shell und der CorpusExplorer-Console (cec.exe):
```
cec.exe import#Cec6#C:input.cec6 convert Xml#C:output.xml
```
4. ODER: Sie nutzen den Web-Konverter:
  https://convert.corpusexplorer.de/
  Bitte nur für kleine Korpora (bis max. 50 MB) verwenden.
5. ODER: Für große Korpusmengen (viele und große Korpusdateien) nutzen Sie gerne den CEC6-Converter (funktioniert unter Windows, Linux und MacOS): http://hdl.handle.net/11372/LRT-5705

Lizenz:

Falls keine andere Lizenz genannt wird, steht das Korpusmaterial auf dieser Seite unter der CC BY-NC 4.0 Lizenz zur kostenlosen/freien Verfügung.

Rechtliches / Datenschutz:

Die hier bereitgestellten Korpora sind entweder gemeinfrei (z. B. Gesetzestexte, Plenarprotokolle, 70 Jahre nach Tod des Urhebers §64 UrhG), basieren auf bereits existierenden gemeinfreien Korpora (siehe entsprechende Verweise – in Rücksprache mit den Originalautor*innen). Wenn Sie Beanstandungen irgendwelcher Art gegen ein Korpus oder Korpusteile haben (z. B. bestimmte Dokumente innerhalb des Korpus), dann melden Sie bitte das Korpus – bzw. Korpus + GUID (für beanstandete Dokumente). Ich werde das Material prüfen und innerhalb weniger Werktage entfernen.

Statistik:

Für die Korpora sind separate Statistiken ausgewiesen. Hier eine Statistik zum Gesamtmaterial:

Dokumente: 10’643’180 – Token: 6’232’033’007

Hinweise:

Große Korpora (größer 2GB) setzen eine schnelle und stabile Internetverbindung für den Download voraus, sowie einen leistungsstarken PC (min. Quad-Core CPU / 16 GB RAM).
Wenn Sie über eigenes Korpusmaterial verfügen, dass Sie publizieren möchten, dann (A) überprüfen Sie bitte zuerst, ob es sich lohnt, dieses in einem öffentlichen Langzeit-Repository zu publizieren. Ich berate Sie auch gerne. (B) Zusätzlich/alternativ biete ich auch an, das Material hier zu publizieren. Nutzer*innen des CorpusExplorers können so das Korpus mit wenigen Klicks aus der Anwendung heraus nutzen (siehe nächster Punkt).
Korpora, die für den CorpusExplorer publiziert werden, verfügen über eine Auto-Update-Funktion. Wie oben erwähnt, biete ich an, das Hosting zu übernehmen. Sie können Korpora aber auch ganz einfach selbst hosten (z. B. hausinterne Verteilung -oder- Verteilung an Seminargruppe). Dazu sind nur drei Schritte nötig. [Anleitung hier]

Verfügbare Korpora (Korpus-Addons):

Radiopredigtenkorpus:
1933–1939; 1950–1960; 2010–2024 !NEU!

Das Korpus deutscher Radiopredigten umfasst über 29.000 digitalisierte und annotierte Manuskripte moderner Radiopredigten (2010–2024) sowie 267 historische Texte aus der Zeit des Nationalsozialismus (1933–1939) und 96 aus dem DDR-Rundfunk (1950–1960).

Die modernen Predigten sind Endfassungen gesendeter Manuskripte aus RBB, HR, WDR, SWR, BR und SR und decken das gesamte Bundesgebiet ab. Die historischen Bestände stammen aus kirchlichen Archiven bzw. zeitgenössischen Publikationen und wurden über die Reichssender Köln und München sowie den DDR-Rundfunk verbreitet. Das Korpus vereint damit drei exemplarische Zeiträume der Radiopredigtgeschichte (1924–2024) unter unterschiedlichen politischen Systemen, einschließlich Phasen staatlicher Zensur.

Das Korpus ist im Rahmen des DFG-Projekts „Denn Deine Sprache verrät Dich…“ – Sprache und Konfession 500 Jahre nach der Reformation (Kurz: Sprache und Konfession im Radio) von Dr. Anna-Maria Balbach entstanden, das von 2019–2025 unter der Projektnummer 410899976 gefördert wurde. Weitere Informationen zum Korpus unter:

Anna-Maria Balbach and Jan Oliver Rüdiger, 2025, [RPK] – Radiopredigtenkorpus (german radio sermons): 1933-1939; 1950-1960; 2010-2024, LINDAT/CLARIAH-CZ digital library at the Institute of Formal and Applied Linguistics (ÚFAL), http://hdl.handle.net/11372/LRT-5975.

113 MB – 29,5 Tsd. Dokumente
20,07 Mio. Token – 1,60 Mio. Sätze
Layer: Wort, POS, Lemma

Korpora

Installationsanleitung:

Korpora konvertieren:

Lizenz:

Rechtliches / Datenschutz:

Statistik:

Hinweise:

Verfügbare Korpora (Korpus-Addons):

Radiopredigtenkorpus:1933–1939; 1950–1960; 2010–2024 !NEU!

OpenLegalData

Wahlprogramme zur Bundestagswahl 2021

Referenzkorpus Altdeutsch (750-1050)

Referenzkorpus Frühneuhochdeutsch (1350–1650)

One Million Posts Corpus

HetWiK – Heterogene Widerstandskulturen

W2C – Web to Corpus

Wikipedia

KAMOKO

DTA-Korpus

TextGrid – Digitale Bibliothek

NottDeuYTSch

CEHugeWebCorpus

Referenzkorpus Mittelhochdeutsch(1050–1350)

Referenzkorpus Mittelniederdeutsch / Niederrheinisch (1200-1650)

Briefe: Jean Paul

kleineanfragen.de

Deutscher Bundestag Drucksachen

Deutscher Bundestag Plenarprotokolle !UPDATE!

EuroParl – Deutsche Reden(L1 & Übersetzungen)

Deutsche politische Reden

Test-Korpora:

Radiopredigtenkorpus:
1933–1939; 1950–1960; 2010–2024 !NEU!

Referenzkorpus Mittelhochdeutsch
(1050–1350)

EuroParl – Deutsche Reden
(L1 & Übersetzungen)