Korpora

Alle hier aufgeführten Korpora (insgesamt über 2 Mrd. Token) sind frei verfügbar und können kostenfrei zu nicht kommerziellen Zwecken genutzt werden (siehe „Allgemein“). Voraussetzung für die Nutzung ist ein bereits installierter CorpusExplorer (kostenfrei / OpenSource). Dieser erlaubt nicht nur die Analyse und Visualisierung der Korpusdaten, sondern sorgt auch dafür, dass Sie immer mit aktuellstem Korpusmaterial arbeiten (Korpus-Autoupdate).

Installationsanleitung:

Stellen Sie sicher, dass der CorpusExplorer geschlossen/beendet ist, bevor Sie weiter fortfahren.
Klicken Sie auf den Download-Button der gewünschten Korpora, um den Download zu starten. Hinweis: Seien Sie bitte nicht irritiert, die Datei ist ca. 1-4 KB groß. Speichern Sie die Datei unter:
„Meine Dokumente“ > „CorpusExplorer“ > „Meine Erweiterungen“
Wenn Sie das nächste Mal den CorpusExplorer starten, werden die Korpora automatisch installiert und auch zukünftig aktuell gehalten. Die Korpora sind dann unter „Korpora“ > „Existierendes Korpus laden“ verfügbar.

Korpora konvertieren:

Korpora auf dieser Seite werden im Format CEC6 ausgeliefert. Ein Export in andere Korpusformate (DTABf, Weblicht, XML, JSON, etc.) ist mittels CorpusExplorer möglich. Für die Konvertierung gibt es vier Optionen (Optionen 1-3 setzen einen installierten CorpusExplorer voraus [kostenlose Installation] – Option 4: Ist webbasiert):

1. ENTWEDER: Sie laden ein Korpus in den CorpusExplorer und exportieren es via ‚Schnappschuss Übersicht‘ > ‚Exportieren‘.
2. ODER: Sie drücken gleichzeitig die Tasten WINDOWS und R. Der Dialog „Ausführen“ erscheint. Geben Sie hier folgendes ein: CorpusExplorer –conv
  Bestätigen Sie die Eingabe mit OK und folgen Sie den Anweisungen.
3. ODER: Die Konvertierung ist auch ohne GUI möglich, mittels CMD-Shell und der CorpusExplorer-Console (cec.exe):
```
cec.exe import#Cec6#C:input.cec6 convert Xml#C:output.xml
```
4. ODER: Sie nutzen den Web-Konverter:
  https://convert.corpusexplorer.de/
  Bitte nur für kleine Korpora (bis max. 50 MB) verwenden.
5. ODER: Für große Korpusmengen (viele und große Korpusdateien) nutzen Sie gerne den CEC6-Converter (funktioniert unter Windows, Linux und MacOS): http://hdl.handle.net/11372/LRT-5705

Lizenz:

Falls keine andere Lizenz genannt wird, steht das Korpusmaterial auf dieser Seite unter der CC BY-NC 4.0 Lizenz zur kostenlosen/freien Verfügung.

Rechtliches / Datenschutz:

Die hier bereitgestellten Korpora sind entweder gemeinfrei (z. B. Gesetzestexte, Plenarprotokolle, 70 Jahre nach Tod des Urhebers §64 UrhG), basieren auf bereits existierenden gemeinfreien Korpora (siehe entsprechende Verweise – in Rücksprache mit den Originalautor*innen). Wenn Sie Beanstandungen irgendwelcher Art gegen ein Korpus oder Korpusteile haben (z. B. bestimmte Dokumente innerhalb des Korpus), dann melden Sie bitte das Korpus – bzw. Korpus + GUID (für beanstandete Dokumente). Ich werde das Material prüfen und innerhalb weniger Werktage entfernen.

Statistik:

Für die Korpora sind separate Statistiken ausgewiesen. Hier eine Statistik zum Gesamtmaterial:

Dokumente: 10’643’180 – Token: 6’232’033’007

Hinweise:

Große Korpora (größer 2GB) setzen eine schnelle und stabile Internetverbindung für den Download voraus, sowie einen leistungsstarken PC (min. Quad-Core CPU / 16 GB RAM).
Wenn Sie über eigenes Korpusmaterial verfügen, dass Sie publizieren möchten, dann (A) überprüfen Sie bitte zuerst, ob es sich lohnt, dieses in einem öffentlichen Langzeit-Repository zu publizieren. Ich berate Sie auch gerne. (B) Zusätzlich/alternativ biete ich auch an, das Material hier zu publizieren. Nutzer*innen des CorpusExplorers können so das Korpus mit wenigen Klicks aus der Anwendung heraus nutzen (siehe nächster Punkt).
Korpora, die für den CorpusExplorer publiziert werden, verfügen über eine Auto-Update-Funktion. Wie oben erwähnt, biete ich an, das Hosting zu übernehmen. Sie können Korpora aber auch ganz einfach selbst hosten (z. B. hausinterne Verteilung -oder- Verteilung an Seminargruppe). Dazu sind nur drei Schritte nötig. [Anleitung hier]

Verfügbare Korpora (Korpus-Addons):

OpenLegalData !NEU!

OpenLegalData ist eine freie und offene Plattform, die juristische Dokumente und Informationen für die Öffentlichkeit zugänglich macht. Das Ziel dieser Plattform ist es, die Transparenz der Rechtsprechung mithilfe offener Daten zu verbessern und Menschen ohne juristische Ausbildung dabei zu unterstützen, das Justizsystem zu verstehen. Das Projekt ist den Open-Data-Prinzipien und der Bewegung für freien Zugang zum Recht verpflichtet.

Für die Erstellung dieses Korpus wurde der DUMP von OpenLegalData mit Stand: 2022-10-18 verwendet. Die Daten wurden bereinigt, maschinell annotiert (TreeTagger: POS & Lemma) und anhand der Metadaten gruppiert (Gerichtsbarkeit – BundeslandID – ggf. Teilgröße – Bsp.: Verwaltungsgerichtsbarkeit_11_05.cec6.gz – Gerichtsbarkeit: Verwaltungsgerichtsbarkeit, BundeslandID = 11 – Teilkorpus = 05). Teilkorpora werden zu je 50 MB zufällig gesplittet.

2,8 GB – 169216 Dokumente
39,6 Mio. Sätze – 610,7 Mio. Token
Layer: Wort, POS, Lemma

Korpora

Installationsanleitung:

Korpora konvertieren:

Lizenz:

Rechtliches / Datenschutz:

Statistik:

Hinweise:

Verfügbare Korpora (Korpus-Addons):

OpenLegalData !NEU!

Wahlprogramme zur Bundestagswahl 2021 !NEU!

Referenzkorpus Altdeutsch (750-1050)

Referenzkorpus Frühneuhochdeutsch (1350–1650)

One Million Posts Corpus

HetWiK – Heterogene Widerstandskulturen

W2C – Web to Corpus

Wikipedia

KAMOKO

DTA-Korpus

TextGrid – Digitale Bibliothek

NottDeuYTSch !NEU!

CEHugeWebCorpus

Referenzkorpus Mittelhochdeutsch(1050–1350)

Referenzkorpus Mittelniederdeutsch / Niederrheinisch (1200-1650)

Briefe: Jean Paul

kleineanfragen.de

Deutscher Bundestag Drucksachen

Deutscher Bundestag Plenarprotokolle !UPDATE!

EuroParl – Deutsche Reden(L1 & Übersetzungen)

Deutsche politische Reden

Test-Korpora:

Referenzkorpus Mittelhochdeutsch
(1050–1350)

EuroParl – Deutsche Reden
(L1 & Übersetzungen)