Alle hier aufgeführten Korpora (insgesamt über 2 Mrd. Token) sind frei verfügbar und können kostenfrei zu nicht kommerziellen Zwecken genutzt werden (siehe Allgemein). Voraussetzung für die Nutzung ist ein bereits installierter CorpusExplorer (kostenfrei / OpenSource). Dieser erlaubt nicht nur die Analyse und Visualisierung der Korpusdaten, sondern sorgt auch dafür, dass Sie immer mit aktuellstem Korpusmaterial arbeiten (Korpus-Autoupdate).

Installationsanleitung:

  1. Stellen Sie sicher, dass der CorpusExplorer geschlossen/beendet ist, bevor Sie weiter fortfahren.
  2. Klicken Sie auf den Download-Button der gewünschten Korpora, um den Download zu starten. Hinweis: Seien Sie bitte nicht irritiert, die Datei ist ca. 1-4 KB groß. Speichern Sie die Datei unter:
    "Meine Dokumente" > "CorpusExplorer" > "Meine Erweiterungen"
  3. Wenn Sie das nächste Mal den CorpusExplorer starten, werden die Korpora automatisch installiert und auch zukünfig aktuell gehalten. Die Korpora sind dann unter "Korpora" > "Existierendes Korpus laden" verfügbar.

Allgemein:

  • Korpora werden im Format CEC5 oder CEC6 ausgeliefert. Ein Export in andere Korpusformate (DTABf, Weblicht, XML, JSON, etc.) ist mittels CorpusExplorer möglich. Konvertierung auch ohne GUI möglich, mittels CMD-Shell und der CorpusExplorer-Console (cec.exe):
    cec.exe import#ImporterCec6#C:input.cec6 convert ExporterXml#C:output.xml
  • Falls keine andere Lizenz genannt wird, steht das Korpusmaterial unter der CC BY-NC 4.0 Lizenz zur kostenlosen/freien Verfügung.
  • Große Korpora (größer 2GB) setzen eine schnelle und stabile Internetverbindung für den Download voraus, sowie einen leistungsstarken PC (min. Quad-Core CPU / 16 GB RAM).

Statistik:

Für die Korpora sind separate Statistiken ausgewiesen. Hier eine Statistik zum Gesamtmaterial:

Dokumente: 4'640'237 - Token: 2'497'882'005

Verfügbare Korpora (Korpus-Addons):

!NEU! One Million Posts Corpus

Das "One Millio Posts Corpus" umfasst Zeitungsartikel der österreichischen Zeitung "der Standard" - inkl. der Online-Kommentare der Leser*innen. Das Korpus wurde im Original teilweise manuell annotiert - so finden sich z. B. zu einigen Leserkommentaren Einschätzungen zu Positiv/Negativ-Wertung oder welcher Art/Domäne ein Kommentar zuzuordnen ist. Für diese Version wurde das Korpus entsprechend korpuslinguistisch aufbereitet. Link zur Original-Ressource1,0 GB - 973 Tsd. Dokumente
3,94 Mio. Sätze - 41,71 Mio. Token
Layer: Wort, Lemma, POS

Download

!NEU!  W2C – Web to Corpus

Die hier zur Verfügung gestellten Korpusdaten umfassen alle deutschen Texte aus dem: Majliš, Martin, 2011, W2C – Web to Corpus – Corpora, LINDAT/CLARIN digital library at the Institute of Formal and Applied Linguistics (ÚFAL), Faculty of Mathematics and Physics, Charles University, http://hdl.handle.net/11858/00-097C-0000-0022-6133-9. Die Texte wurden tokenisiert und annotiert.

1,0 GB - 1,9 Mio. Dokumente
9,18 Mio. Sätze - 116,99 Mio. Token
Layer: Wort, Lemma, POS

Download

Wikipedia

Das Wikipedia-Korpus enthält alle Seiten der deutschsprachigen Wikipedia (Stand Oktober 2017). Seiten mit Weiterleitungen oder Seiten, die von der Qualitätskontrolle geflaggt wurden, wurden entfernt. Der Rohtext wurde bereinigt (Tabellen entfernt, Referenzen entfernt, usw.) und tokenisiert - eine annotierte Version ist aktuell in Arbeit.

4,2 GB - 1,18 Mio. Dokumente
59,11 Mio. Sätze - 690,33 Mio. Token
Layer: Wort

Download

KAMOKO

KAssler MOrgenstern KOrpus - kurz KAMOKO ist eine strukturierte und kommentierte Sammlung von Textbeispielen zur französischen Sprache und Linguistik, die nahezu alle zentralen Strukturen der französischen Sprache aus linguistischer Sicht behandelt.

Mithilfe des KAMOKO-Korpus können Studierende die Funktionen sprachlicher Formen in thematisch gegliederten Lehreinheiten für sich erschließen. Jede Einheit stellt ein sprachliches Phänomen (wie z. B. Tempus und Aspekt) anhand von Textbeispielen dar, die aufeinander aufbauen und zunehmend komplexere Verwendungen einer Form darstellen und erklären.

Zentral ist dabei das Muster von Original und Variante, bei dem der Originaltext in unterschiedlicher Weise verändert wird. Die so entstandenen Varianten und neuen Lesarten illustrieren dann das funktionale Profil einer sprachlichen Form und deren Wirken in verschiedenen Kontexten.

Auf diese Weise vermittelt KAMOKO in korpusbasierter Anschaulichkeit komplexe linguistische Inhalte.

39,3 MB - 64122 Dokumente
0,185 Mio. Sätze - 2,70 Mio. Token
Layer: Wort, POS, Lemma, Original, Kommentar Muttersprachler

Download

DTA-Korpus !UPDATE!

Das Korpus basiert auf der TCF-Version (Stand: 1. September 2017) und umfasst derzeit 3242 Texte (DTA-Kernkorpus und Ergänzungstexte). Das Korpus wurde mit dem Ziel zusammengestellt, das gesamte Spektrum der deutschen Sprache zu erfassen und somit ein ausgewogenes historisches Referenzkorpus in deutscher Sprache zu schaffen.

Es gibt andere umfangreiche Textsammlungen im Internet wie etwa Google Books, Wikisource oder das Projekt Gutenberg-DE. Das DTA unterscheidet sich von diesen Textsammlungen durch die sorgfältige Auswahl der Texte und Ausgaben, die sehr hohe Erfassungsgenauigkeit, die strukturelle und linguistische Erschließung der Textdaten sowie die Verlässlichkeit der Metadaten. [Weitere Informationen finden Sie hier]

Anmerkung: Bitte beachten Sie: Der Download hat eine Größe von ca. 1,0 GB. Das Korpus-Addon basiert auf den bereinigten & annotierten TCF-Dateien (Stand: September 2017) - [Link zu den Originaldateien]. Importiert wurden die folgenden Layer: Wort, Lemma, POS und Orthografie. Ebenfalls stehen folgende Metadaten zur Verfügung: URL, Sprache, DWDS-Hauptkategorie, DWDS-Unterkategorie, Titel, Autor, Autor (URL), Ausgabe, Verleger, Jahr und Verlagsort.

2,99GB - 3242 Dokumente
7,5 Mio. Sätze - 179,46 Mio. Token
Layer: Wort, POS, Lemma, NER, Orthografie

Download

TextGrid - Digitale Bibliothek

Die "Digitale Bibliothek" im TextGrid Repository bietet eine umfangreiche Sammlung XML/TEI-erschlossener Texte aus Belletristik und Sachliteratur vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20. Jahrhunderts in digitaler Form. Für die germanistische Literaturwissenschaft ist die Sammlung von besonderem Interesse, da sie nahezu alle wichtigen kanonisierten Texte und zahlreiche weitere literaturhistorisch relevante Texte enthält, deren urheberrechtliche Schutzfrist abgelaufen ist. Ähnliches gilt für die Philosophie und die Kulturwissenschaften insgesamt. Die Texte stammen zum größten Teil aus Studienausgaben und sind daher, ebenso wie die auf der Digitalisierung von Erstdrucken basierenden Texte, zitierfähig. [Weitere Details finden Sie hier]

Dieses Korpus ist eine Abwandlung des Datenbestandes der Digitalen Bibliothek von TextGrid, www.editura.de und wird unter der Creative Commons Lizenz veröffentlicht.

2,19GB - 70847 Dokumente
10,07 Mio. Sätze - 156,85 Mio. Token
Layer: Wort, POS, Lemma

Download

!NEU! kleineanfragen.de

Die Seite www.kleineanfragen.de sammelt kleine (und auch große) Anfragen der Landesparlamente und des Bundestages und versucht diese möglichst einfach auffind-, durchsuch- und verlinkbar zu machen. Die Daten auf der Webseite sind tagesaktuell - das hier verfügbare Korpus basiert auf dem Stand: 2018-05-07. Der Rohtext wurde bereinigt und mittels TreeTagger annotiert (Token, Satz, POS, Lemma). Für ein tagesaktuelles Korpus nutzen Sie bitte die Import-Funktion des CorpusExplorers. Dieses Korpus wird in regelmäßigen Abständen (ca. alle 6 Monate) aktualisiert. Der Datensatz steht unter der Open Database License (ODbL) 1.0 frei zur Verfügung.

3,3 GB - 85'021 Dokumente
17,88 Mio. Sätze - 238,59 Mio. Token
Layer: Wort, POS, Lemma

Download

!NEU! Deutscher Bundestag Drucksachen

Unter https://www.bundestag.de/service/opendata stellt der Deutsche Bundestag alle Drucksache (z. B. Anträge, Gesetzesvorlagen, etc.) OpenAccess in einem sehr rudimentären XML-Format bereit. Die vorhandenen Metadaten wurde extrahiert. Der Rohtext bereinigt und mittels TreeTagger annotiert (Token, Phrasen, Satz, POS, Lemma). 

12,85 GB - 131833 Dokumente
44,7 Mio. Sätze - 715,15 Mio. Token
Layer: Wort, POS, Lemma, Phrase

Download

!NEU! Deutscher Bundestag Plenarprotokolle

Unter https://www.bundestag.de/service/opendata stellt der Deutsche Bundestag alle Plenarprotokolle OpenAccess in einem sehr rudimentären XML-Format bereit. Die vorhandenen Metadaten wurde extrahiert. Der Rohtext bereinigt und mittels TreeTagger annotiert (Token, Phrasen, Satz, POS, Lemma). In der aktuellen Version wird noch die gesamte Plenarsitzung als ein Dokument hinterlegt. Eine Aufteilung in einzelne Redebeiträge, wie im EUROPARL-Korpus, ist geplant.

5,26GB - 4106 Dokumente
18,8 Mio. Sätze - 298,60 Mio. Token
Layer: Wort, POS, Lemma, Phrase

Download

EuroParl - Deutsche Reden (L1 & Übersetzungen)

Das "European Parliament Proceedings Parallel Corpus 1996-2011" (http://www.statmt.org/europarl/) ist eine etablierte Anlaufstelle für alle, die ein paralleles Korpus suchen, das hochwertig/professionell übersetzte Texte enthält (Original zusammengestellt von Prof. Dr. Köhn). Für eine Diskursanalyse wurden alle verfügbaren Plenarprotokolle durch den CorpusExplorer gesplittet und bereinigt (Metadaten: File, UtteranceId, Speaker, Language, SpeakerID, Chapter), sowie mittels TreeTagger (POS-, Lemma-Tags) annotiert. Aktuell stehen nur die deutschen Protokolle zur Verfügung (L1 oder ins Deutsche übersetzte Reden). Auf Anfrage auch andere Sprachen möglich. Das Korpus umfasst 54,76 Token (Worte + Satzzeichen) und 201'066 Äußerungen/Dokumente aus 9'224 Plenarprotokollen.

NEU - Hinweis: Wenn Sie mit diesem Korpus arbeiten möchten, dann steht Ihnen im [10plus1journal] eine Video-Anleitung zur Verfügung. Diese zeigt, wie Sie mit dem EuroParl-Korpus und dem CorpusExplorer arbeiten können.

819MB - 201066 Dokumente
2,4 Mio. Sätze - 54,76 Mio. Token
Layer: Wort, POS, Lemma

Download

Deutsche politische Reden

Es handelt sich um die zweite Veröffentlichung (Stand 2012) einer Redensammlung aus dem Bundespräsidial- und Kanzleramt. Erstellt wurde das Korpus von Adrien Barbaresi - Korpuslizenz: CC BY-SA v3.0 - Weitere Korpus-Inforamtionen, wie Erstellung, Zusammensetzung und Beispielanalysen finden Sie im technischen Bericht und unter: http://purl.org/corpus/german-speeches

51,45MB - 3270 Dokumente
0,145 Mio. Sätze - 2,68 Mio. Token
Layer: Wort, POS, Lemma, Phrase

Download

Test-Korpora:

Diese Test-Korpora dienen nur zur technischen/funktionalen Evaluation des CorpusExplorers für alternative Textsorten:

  • Briefe: Auszug der frei verfügbaren Briefen von J. W. Goethe und F. Schiller an A. W. Schlegel. Quelle: http://www.gutenberg.org/ebooks/31216 - Erstellt mit DPXC-Editor - 12030 Token - Sprache: Deutsch - [DOWNLOAD]
  • Blog: Alle Artikel dieses Blogs, die CorpusExplorer als Wort enthalten. Quelle: https://notes.jan-oliver-ruediger.de (Stand: 15.02.2016) - Erstellt mit der Funktion Online-Korpus akquierien des CorpusExplorers. - 4043 Token - Sprache: Deutsch - [DOWNLOAD]
  • Tweets: Die Tweets wurden für das Seminar: "Twitter Analytics" (Universität Kassel) mit Hilfe des CorpusExplorers gesammelt und aufbereitet. Aufzeichnungszeitraum: 23.-30.11.2015 - Die Tweets wurden vollständig anonymisiert. - 118744 Token - Sprache: Deutsch - [DOWNLOAD]