Alle hier aufgeführten Korpora sind frei verfügbar und können kostenfrei (OpenAccess) zu nicht kommerziellen Zwecken genutzt werden. Voraussetzung für die Nutzung ist ein bereits installierter CorpusExplorer (kostenfrei / OpenSource). Dieser erlaubt nicht nur die Analyse und Visualisierung der Korpusdaten, sondern sorgt auch dafür, dass Sie immer mit aktuellstem Korpusmaterial arbeiten (Autoupdate).

Installationsanleitung:

  1. Stellen Sie sicher, dass der CorpusExplorer geschlossen/beendet ist, bevor Sie weiter fortfahren.
  2. Klicken Sie auf den Download-Button der gewünschten Korpora, um den Download zu starten. Hinweis: Seien Sie bitte nicht irritiert, die Datei ist ca. 1-4 KB groß. Speichern Sie die Datei unter:
    "Meine Dokumente" > "CorpusExplorer" > "Meine Erweiterungen"
  3. Wenn Sie das nächste Mal den CorpusExplorer starten, werden die Korpora automatisch installiert und auch zukünfig aktuell gehalten. Die Korpora sind dann unter "Korpora" > "Existierendes Korpus laden" verfügbar.

Verfügbare Korpora (Korpus-Addons):

!NEU! Wikipedia (Referenzkorpus)

Das "Wikipedia (Referenzkorpus)" enthält alle Seiten der deutschsprachigen Wikipedia (Stand Oktober 2017). Seiten mit Weiterleitungen oder Seiten die von der Qualitätskontrolle geflaggt wurden, sind bereits entfernt. Der Rohtext wurde bereinigt (Tabellen entfernt, Referenzen entfernt, usw.) und tokenisiert - eine annotierte Version ist aktuell in Arbeit.

Wichtiger Hinweise:

  1. Das Korpus ist kostenfrei.
  2. Das Korpus wird min. einmal jährlich aktualisiert.
  3. Die Nutzung setzt den CorpusExplorer voraus.
  4. Das Korpus ist 2 GB groß. Sie sollten daher über einen entsprechend leistungsstarken PC verfügen. Daher ist der Download auch nicht direkt verfügbar. Nutzen Sie den Anfrage-Button und wählen Sie im Kontaktformular (Korpus-/Materialanfrage) aus und geben Sie ihre Daten an. Sie erhalten dann das CE-Addon per E-Mail. 
Anfragen

TextGrid - Digitale Bibliothek

Die "Digitale Bibliothek" im TextGrid Repository bietet eine umfangreiche Sammlung XML/TEI-erschlossener Texte aus Belletristik und Sachliteratur vom Anfang des Buchdrucks bis zu den ersten Jahrzehnten des 20. Jahrhunderts in digitaler Form. Für die germanistische Literaturwissenschaft ist die Sammlung von besonderem Interesse, da sie nahezu alle wichtigen kanonisierten Texte und zahlreiche weitere literaturhistorisch relevante Texte enthält, deren urheberrechtliche Schutzfrist abgelaufen ist. Ähnliches gilt für die Philosophie und die Kulturwissenschaften insgesamt. Die Texte stammen zum größten Teil aus Studienausgaben und sind daher, ebenso wie die auf der Digitalisierung von Erstdrucken basierenden Texte, zitierfähig. [Weitere Details finden Sie hier]

Dieses Korpus ist eine Abwandlung des Datenbestandes der Digitalen Bibliothek von TextGrid, www.editura.de und wird unter der Creative Commons Lizenz veröffentlicht.

Download

KAMOKO

KAssler MOrgenstern KOrpus - kurz KAMOKO ist eine strukturierte und kommentierte Sammlung von Textbeispielen zur französischen Sprache und Linguistik, die nahezu alle zentralen Strukturen der französischen Sprache aus linguistischer Sicht behandelt.

Mithilfe des KAMOKO-Korpus können Studierende die Funktionen sprachlicher Formen in thematisch gegliederten Lehreinheiten für sich erschließen. Jede Einheit stellt ein sprachliches Phänomen (wie z. B. Tempus und Aspekt) anhand von Textbeispielen dar, die aufeinander aufbauen und zunehmend komplexere Verwendungen einer Form darstellen und erklären.

Zentral ist dabei das Muster von Original und Variante, bei dem der Originaltext in unterschiedlicher Weise verändert wird. Die so entstandenen Varianten und neuen Lesarten illustrieren dann das funktionale Profil einer sprachlichen Form und deren Wirken in verschiedenen Kontexten.

Auf diese Weise vermittelt KAMOKO in korpusbasierter Anschaulichkeit komplexe linguistische Inhalte.

Download

EuroParl - Deutsche Reden (L1 & Übersetzungen)

Das "European Parliament Proceedings Parallel Corpus 1996-2011" (http://www.statmt.org/europarl/) ist eine etablierte Anlaufstelle für alle, die ein paralleles Korpus suchen, das hochwertig/professionell übersetzte Texte enthält (Original zusammengestellt von Prof. Dr. Köhn). Für eine Diskursanalyse wurden alle verfügbaren Plenarprotokolle durch den CorpusExplorer gesplittet und bereinigt (Metadaten: File, UtteranceId, Speaker, Language, SpeakerID, Chapter), sowie mittels TreeTagger (POS-, Lemma-Tags) annotiert. Aktuell stehen nur die deutschen Protokolle zur Verfügung (L1 oder ins Deutsche übersetzte Reden). Auf Anfrage auch andere Sprachen möglich. Das Korpus umfasst 54,76 Token (Worte + Satzzeichen) und 201'066 Äußerungen/Dokumente aus 9'224 Plenarprotokollen.

NEU - Hinweis: Wenn Sie mit diesem Korpus arbeiten möchten, dann steht Ihnen im [10plus1journal] eine Video-Anleitung zur Verfügung. Diese zeigt, wie Sie mit dem EuroParl-Korpus und dem CorpusExplorer arbeiten können.

Download

DTA-Kernkorpus

Die vorausgewählten und durch das DTA selbst digitalisierten Werke (derzeit ca. 1300) bilden das DTA-Kernkorpus. Dieses enthält Texte unterschiedlicher Disziplinen und Textsorten, welche mit dem Ziel zusammengestellt wurden, das gesamte Spektrum der deutschen Sprache zu erfassen und somit ein ausgewogenes historisches Referenzkorpus in deutscher Sprache zu schaffen.

Es gibt andere umfangreiche Textsammlungen im Internet wie etwa Google Books, Wikisource oder das Projekt Gutenberg-DE. Das DTA unterscheidet sich von diesen Textsammlungen durch die sorgfältige Auswahl der Texte und Ausgaben, die sehr hohe Erfassungsgenauigkeit, die strukturelle und linguistische Erschließung der Textdaten sowie die Verlässlichkeit der Metadaten. [Weitere Informationen finden Sie hier]

Anmerkung: Bitte beachten Sie: Der Download hat eine Größe von ca. 1,4 GB. Das Korpus-Addon basiert auf den bereinigten & annotierten TCF-Dateien (Stand: Mai 2016) - [Link zu den Originaldateien]. Importiert wurden die folgenden Layer: Wort, Lemma, POS und Orthografie. Ebenfalls stehen folgende Metadaten zur Verfügung: URL, Sprache, DWDS-Hauptkategorie, DWDS-Unterkategorie, Titel, Autor, Autor (URL), Ausgabe, Verleger, Jahr und Verlagsort.

Download

Deutsche politische Reden

Es handelt sich um die zweite Veröffentlichung (Stand 2012) einer Redensammlung aus dem Bundespräsidial- und Kanzleramt. Erstellt wurde das Korpus von Adrien Barbaresi - Korpuslizenz: CC BY-SA v3.0 - Weitere Korpus-Inforamtionen, wie Erstellung, Zusammensetzung und Beispielanalysen finden Sie im technischen Bericht und unter: http://purl.org/corpus/german-speeches

Das fertig aufbereitete Korpus (annotiert mit TreeTagger - Deutsch) für den CorpusExplorer, können Sie hier herunterladen:

Download

Test-Korpora:

Diese Test-Korpora dienen nur zur technischen/funktionalen Evaluation des CorpusExplorers für alternative Textsorten:

  • Briefe: Auszug der frei verfügbaren Briefen von J. W. Goethe und F. Schiller an A. W. Schlegel. Quelle: http://www.gutenberg.org/ebooks/31216 - Erstellt mit DPXC-Editor - 12030 Token - Sprache: Deutsch - [DOWNLOAD]
  • Blog: Alle Artikel dieses Blogs, die CorpusExplorer als Wort enthalten. Quelle: https://notes.jan-oliver-ruediger.de (Stand: 15.02.2016) - Erstellt mit der Funktion Online-Korpus akquierien des CorpusExplorers. - 4043 Token - Sprache: Deutsch - [DOWNLOAD]
  • Tweets: Die Tweets wurden für das Seminar: "Twitter Analytics" (Universität Kassel) mit Hilfe des CorpusExplorers gesammelt und aufbereitet. Aufzeichnungszeitraum: 23.-30.11.2015 - Die Tweets wurden vollständig anonymisiert. - 118744 Token - Sprache: Deutsch - [DOWNLOAD]