CorpusExplorer

OpenSource Software für Korpuslinguist*innen und Text-/Data-Mining Interessierte. Der CorpusExplorer vereint über 50 interaktiven Auswertungsmöglichkeiten mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele Standards (XML, CSV, JSON, R, uvm.) und bietet darüber hinaus ein eigenes Software Development Kit (SDK) an, mit dem es möglich ist, alle Funktionen in eigene Programme zu integrieren.

Einfacher Einstieg / Frei verfügbare Materialien:

Hilfe bei Problemen:

Externe Ressourcen:

Anna Scholten, Mareike Schumacher (2020): Tool-Beschreibung, Mini-Tutorial und Review „CorpusExplorer“. In: forTEXT. Literatur digital erforschen. URL: https://fortext.net/tools/tools/corpusexplorer [Zugriff: 11. November 2024].

Joline Schmallenbach, Friedemann Vogel (2022): E-Learning Material: Arbeiten mit dem CorpusExplorer. In: ORCA.NRW. URL: https://www.twillo.de/edu-sharing/components/render/2d873e22-e48f-4f01-a64d-4d9d2b25bdc0

Key Features:

  • Unterstützt über 100 unterschiedliche Datei-/Textformate für Im-/Export – inkl. vieler linguistischer XML-Formate.
  • Integrierter Webcrawler zum Sammeln eigener Webkorpora.
  • Sehr einfache Programmoberfläche / Korpus mit wenigen Mausklicks automatisch bereinigen und annotieren – direkt analysefertig.
  • Anbindung unterschiedlicher Tagger – z. B. TreeTagger, OpenNLP, Stanford POS, uvm.
  • Erlaubt Analyse unterschiedlichster Quellen – z. B. Transkripte, Zeitungsartikel, PDF, E-Mails, Tweets, Webseiten, eBooks, uvm.
  • Kostenfreie analysefertige Korpora (ca. 5 Mrd. Token) zum direkten Download.
  • Im Hintergrund arbeitet eine sehr schnelle In-Memory Datenbank – speziell für die Korpusanalyse entwickelt. Diese Datenbank kann gegen verschiedene SQL- (MySQL, SQLite) und NoSQL-Datenbanken (ElasticSearch) ausgetauscht werden.
  • Unbegrenzte Korpusgröße – Verteilte Verarbeitung möglich.
  • Alle Daten unter ihrer Kontrolle. Nach der Installation ist keine weitere Internetverbindung notwendig (außer für Updates). (Korpus-)Daten werden an keinen Server übermittelt.
  • 51 Analysemodule/Visualisierungen – z. B.: Frequenzanalyse, N-Gramme, Phrasen, Kookkurrenzen, KWIC, DIFF, Stilmetriken, Korpusverteilung.
  • Auswertungen/Visualisierungen werden vom Ausgangsmaterial/Korpora vollständig durch Schnappschüsse isoliert. Dadurch sind Ergebnisse reproduzierbar, selbst wenn sich das Korpusmaterial ändert.
  • Export der Analyseergebnisse in verschiedene offene Formate. Ebenso Export der Korpora in unterschiedliche breit genutzte Formate (wie WebLicht, CorpusWorkBench etc.)
  • Per Shell/Konsole steuerbar (siehe https://github.com/notesjor/CorpusExplorer.Terminal.Console). Dies ist eine gute Anlaufstelle, wenn Sie den CorpusExplorer in eigene Skripte (R, python, etc.) integrieren möchten.
  • Flexibles SDK (Software Development Kit) für alle .NET-Sprachen (https://de.wikipedia.org/wiki/Liste_von_.NET-Sprachen). Erlaubt eigene Erweiterungen für den CorpusExplorer zu entwickeln oder den CorpusExplorer in eigene Anwendungen zu integrieren.
  • Korpora können direkt als REST WebService bereitgestellt werden.
  • Überprüfbarer und nachvollziehbarer Toolchain durch Erzeugung eines Dummy-Korpus nach eigenen Vorgaben.

Publikationen / Zitation / Feedback / Nennungen

Diese Liste umfasst öffentliche Publikationen, die den CorpusExplorer nutzen und oder im Zusammenhang nennen. Nicht in der Liste enthalten: Publikationen an denen ich beteiligt bin (diese finden Sie hier) – sowie: Publikationen die mir nicht bekannt sind (wenn Sie eine Publikation entdecken oder selbst veröffentlicht haben, können Sie mir gerne eine Nachricht schreiben, dann nehme ich die Publikation auf).

Unterstützer*innen:

Folgend Unterstützer*innen gilt mein vollster Dank. Dies gilt einerseits für Firmen, die das Projekt CorpusExplorer langjährig (z. B. mit kostenlosen oder vergünstigen Lizenzen) unterstützt haben, ebenso wie den tollen Kolleg*innen, die OpenSource-Software publizieren auf deren Rücken ich den CorpusExplorer aufbauen konnte – DANKE!

  • PostSharp – ist eine kommerzielle Komponente von SharpCrafters, die es erlaubt, aspektorientiert zu programmieren. Aspekte ergänzen das Konzept der objektorientierten Programmierung, indem typische Routineaufgaben wie z. B. das Protokollieren von Fehlern oder das Sammeln von Performance-Daten in Aspekte ausgelagert werden können. Vielen Dank für die langjährige Unterstützung und die Bereitstellung einer kostenfreien akademischen Lizenz.
  • TreeTagger – Vielen Dank an Helmut Schmid für die Genehmigung, den TreeTagger mit dem CorpusExplorer gebündelt ausliefern zu dürfen.

Häufige Fragen der Nutzer*innen

Wie zitiert man Software? Wie zitiert man den CorpusExplorer?

Software gehört zu den Hilfsmitteln und muss daher genauso zitiert werden wie Fachliteratur. Einige Literaturverwaltungsprogramme, wie Citavi oder EndNote, bieten bereits Vorlagen für die Zitation von Software.

Hier ein Vorschlag, wie Sie den CorpusExplorer zitieren können:
Rüdiger, Jan Oliver (2018): CorpusExplorer. Version 2.0. Universität Kassel – Universität Siegen. Online verfügbar unter http://corpusexplorer.de

Hier der Vorschlag als BibTeX:
@misc{Ruediger.2018, author = {R{„u}diger, Jan Oliver}, year = {2018}, title = {CorpusExplorer}, url = {url{http://corpusexplorer.de}}, price = {Kostenfrei / OpenSource},address = {Universit{„a}t Kassel – Universit{„a}t Siegen},howpublished = {Download}}

[Weitere Informationen zum Zitieren – inkl. Zitation von Dokumenten innerhalb von Korpora]

Wenn der CorpusExplorer ein Promotionsprojekt war, wird er trotz Abschluss der Promotion noch weiterentwickelt? – Ja, auf jeden Fall. Leider ist es oft so, dass wissenschaftliche Software nach Projektabschluss (z. B. auch Finanzierungsphase) eingestellt und vergessen wird. Man findet in den öffentlichen Repositorien viele Beispiele dafür. Der CorpusExplorer wurde von Anfang an so geplant, dass er weitergepflegt und weiterentwickelt werden kann. Das lohnt sich auch, denn der CorpusExplorer hat mittlerweile eine solide und wachsende Nutzerbasis. Ich selbst verwende den CorpusExplorer auch in fast allen aktuellen Forschungsprojekten. Eine aktive Nutzung ist wichtig, denn nur so sieht man, was eine Software können muss/sollte – es entstehen Ideen für die Weiterentwicklung. Früher (während der Promotion) gab es monatliche Updates. Mittlerweile habe ich den Update-Plan umgestaltet. Es gibt ca. ein Update pro Quartal – dieses ist dann aber größer. Kleiner Qualitätsupdates oder wenn es dringende Wünsche durch Nutzer*innen gibt, werden auch manchmal außer der Reihe veröffentlicht (so schnell wie möglich).

Ich habe gelesen, der CorpusExplorer wird als OpenSource-Projekt entwickelt. Wo finde ich den Quellcode? – Das öffentliche Repository (wird nach jedem Update aktualisiert) finden Sie unter:
https://github.com/notesjor/corpusexplorer2.0

Was sind die Hauptunterschiede zwischen 2.0 und 1.9? – Im Grunde handelt es sich um zwei komplett unterschiedliche Programme. Die Version 2.0 wurde von Grund auf neu entwickelt. Die wesentlichen Unterschiede der Version 2.0 gegenüber 1.9 sind:

  • Über 50 verschiedene Analysemodule (Version 1.9 verfügt nur über 10)
  • Deutlich höhere Performance.
  • Eigene In-Memory Datenbank speziell für linguistische Daten.
  • Austauschbares Daten-Backend für unbegrenzt große Korpora. Nutzen Sie MySQL, MS SQL-Server oder ElasticSearch um große Korpora zu speichern.
  • Offene Entwicklerplattform die es erlaubt, eigene Erweiterungen, Tagger, Visualisierungen und Auswertungen zu programmieren.
  • Projekte und Schnappschüssen erlauben das einfache organisieren und bei der Formulierung von Forschungsfragen.

Ist der CorpusExplorer kommerziell? Welche Kosten fallen an? – Der CorpusExplorer ist OpenSource, d. h. er ist NICHT kommerziell – es fallen keinerlei Kosten an, auch keine versteckten Kosten.

Was sind die Mindestvoraussetzungen (Hardware) für den CorpusExplorer? – Der CorpusExplorer läuft auf allen PCs ab Windows 10. Die Standardinstallation benötigt ca. 700 MB freien Festplattenplatz (davon 50 MB für den CorpusExplorer – der Rest: Drittanbieter z. B. TreeTagger). Es werden min. 8 GB RAM (Arbeitsspeicher) empfohlen. Außerdem empfiehlt sich der Einsatz einer aktuellen CPU mit mindestens 4 Kernen und 64-Bit.

Gibt es eine Linux, MAC – Version? – Wie Sie den CorpusExplorer unter Linux / MacOS installieren, erfahren Sie hier. Wenn Sie den CorpusExplorer nativ auf diesen Plattformen betreiben, müssen Sie aktuell jedoch mit einigen Einschränkungen (z. B. nicht alle Tagger funktionieren) und einer geringeren Performance rechnen. Daher wird die Virtualisierung z. B. mittels VirtualBox empfohlen.

Ist geplant den CorpusExplorer zu kommerzialisieren – also Geld für die Nutzung zu verlangen? – Wie finanziert man die Weiterentwicklung? – Der CorpusExplorer steht unter der GNU Affero General Public License v3.0 – die GNU-Organisation, die hinter dieser Lizenz steht, definiert Freiheit wie folgt: „Freie Software ist Software, die die Freiheit und Gemeinschaft der Nutzer respektiert. Ganz allgemein bedeutet das, dass Nutzer die Freiheit haben, Software auszuführen, zu kopieren, zu verbreiten, zu untersuchen, zu ändern und zu verbessern. Freie Software ist daher eine Frage der Freiheit, nicht des Preises. Um das Konzept zu verstehen, sollte man an frei wie in Redefreiheit denken, nicht wie in Freibier.“ [GNU 2015-08-04] – Für die Nutzung werden also auch in Zukunft keine Lizenzgebühren fällig. Die Entwicklung finanziert sich zum einen durch Sponsoring – sowie durch Projektaufträge. Wenn Sie eine spezielle Anpassung wünschen, entwickele ich diese gerne für Sie – Der Stundensatz richtet sich dabei u.a. danach, ob Sie bereit sind, diese Anpassung mit anderen Nutzer*innen des CorpusExplorer zu teilen oder nicht.

Kann ich die Version 2.0 und die Version 1.9 parallel installieren? – Ja, dies ist ohne Probleme möglich. Korpora können zwischen den Versionen ausgetauscht werden. Auch in Zukunft werden alle CE-Versionen untereinander kompatibel sein.