CorpusExplorer

OpenSource Software für Korpuslinguist*innen und Text-/Data-Mining Interessierte. Der CorpusExplorer vereint über 50 interaktiven Auswertungsmöglichkeiten mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele Standards (XML, CSV, JSON, R, uvm.) und bietet darüber hinaus ein eigenes Software Development Kit (SDK) an, mit dem es möglich ist, alle Funktionen in eigene Programme zu integrieren.

Einfacher Einstieg / Frei verfügbare Materialien:

Video-Anleitung E-Learning Kurs  QuellcodeZitieren?  

Hilfe bei Problemen:

Handbuch Wartungsprogramm  Kontakt zum Entwickler  

Key Features:

  • Unterstützt über 100 unterschiedliche Datei-/Textformate für Im-/Export - inkl. vieler linguistischer XML-Formate.
  • Integrierter Webcrawler zum Sammeln eigener Webkorpora.
  • Sehr einfache Programmoberfläche / Korpus mit wenigen Mausklicks automatisch bereinigen und annotieren - direkt analysefertig.
  • Anbindung unterschiedlicher Tagger - z. B. TreeTagger, OpenNLP, Stanford POS, uvm.
  • Erlaubt Analyse unterschiedlichster Quellen - z. B. Transkripte, Zeitungsartikel, PDF, E-Mails, Tweets, Webseiten, eBooks, uvm.
  • Im Hintergrund arbeitet eine sehr schnelle In-Memory Datenbank - speziell für die Korpusanalyse entwickelt. Diese Datenbank kann gegen verschiedene SQL- (MySQL, SQLite) und NoSQL-Datenbanken (ElasticSearch) ausgetauscht werden.
  • Unbegrenzte Korpusgröße - Verteilte Verarbeitung möglich.
  • Alle Daten unter ihrer Kontrolle. Nach der Installation ist keine weitere Internetverbindung notwendig (außer für Updates). (Korpus-)Daten werden an keinen Server übermittelt.
  • Über 45 Visualisierungen - z. B.: Frequenzanalyse, N-Gramme, Phrasen, Kookkurrenzen, KWIC, DIFF, Stilmetriken, Korpusverteilung.
  • Auswertungen/Visualisierungen werden vom Ausgangsmaterial/Korpora vollständig durch Schnappschüsse isoliert. Dadurch sind Ergebnisse reproduzierbar, selbst wenn sich das Korpusmaterial ändert.
  • Per Shell/Konsole steuerbar (siehe https://github.com/notesjor/CorpusExplorer.Terminal.Console). Dies ist eine gute Anlaufstelle, wenn Sie den CorpusExplorer in eigene Skripte (R, python, etc.) integrieren möchten.
  • Flexibles SDK (Software Development Kit) für alle .NET-Sprachen (https://de.wikipedia.org/wiki/Liste_von_.NET-Sprachen). Erlaubt eigene Erweiterungen für den CorpusExplorer zu entwickeln oder den CorpusExplorer in eigene Anwendungen zu integrieren.

Publikationen / Feedback / Nennungen

Diese Liste umfasst öffentliche Publikationen, die den CorpusExplorer nutzen und oder im Zusammenhang nennen. Nicht in der Liste enthalten, sind meine eigenen Publikationen (diese finden Sie hier) und Publikationen die mir nicht bekannt sind (wenn Sie eine Publikation entdecken oder selbst veröffentlicht haben, können Sie mir gerne eine Nachricht schreiben, dann nehme ich die Publikation auf).

  • Bartelmeß, Tina (2020): Unternehmerische Ernährungskommunikation und -verantwortung: Eine konstruktivistische Betrachtung im Kontext von Nachhaltigkeit.
    Anmerkung: Promotionsschrift - nutzt den CorpusExplorer zur Korpusanalyse. Kontext: Ernährungswissenschaft. Forschungseinrichtung: Justus-Liebig-Universität Gießen
    Feedback: Der CorpusExplorer hat mir vor allem durch die Visualisierungsmöglichkeiten geholfen und die Veranschaulichung meiner Ergebnisse gut unterstützt. Auch als Nicht-Linguistin und ohne Programmierkenntnisse lassen sich mit ihm einfache Analysen durchführen.  Am besten gefallen hat mir, [das der Entwickler] stets ansprechbar für Fragen war uns sich die Zeit genommen hat, den CorpusExplorer in meinem Seminar vorzustellen. Aktuell ist übrigens gerade eine Masterarbeit von einer Teilnehmerin dieses Workshops im Entstehen. 
  • Bartelmeß, T. & Godemann, J. (2020, accepted - in Vorbereitung). Qualitätskonstruktionen in unternehmerischer Ernährungskommunikation: Gesundheit im Spannungsfeld zwischen Individuum und Gesellschaft. In Cappel, V. & Kappler, K. E. (Hrsg.), Gesundheit - Konventionen - Digitalisierung. Eine politische Ökonomie der (digitalen) Transformationsprozesse von und um Gesundheit. Reihe Soziologie der Konventionen. Wiesbaden: Springer VS. Kontext: Fachartikel
  • Jan Gemeinholzer (2020): Radverkehr in der Regionalpresse. Eine lexikometrische Analyse des Radverkehrsdiskurses in Regionalzeitungen am Beispiel von Münster und Nürnberg. Anmerkung: Masterarbeit - nutzt den CorpusExplorer zur Korpusanalyse. Kontext: Institut für Geographie. Forschungseinrichtung: FAU Erlangen-Nürnberg
    Feedback: Der CorpusExplorer ist super und ermöglicht Studierenden einen intuitiven Einstieg in die Thematik Linguistische Diskursanalyse / Korpusanalysen. Ich habe das Tool auch in meinem Geodatenbanken-Seminar den Studierenden präsentiert.
  • Rothenhäusler, Julia (2019): Kriesenkommunikation bei Großprojekten – Eine diskurslinguistische Analyse am Beispiel von Stuttgart 21. Anmerkung: Masterarbeit- nutzt den CorpusExplorer zur Korpusanalyse. Kontext: Werbung Interkulturell. Forschungseinrichtung: Katholische Universität Eichstätt-Ingolstadt
  • Marc Kupietz, Nils Diewald, Peter Fankhauser (2018) How to Get the Computation Near the Data: Improving Data Accessibility to, and Reusability of Analysis Functions in Corpus Query Platforms. Anmerkung: Fachartikel - CorpusExplorer wird in einer Reihe anderer Tools genannt. 
  • Adrien Barbaresi (2018) A corpus of German political speeches from the 21st century. Kontext: Fachartikel - CorpusExplorer wird in einer Reihe anderer Tools genannt. 
  • Henning Lobin, Roman Schneider und Andreas Witt (Hrsg.) - Digitale Infrastrukturen für die germanistische Forschung. Kontext: CorpusExplorer wird als ein Infrastruktur-Tool kurz vorgestellt, dass eine Nutzung der DTA-Daten ermöglicht.
  • Laurence Anthony, Stefan Evert (2019) - Embracing the Concept of Data Interoperability in Corpus Tools Development. Kontext: Erwähnung und Einschätzung von CorpusExplorer und ähnlichen Programmen.
  • Attila Mészáros (2018) - Perspektiven einer akteursorientierten Diskursanalyse
    der Flüchtlingsdebatte in der Slowakei. Kontext: Einordnung des CorpusExplorers im Kontext zu anderen Programmen.
  • Stefan Jänicke, Judith Blumenstein, Michaela Rücker, Dirk Zeckzer, Gerik Scheuermann (2017) - TagPies: Comparative Visualization of Textual Data. Kontext: Der CorpusExplorer wird als eines von mehreren Tools zitiert, die TagPies implementieren.

Unterstützer*innen:

Folgend Unterstützer*innen gilt mein vollster Dank. Dies gilt einerseits für Firmen, die das Projekt CorpusExplorer langjährig (z. B. mit kostenlosen oder vergünstigen Lizenzen) unterstützt haben, ebenso wie den tollen Kolleg*innen, die OpenSource-Software publizieren auf deren Rücken ich den CorpusExplorer aufbauen konnte - DANKE!

  • PostSharp - ist eine kommerzielle Komponente von SharpCrafters, die es erlaubt, aspektorientiert zu programmieren. Aspekte ergänzen das Konzept der objektorientierten Programmierung, indem typische Routineaufgaben wie z. B. das Protokollieren von Fehlern oder das Sammeln von Performance-Daten in Aspekte ausgelagert werden können. Vielen Dank für die langjährige Unterstützung und die Bereitstellung einer kostenfreien akademischen Lizenz.
  • TreeTagger - Vielen Dank an Helmut Schmid für die Genehmigung, den TreeTagger mit dem CorpusExplorer gebündelt ausliefern zu dürfen.
  • Newtonsoft.Json - JSON ist ein weit verbreitetes Dateiformat. Der CorpusExplorer greift auf Newtonsoft.Json zurück, um JSON zu lesen und zu schreiben. Ein tolles OpenSource Projekt.
  • NLog und log4net- Die Komponenten NLog und log4net werden zur Protokollierung, insbesondere von Programmfehlern genutzt. Die Protokollierung ist in Aspekte ausgelagert, die mit PostSharp (s. o.) realisiert werden. Protokolldaten können (nach Zustimmung durch die Anwender*innen) mittels Telemetrie gesammelt werden.
  • Telerik - Die grafische Oberfläche wurde mit den kommerziellen Komponenten der Firma Progress entwickelt. Im Gegensatz zu frei verfügbaren OpenSource-Lösungen bieten die Telerik-Komponenten eine hohe Performance und eine einheitliche Oberflächengestaltung. Es wäre wünschenswert, wenn auf lange Sicht Telerik durch OpenSource-Komponenten ausgetauscht werden könnten, aber gegenwärtig gibt es keine probate Alternative. Vielen Dank für vergünstigte Lizenzen.

Fragen der Nutzer

Wie zitiert man Software? Wie zitiert man den CorpusExplorer?

Software gehört zu den Hilfsmitteln und muss daher genauso zitiert werden wie Fachliteratur. Einige Literaturverwaltungsprogramme, wie Citavi oder EndNote, bieten bereits Vorlagen für die Zitation von Software. 

Hier ein Vorschlag, wie Sie den CorpusExplorer zitieren können:
Rüdiger, Jan Oliver (2018): CorpusExplorer. Version 2.0. Universität Kassel - Universität Siegen. Online verfügbar unter http://corpusexplorer.de

Hier der Vorschlag als BibTeX:
@misc{Ruediger.2018, author = {R{"u}diger, Jan Oliver}, year = {2018}, title = {CorpusExplorer}, url = {url{http://corpusexplorer.de}}, price = {Kostenfrei / OpenSource},address = {Universit{"a}t Kassel - Universit{"a}t Siegen},howpublished = {Download}}

Wenn der CorpusExplorer ein Promotionsprojekts ist, wird er dann nach Abschluss der Promotion noch weiterentwickelt? - Ja, auf jeden Fall. Der CorpusExplorer wird im zukünftig am Center for Digital Linguistics an der Universität Siegen weiterentwickelt. Das Projekt ist OpenSource und ich freue mich immer über nette Kolleg*innen, die Interesse an einer Beteiligung/Kooperation haben.

Ich habe gelesen, der CorpusExplorer wird als OpenSource-Projekt entwickelt. Wo finde ich den Quellcode? - Das öffentliche Repository (wird nach jedem Update aktualisiert) finden Sie unter: https://github.com/notesjor/corpusexplorer2.0

Was sind die Hauptunterschiede zwischen 2.0 und 1.9? - Im Grunde handelt es sich um zwei komplett unterschiedliche Programme. Die Version 2.0 wurde von Grund auf neu entwickelt. Die wesentlichen Unterschiede der Version 2.0 gegenüber 1.9 sind:

  • Über 50 verschiedene Analysemodule (Version 1.9 verfügt nur über 10)
  • Deutlich höhere Performance.
  • Eigene In-Memory Datenbank speziell für linguistische Daten.
  • Austauschbares Daten-Backend für unbegrenzt große Korpora. Nutzen Sie MySQL, MS SQL-Server oder ElasticSearch um große Korpora zu speichern.
  • Offene Entwicklerplattform die es erlaubt, eigene Erweiterungen, Tagger, Visualisierungen und Auswertungen zu programmieren.
  • Projekte und Schnappschüssen erlauben das einfache organisieren und bei der Formulierung von Forschungsfragen.

Was sind die Mindestvoraussetzungen (Hardware) für den CorpusExplorer? - Der CorpusExplorer läuft auf allen PCs ab Windows Vista. Die Standardinstallation benötigt ca. 700 MB freien Festplattenplatz (davon 50 MB für den CorpusExplorer - der Rest: Drittanbieter z. B. TreeTagger). Es werden min. 8 GB RAM (Arbeitsspeicher) empfohlen. Außerdem empfiehlt sich der Einsatz einer aktuellen CPU mit mindestens 4 Kernen und 64-Bit.

Gibt es eine Linux, MAC - Version?Wie Sie den CorpusExplorer unter Linux / MacOS installieren, erfahren Sie hier. Wenn Sie den CorpusExplorer nativ auf diesen Plattformen betreiben, müssen Sie aktuell jedoch mit einigen Einschränkungen (z. B. nicht alle Tagger funktionieren) und einer geringeren Performance rechnen. Daher wird die Virtualisierung z. B. mittels VirtualBox empfohlen.

Ist geplant den CorpusExplorer zu kommerzialisieren - also Geld für die Nutzung zu verlangen? - Wie finanziert man die Weiterentwicklung? - Der CorpusExplorer steht unter der GPL v2.0 - die GNU-Organisation die hinter dieser Lizenz steht definiert Freiheit wie folgt: "Freie Software ist Software, die die Freiheit und Gemeinschaft der Nutzer respektiert. Ganz allgemein bedeutet das, dass Nutzer die Freiheit haben Software auszuführen, zu kopieren, zu verbreiten, zu untersuchen, zu ändern und zu verbessern. Freie Software ist daher eine Frage der Freiheit, nicht des Preises. Um das Konzept zu verstehen, sollte man an frei wie in Redefreiheit denken, nicht wie in Freibier." [GNU 2015-08-04] - Für die Nutzung werden also auch in Zukunft keine Lizenzgebühren fällig. Die Entwicklung finanziert sich zum einen durch Sponsoring - sowie durch Projektaufträge. Wenn Sie eine spezielle Anpassung wünschen entwickele ich diese gerne für Sie - Der Stundensatz richtet sich dabei u.a. danach, ob Sie bereit sind, diese Anpassung mit anderen Nutzer*innen des CorpusExplorer zu teilen oder nicht.

Kann ich die Version 2.0 und die Version 1.9 parallel installieren? - Ja, dies ist ohne Probleme möglich. Korpora können zwischen den Versionen ausgetauscht werden. Auch in Zukunft werden alle CE-Versionen untereinander kompatibel sein.