CorpusExplorer

OpenSource Software für Korpuslinguist*innen und Text-/Data-Mining Interessierte. Der CorpusExplorer vereint über 45 interaktiven Auswertungsmöglichkeiten mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele Standards (XML, CSV, JSON, R, uvm.) und bietet darüber hinaus ein eigenes Software Development Kit (SDK) an, mit dem es möglich ist, alle Funktionen in eigene Programme zu integrieren.

Einfacher Einstieg / Frei verfügbare Materialien:

Video-Anleitung E-Learning Kurs  QuellcodeZitieren?  

Key Features:

  • Unterstützt über 100 unterschiedliche Datei-/Textformate für Im-/Export - inkl. vieler linguistischer XML-Formate.
  • Integrierter Webcrawler zum Sammeln eigener Webkorpora.
  • Sehr einfache Programmoberfläche / Korpus mit wenigen Mausklicks automatisch bereinigen und annotieren - direkt analysefertig.
  • Anbindung unterschiedlicher Tagger - z. B. TreeTagger, OpenNLP, Stanford POS, uvm.
  • Erlaubt Analyse unterschiedlichster Quellen - z. B. Transkripte, Zeitungsartikel, PDF, E-Mails, Tweets, Webseiten, eBooks, uvm.
  • Im Hintergrund arbeitet eine sehr schnelle In-Memory Datenbank - speziell für die Korpusanalyse entwickelt. Diese Datenbank kann gegen verschiedene SQL- (MySQL, SQLite) und NoSQL-Datenbanken (ElasticSearch) ausgetauscht werden.
  • Unbegrenzte Korpusgröße - Verteilte Verarbeitung möglich.
  • Alle Daten unter ihrer Kontrolle. Nach der Installation ist keine weitere Internetverbindung notwendig (außer für Updates). (Korpus-)Daten werden an keinen Server übermittelt.
  • Über 45 Visualisierungen - z. B.: Frequenzanalyse, N-Gramme, Phrasen, Kookkurrenzen, KWIC, DIFF, Stilmetriken, Korpusverteilung.
  • Auswertungen/Visualisierungen werden vom Ausgangsmaterial/Korpora vollständig durch Schnappschüsse isoliert. Dadurch sind Ergebnisse reproduzierbar, selbst wenn sich das Korpusmaterial ändert.
  • Per Shell/Konsole steuerbar (siehe https://github.com/notesjor/CorpusExplorer.Terminal.Console). Dies ist eine gute Anlaufstelle, wenn Sie den CorpusExplorer in eigene Skripte (R, python, etc.) integrieren möchten.
  • Flexibles SDK (Software Development Kit) für alle .NET-Sprachen (https://de.wikipedia.org/wiki/Liste_von_.NET-Sprachen). Erlaubt eigene Erweiterungen für den CorpusExplorer zu entwickeln oder den CorpusExplorer in eigene Anwendungen zu integrieren.

Unterstützer:

Fragen der Nutzer

Was sind die Hauptunterschiede zwischen 2.0 und 1.9? - Im Grunde handelt es sich um zwei komplett unterschiedliche Programme. Die Version 2.0 wurde von Grund auf neu entwickelt. Die wesentlichen Unterschiede der Version 2.0 gegenüber 1.9 sind:

  • Über 50 verschiedene Analysemodule (Version 1.9 verfügt nur über 10)
  • Deutlich höhere Performance.
  • Eigene In-Memory Datenbank speziell für linguistische Daten.
  • Austauschbares Daten-Backend für unbegrenzt große Korpora. Nutzen Sie MySQL, MS SQL-Server oder ElasticSearch um große Korpora zu speichern.
  • Offene Entwicklerplattform die es erlaubt, eigene Erweiterungen, Tagger, Visualisierungen und Auswertungen zu programmieren.
  • Projekte und Schnappschüssen erlauben das einfache organisieren und bei der Formulierung von Forschungsfragen.

Wenn der CorpusExplorer ein Promotionsprojekts ist, wird er dann nach Abschluss der Promotion noch weiterentwickelt? - Ja, auf jeden Fall. Der CorpusExplorer wird im zukünftig am Center for Digital Linguistics an der Universität Siegen weiterentwickelt. Das Projekt ist OpenSource und ich freue mich immer über nette Kolleg*innen, die Interesse an einer Beteiligung/Kooperation haben.

Kann ich die Version 2.0 und die Version 1.9 parallel installieren? - Ja, dies ist ohne Probleme möglich. Korpora können zwischen den Versionen ausgetauscht werden. Auch in Zukunft werden alle CE-Versionen untereinander kompatibel sein.

Was sind die Mindestvoraussetzungen (Hardware) für den CorpusExplorer? - Der CorpusExplorer läuft auf allen PCs ab Windows Vista. Die Standardinstallation benötigt ca. 700 MB freien Festplattenplatz (davon 50 MB für den CorpusExplorer - der Rest: Drittanbieter z. B. TreeTagger). Es werden min. 8 GB RAM (Arbeitsspeicher) empfohlen. Außerdem empfiehlt sich der Einsatz einer aktuellen CPU mit mindestens 4 Kernen und 64-Bit.

Gibt es eine Linux, MAC - Version?Wie Sie den CorpusExplorer unter Linux / MacOS installieren, erfahren Sie hier. Wenn Sie den CorpusExplorer nativ auf diesen Plattformen betreiben, müssen Sie aktuell jedoch mit einigen Einschränkungen (z. B. nicht alle Tagger funktionieren) und einer geringeren Performance rechnen. Daher wird die Virtualisierung z. B. mittels VirtualBox empfohlen.

Ist geplant den CorpusExplorer zu kommerzialisieren - also Geld für die Nutzung zu verlangen? - Wie finanziert man die Weiterentwicklung? - Der CorpusExplorer steht unter der GPL v2.0 - die GNU-Organisation die hinter dieser Lizenz steht definiert Freiheit wie folgt: "Freie Software ist Software, die die Freiheit und Gemeinschaft der Nutzer respektiert. Ganz allgemein bedeutet das, dass Nutzer die Freiheit haben Software auszuführen, zu kopieren, zu verbreiten, zu untersuchen, zu ändern und zu verbessern. Freie Software ist daher eine Frage der Freiheit, nicht des Preises. Um das Konzept zu verstehen, sollte man an frei wie in Redefreiheit denken, nicht wie in Freibier." [GNU 2015-08-04] - Für die Nutzung werden also auch in Zukunft keine Lizenzgebühren fällig. Die Entwicklung finanziert sich zum einen durch Sponsoring - sowie durch Projektaufträge. Wenn Sie eine spezielle Anpassung wünschen entwickele ich diese gerne für Sie - Der Stundensatz richtet sich dabei u.a. danach, ob Sie bereit sind, diese Anpassung mit anderen Nutzer*innen des CorpusExplorer zu teilen oder nicht.

Ich habe gelesen, der CorpusExplorer wird als OpenSource-Projekt entwickelt. Wo finde ich den Quellcode? - Das öffentliche Repository (wird nach jedem Update aktualisiert) finden Sie unter: https://github.com/notesjor/corpusexplorer2.0