CorpusExplorer

Software für Korpuslinguist*innen und Text-/Data-Mining Interessierte. Der CorpusExplorer vereint über 30 interaktiven Auswertungsmöglichkeiten mit einer einfachen Bedienung. Routineaufgaben wie z. B. Textakquise, Taggen oder die grafische Aufbereitung von Ergebnissen werden vollständig automatisiert. Die einfache Handhabung erleichtert den Einsatz in der universitären Lehre und führt zu schnellen sowie gehaltvollen Ergebnissen. Dabei ist der CorpusExplorer offen für viele Standards (XML, CSV, JSON, R, uvm.) und bietet darüber hinaus ein eigenes Software Development Kit (SDK) an, mit dem es möglich ist, alle Funktionen in eigene Programme zu integrieren.

Diese Diashow benötigt JavaScript.

Unterstützer:

Fragen der Nutzer

Was sind die Hauptunterschiede zwischen 2.0 und 1.9? - Im Grunde handelt es sich um zwei komplett unterschiedliche Programme. Die Version 2.0 wurde von Grund auf neu entwickelt. Die wesentlichen Unterschiede der Version 2.0 gegenüber 1.9 sind:

  • Über 40 verschiedene Analysemodule (Version 1.9 verfügt nur über 10)
  • Deutlich höhere Performance
  • Keine Korpusbegrenzungen - lediglich die verfügbare Hardware begrenzt die Analysemenge
  • Direkte Vernetzung und Kollaboration mit Kollegen möglich
  • Austauschbares Daten-Backend. Nutzen Sie MySQL, MS SQL-Server oder ElasticSearch um große Korpora zu speichern.
  • Offene Entwicklerplattform die es erlaubt, eigene Erweiterungen, Tagger, Visualisierungen und Auswertungen zu programmieren
  • Projekte und Schnappschüssen erlauben das einfache organisieren und bei der Formulierung von Forschungsfragen.

Ich habe festgestellt, dass der CorpusExplorer v2.0 einen sehr unterschiedlichen Resourcenverbrauch hat - manchmal sind es nur wenige MB Arbeitsspeicher, manchmal aber auch mehrere GB, obwohl die Korpora fast gleichgroß sind - Woran liegt das? - Der CorpusExplorer ist auf absolute Datensparsamkeit optimiert. Das Programm benötigt ca. 350 MB Arbeitsspeicher. Der Unterschied im Arbeitsspeicherverbrauch bei gleich großen Korpora (ähnliche Anzahl an Tokens) hat zwei Gründe:

  1. Viele Dokument-Metadaten erhöhen den Arbeitsspeicher-/Festplattenverbrauch.
  2. Die Kompression des CorpusExplorers ist nur bei normalen Type-Token-Relationen (TTR) voll wirksam. Eine TTR von nahe 1 haben z. B. Chat-, SMS- und Twitter-Korpora. Daher sind diese im Vergleich zu z. B. Zeitungskorpora besonders ineffizient.

Zwei Extrembeispiele aus der Praxis:

  1. Twitterkorpus: 500'000 Dokument-Metadaten - 1,0 Mio. Token - dies entspricht in etwa 50'000 Tweets (Kurznachrichten mit max. 140 Zeichen) - Das Korpus benötigt: 20 MB Festplattenspeicher und 300 MB RAM.
  2. Zeitungskorpus: 13'000 Dokument-Metadaten - 1,3 Mio. Token - dies entspricht in etwa 2100 Zeitungsartikeln - Das Korpus benötigt: 9 MB Festplattenspeicher und 30 MB RAM.

Obwohl das zweite Korpus 30% mehr Tokens umfasst, benötigt es nur 50% Festplattenspeicher und nur 10% Arbeitsspeicher gegenüber dem Twitterkorpus.

Wenn der CorpusExplorer ein Promotionsprojekts ist, wird er dann nach Abschluss der Promotion noch weiterentwickelt? - Ja, auf jeden Fall. Bis es soweit ist, hoffe ich, zudem genügend Unterstützung und Mitstreiter*innen gefunden zu haben, um den CorpusExplorer noch besser, effizienter und benutzerfreundlicher zu gestalten.

Kann ich die Version 2.0 und die Version 1.9 parallel installieren? - Ja, dies ist ohne Probleme möglich. Korpora können zwischen den Versionen ausgetauscht werden. Auch in Zukunft werden alle CE-Versionen untereinander kompatibel sein.

Was sind die Mindestvoraussetzungen (Hardware) für den CorpusExplorer? - Der CorpusExplorer läuft auf allen PCs ab Windows Vista. Die Version 2.0 nutzt alle verfügbaren Prozessor-Features (64-Bit / Multicore). Die Standardinstallation benötigt ca. 700 MB freien Festplattenplatz (davon 50 MB für den CE - Rest: Drittanbieter z. B. TreeTagger). Es werden min. 8 GB RAM empfohlen.

Gibt es eine Linux, MAC - Version? - JA und NEIN. NEIN weil es keine offiziell unterstützte Version für Linux und MAC gibt. JA, weil Sie den CorpusExplorer trotzdem auf diesen Systemen starten können. Wie das geht, zeigt Ihnen diese Anleitung.

Ist geplant den CorpusExplorer zu kommerzialisieren - also Geld für die Nutzung zu verlangen? - Wie finanziert man die Weiterentwicklung? - Der CorpusExplorer steht unter der GPL v2.0 - die GNU-Organisation die hinter dieser Lizenz steht definiert Freiheit wie folgt: "Freie Software ist Software, die die Freiheit und Gemeinschaft der Nutzer respektiert. Ganz allgemein bedeutet das, dass Nutzer die Freiheit haben Software auszuführen, zu kopieren, zu verbreiten, zu untersuchen, zu ändern und zu verbessern. Freie Software ist daher eine Frage der Freiheit, nicht des Preises. Um das Konzept zu verstehen, sollte man an frei wie in Redefreiheit denken, nicht wie in Freibier." [GNU 2015-08-04] - Für die Nutzung werden also auch in Zukunft keine Lizenzgebühren fällig. Die Entwicklung finanziert sich zum einen durch Sponsoring - sowie durch Projektaufträge. Wenn Sie eine spezielle Anpassung wünschen entwickele ich diese gerne für Sie - Der Stundensatz richtet sich dabei u.a. danach, ob Sie bereit sind, diese Anpassung mit anderen Nutzer*innen des CorpusExplorer zu teilen oder nicht.

Ich habe gelesen, der CorpusExplorer wird als OpenSource-Projekt entwickelt. Wo finde ich den Quellcode? - Ja, das ist richtig, der CorpusExplorer wird unter der GPL v2.0 entwickelt. Der Quellcode wird nach Abschluss meines Promotionsprojekts veröffentlicht. Sollte Sie schon früher Einsicht nehmen wollen, dann kontaktieren Sie mich bitte direkt.