Diese Seite listet alle Erweiterungen für den CorpusExplorer ab Version 2.0 auf. Sie können die Erweiterungen sowohl in der Standard-, PC-Poolraum- als auch in der Insider-Edition installieren. Hinweis: Es gibt zwei Arten von Add-ons. Programm Add-ons erweitern den Funktionsumfang des CorpusExplorers. Korpus Add-ons verteilen fertig aufbereitete Korpora (bereinigt/annotiert) - so arbeiten alle Nutzer*innen mit der aktuellsten Korpusversion. [Korpus Add-ons finden Sie hier]

Installationsanleitung:

  1. Stellen Sie sicher, dass der CorpusExplorer geschlossen/beendet ist, bevor Sie weiter fortfahren.
  2. Klicken Sie auf den Download-Button der gewünschten Erweiterung, um den Download zu starten. Hinweis: Seien Sie bitte nicht irritiert, die Datei ist ca. 1-4 KB groß. Speichern Sie die Datei unter:
    "Meine Dokumente" > "CorpusExplorer" > "Meine Erweiterungen"
  3. Wenn Sie das nächste Mal den CorpusExplorer starten, wird die Erweiterung automatisch instaliert und auch zukünfig aktuell gehalten.

Programm Add-ons:

OnSteroids

Installiert alle hier aufgeführten Add-ons (siehe unten). Damit erweitern Sie den Funktionsumfang des CorpusExplorers maximal. Paketgröße ca. 500 MB.

Apache Tika

Diese Erweiterung bindet Apache Tika in den CorpusExplorer ein. Mittels Tika ist es möglich, aus fast jedem Dateiformat Text/Metadaten zu extrahieren. Wenn Sie diese Erweiterung installieren, können Sie unter Dokumente annotieren den Dateityp: Auf gut Glück (Apache Tika) wählen und somit fast alle Dateien als Textquellen anwählen. Hinweis: Diese Erweiterung arbeitet, wie angemerkt, auf gut Glück - spezifischere Dateitypen stellen sicher, dass das Maximum an Informationen aus der Datei extrahiert wird. Apache Tika wurde ursprünglich in Java geschrieben. Dank Kevin Miller gibt es aber eine sehr gute Portierung für C#/.NET namens TikaDotNet. Die ich anstelle der Originalversion im CorpusExplorer verwende - Paketgröße ca. 100 MB

Download

 

Stanford POS

Diese Erweiterung stellt den Stanford Maxent Tagger zur automatischen Annotation bereit. Verfügbare Sprachversionen: Arabisch, Chinesisch, Englisch, Französisch, Deutsch - inkl. aller Varianten. Wichtig (Systemvoraussetzung): Bevor Sie diese Erweiterung installieren, müssen Sie die aktuelle Java-Version installieren. Diese Installation kann aus Rechtsgründen leider nicht automatisiert werden. Paketgröße ca. 330 MB

Download

DPXC-Editor

Der DPXC-Editor richtet sich an alle, die Textkorpora erheben wollen aber sich noch nicht festlegen möchten, mit welchem Programm sie später (weiterver-)arbeiten werden. Sie können unannotierte Textdaten und Metadaten speichern. Der Fokus liegt auf der einfachen Bedienung, hoher Flexibilität was die Datenerfassung anbelangt und auf hoher Kompatibilität. Die Ausgabe des DPXC-Editors (XML) können Sie mittels XSL-Transformation in jedes beliebige andere XML-Format übertragen. Außerdem können Sie mit wenigen Klicks das unannotierte Textmaterial mit dem CorpusExplorer automatisch annotieren und auswerten. Der CorpusExplorer lässt dabei die DPXC-Korpora vollkommen unberührt, sodass Sie jederzeit zum Ausgangspunkt zurückkehren können. Weitere Informationen zum DPXC-Editor finden Sie hier. Der DPXC-Editor ist keine Erweiterung des CorpusExplorers im klassischen Sinne. Er basiert auf dem CorpusExplorer-Framework und kann daher nur genutzt werden, wenn der CorpusExplorer installiert ist. Paketgröße ca 2 MB

Download

Ihr Plug-in?

An dieser Stelle könnte ihre Erweiterung für den CorpusExplorer aufgelistet werden. Nutzen Sie das Addon-SDK um eigene Erweiterungen zu entwickeln.

Entwickeln

OpenNLP

Wenn Sie die OpenNLP-Erweiterung für den CorpusExplorer installieren, dann stehen Ihnen zwei zusätzliche Tagger für die automatische Annotation von Texten zur Verfügung. Unterstützte Sprachen: Deutsch, Englisch, Niederländisch und Portugiesisch. Wichtig (Systemvoraussetzung): Bevor Sie diese Erweiterung installieren, müssen Sie die aktuelle Java-Version installieren. Diese Installation kann aus Rechtsgründen leider nicht automatisiert werden. Paketgröße ca. 50 MB

Download

 

Toxy

Toxy ist wie Apache Tika (s.o.) ein Allroundtalent, wenn es um die Text-/Metadatenextraktion geht. Installieren Sie diese Erweiterung, wenn Tika keine zufriedenstellenden Ergebnisse bietet. Unter Dokumente annotieren haben Sie dann den neuen Dateityp: Auf gut Glück (Tika) zur Verfügung. Wie auch bei Tika gilt: Verwenden Sie möglichst immer den passenden/spezifischen Dateitypen und Toxy/Tika nur als Notlösung. Paketgröße ca. 10 MB

Download