Diese Seite listet alle Erweiterungen für den CorpusExplorer ab Version 2.0 auf. Sie können die Erweiterungen sowohl in der Standard-, PC-Poolraum- als auch in der Insider-Edition installieren. Hinweis: Es gibt zwei Arten von Add-ons. Programm Add-ons erweitern den Funktionsumfang des CorpusExplorers. Korpus Add-ons verteilen fertig aufbereitete Korpora (bereinigt/annotiert) - so arbeiten alle Nutzer*innen mit der aktuellsten Korpusversion. [Korpus Add-ons finden Sie hier]

Installationsanleitung:

  1. Stellen Sie sicher, dass der CorpusExplorer geschlossen/beendet ist, bevor Sie weiter fortfahren.
  2. Klicken Sie auf den Download-Button der gewünschten Erweiterung, um den Download zu starten. Hinweis: Seien Sie bitte nicht irritiert, die Datei ist ca. 1-4 KB groß. Speichern Sie die Datei unter:
    "Meine Dokumente" > "CorpusExplorer" > "Meine Erweiterungen"
  3. Wenn Sie das nächste Mal den CorpusExplorer starten, wird die Erweiterung automatisch instaliert und auch zukünfig aktuell gehalten.

Programm Add-ons:

OnSteroids

Installiert alle hier aufgeführten Add-ons (siehe unten). Damit erweitern Sie den Funktionsumfang des CorpusExplorers maximal. Paketgröße ca. 1,2 GB.

Apache Tika

Diese Erweiterung bindet Apache Tika in den CorpusExplorer ein. Mittels Tika ist es möglich, aus fast jedem Dateiformat Text/Metadaten zu extrahieren. Wenn Sie diese Erweiterung installieren, können Sie unter Dokumente annotieren den Dateityp: Auf gut Glück (Apache Tika) wählen und somit fast alle Dateien als Textquellen anwählen. Hinweis: Diese Erweiterung arbeitet, wie angemerkt, auf gut Glück - spezifischere Dateitypen stellen sicher, dass das Maximum an Informationen aus der Datei extrahiert wird. Apache Tika wurde ursprünglich in Java geschrieben. Dank Kevin Miller gibt es aber eine sehr gute Portierung für C#/.NET namens TikaDotNet. Die ich anstelle der Originalversion im CorpusExplorer verwende - Paketgröße ca. 100 MB

Download

 

Stanford POS

Diese Erweiterung stellt den Stanford Maxent Tagger zur automatischen Annotation bereit. Verfügbare Sprachversionen: Arabisch, Chinesisch, Englisch, Französisch, Deutsch - inkl. aller Varianten. Wichtig (Systemvoraussetzung): Bevor Sie diese Erweiterung installieren, müssen Sie die aktuelle Java-Version installieren. Diese Installation kann aus Rechtsgründen leider nicht automatisiert werden. Paketgröße ca. 330 MB

Download

DPXC-Editor

Der DPXC-Editor richtet sich an alle, die Textkorpora erheben wollen aber sich noch nicht festlegen möchten, mit welchem Programm sie später (weiterver-)arbeiten werden. Sie können unannotierte Textdaten und Metadaten speichern. Der Fokus liegt auf der einfachen Bedienung, hoher Flexibilität was die Datenerfassung anbelangt und auf hoher Kompatibilität. Die Ausgabe des DPXC-Editors (XML) können Sie mittels XSL-Transformation in jedes beliebige andere XML-Format übertragen. Außerdem können Sie mit wenigen Klicks das unannotierte Textmaterial mit dem CorpusExplorer automatisch annotieren und auswerten. Der CorpusExplorer lässt dabei die DPXC-Korpora vollkommen unberührt, sodass Sie jederzeit zum Ausgangspunkt zurückkehren können. Weitere Informationen zum DPXC-Editor finden Sie hier. Der DPXC-Editor ist keine Erweiterung des CorpusExplorers im klassischen Sinne. Er basiert auf dem CorpusExplorer-Framework und kann daher nur genutzt werden, wenn der CorpusExplorer installiert ist. Paketgröße ca 2 MB

Download

Ihr Plug-in?

An dieser Stelle könnte ihre Erweiterung für den CorpusExplorer aufgelistet werden. Nutzen Sie das Addon-SDK um eigene Erweiterungen zu entwickeln.

Entwickeln

OpenNLP

Wenn Sie die OpenNLP-Erweiterung für den CorpusExplorer installieren, dann stehen Ihnen zwei zusätzliche Tagger für die automatische Annotation von Texten zur Verfügung. Unterstützte Sprachen: Deutsch, Englisch, Niederländisch und Portugiesisch. Wichtig (Systemvoraussetzung): Bevor Sie diese Erweiterung installieren, müssen Sie die aktuelle Java-Version installieren. Diese Installation kann aus Rechtsgründen leider nicht automatisiert werden. Paketgröße ca. 50 MB

Download

 

Toxy

Toxy ist wie Apache Tika (s.o.) ein Allroundtalent, wenn es um die Text-/Metadatenextraktion geht. Installieren Sie diese Erweiterung, wenn Tika keine zufriedenstellenden Ergebnisse bietet. Unter Dokumente annotieren haben Sie dann den neuen Dateityp: Auf gut Glück (Tika) zur Verfügung. Wie auch bei Tika gilt: Verwenden Sie möglichst immer den passenden/spezifischen Dateitypen und Toxy/Tika nur als Notlösung. Paketgröße ca. 10 MB

Download

Pandoc (!NEU!)

Pandoc (https://pandoc.org/) ist ein Konverter für verschiedene Text-Dateiformate (siehe https://pandoc.org/). Durch die Integration in den CorpusExplorer stehen folgende Optionen für den Prozess "Dokument(e) annotieren" bereit: commonmark, docbook, Microsoft Word, ePUB, haddock, html, json, LaTeX, markdown (in den Varianten: markdown strict, github, mnd und phpextra), mediawiki (Wikipedia), OpenOffice Document, OPML, ORG, RST, T2T, Textile und twiki.
Die Konvertierung erfolgt immer in zwei Schritten: 1. Pandoc konvertiert den Rohtext nach HTML. 2. Der CorpusExplorer importiert die HTML-Daten. Auf diese Weise werden Fußnoten und Referenzen effizient entfernt.

Download

Salt & Pepper (!NEU!)

Pepper (http://corpus-tools.org/pepper/) erlaubt es, verschiedene linguistische XML-Formate untereinander zu konvertieren. SaltXML ist dabei der Zwischenstandard, über den die Konvertierung läuft. Nach der Installation stehen für den Korpus-Export folgende Formate für "Korpus importieren" bereit: ALDT, CoNLL, CoraXML, EXMARaLDA, ELAN, GATE-XML, GenericXML, GRAF, RST, TEI 5, TigerXML, UAM, ToolboxXML, WebannoTSV und WOLOF - außerdem für Im- & Export: ANNIS, DOT, GraphAnno, MMAX2, PaulaXML, Penn-Treebank, RelANNIS, SaltInfo, SaltXML, TCF, Text und TreeTagger (annotierter Rohtext).

Download

Add-ons für Datenbanken:

ElasticSearch

NoSQL-Datenbank die Daten im JSON-Format speichert/verwaltet. Benötigt Java. Läuft unter Linux, Windows und MacOS. Sehr leicht zu installieren, da nur eine ZIP-Datei entpackt werden muss. Weitere Infos zu ElasticSearch / Download.

Download

MySQL / MariaDB (!NEU!)

SQL-Datenbank. Läuft unter Linux, Windows und MacOS. Erfordert eine Installation (z. B. XAMPP für Windows) und etwas MySQL-Know-how, da die Datenbank entsprechend konfiguriert werden muss (nutzen Sie my-huge.ini oder my-innodb-heavy-4G.ini für den produktiven Betrieb).

Download

SQLite (!NEU!)

SQL-92 embedded Datenbank (Datenbank wird in einer einzelnen Datei abgelegt). Keine Installation notwendig. Läuft unter Linux, Windows, Android und MacOS.

Download