Add-ons

Diese Seite listet alle Erweiterungen für den CorpusExplorer ab Version 2.0 auf. Sie können die Erweiterungen sowohl in der Standard-, PC-Poolraum- als auch in der Insider-Edition installieren. Hinweis: Es gibt zwei Arten von Add-ons. Programm Add-ons erweitern den Funktionsumfang des CorpusExplorers. Korpus Add-ons verteilen fertig aufbereitete Korpora (bereinigt/annotiert) - so arbeiten alle Nutzer*innen mit der aktuellsten Korpusversion. [Korpus Add-ons finden Sie hier]

Installationsanleitung:

Stellen Sie sicher, dass der CorpusExplorer geschlossen/beendet ist, bevor Sie weiter fortfahren.
Klicken Sie auf den Download-Button der gewünschten Erweiterung, um den Download zu starten. Hinweis: Seien Sie bitte nicht irritiert, die Datei ist ca. 1-4 KB groß. Speichern Sie die Datei unter:
"Meine Dokumente" > "CorpusExplorer" > "Meine Erweiterungen"
Wenn Sie das nächste Mal den CorpusExplorer starten, wird die Erweiterung automatisch instaliert und auch zukünfig aktuell gehalten.

Programm Add-ons:

Download

OnSteroids

Installiert alle hier aufgeführten Add-ons (siehe unten). Damit erweitern Sie den Funktionsumfang des CorpusExplorers maximal. Paketgröße ca. 6 GB.

DTA::CAB (-NEU-)

DTA::CAB ist ein orthographischer Normalisierer für historische Sprachstufen des Deutschen (entwickelt von Bryan Jurish, Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften). Mit diesem Add-on können Sie frühneuhochdeutsche und mittelhochdeutsche Texte automatisch normalisieren und annotieren. Nach der Installation wählen Sie dazu den Tagger "DTA::CAB + TreeTagger" aus. Eine bestehende Internetverbindung während der Normalisierung/Annotation ist erforderlich, da die Daten an das "Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften" geschickt werden (es erfolgt keine Speicherung - die Texte werden direkt verarbeitet). Nach der Annotation stehen Ihnen vier Layer bereit (Wort = die normalisierte Wortform / Lemma = das Lemma der normalisierten Wortform / POS = Part-of-Speech bzw. Wortart / Original = der originale Rohtext). Wenn Sie dieses Add-on im Rahmen einer
wissenschaftlichen Arbeit nutzen, dann zitieren Sie bitte folgende Arbeit:

Jurish, B. Finite-state Canonicalization Techniques for Historical German.
PhD thesis, Universität Potsdam, 2012 (defended 2011). URN
urn:nbn:de:kobv:517-opus-55789

Weitere DTA::CAB relevante Arbeiten finden Sie unter:
http://odo.dwds.de/~jurish/software/dta-cab/#pubs
Paketgröße: ca. 5 MB

Download

Apache Tika

Diese Erweiterung bindet Apache Tika in den CorpusExplorer ein. Mittels Tika ist es möglich, aus fast jedem Dateiformat Text/Metadaten zu extrahieren. Wenn Sie diese Erweiterung installieren, können Sie unter Dokumente annotieren den Dateityp: Auf gut Glück (Apache Tika) wählen und somit fast alle Dateien als Textquellen anwählen. Hinweis: Diese Erweiterung arbeitet, wie angemerkt, auf gut Glück - spezifischere Dateitypen stellen sicher, dass das Maximum an Informationen aus der Datei extrahiert wird. Apache Tika wurde ursprünglich in Java geschrieben. Dank Kevin Miller gibt es aber eine sehr gute Portierung für C#/.NET namens TikaDotNet. Die ich anstelle der Originalversion im CorpusExplorer verwende - Paketgröße ca. 100 MB

Download

UDPipe

UDPipe ist wohl der POS-Tagger mit dem größten Sprachumfang (aktuell 69). Der CorpusExplorer bietet bereits in der Standardversion die Möglichkeit, die Programmdatei "udpipe.exe" anzusprechen. Dies erfordert jedoch eine zuvor erfolgte Installation des Programms und der Modelle. Dieses Add-on übernimmt die vollständige Installation von UDPipe inklusive der Sprachmodelle. Außerdem bietet das Addon einen auf Performance optimierte Annotationsprozess. Detaillierte Informationen zu UDPipe und den verfügbaren Sprachmodellen finden Sie hier. Größe: 3 GB.

Download

DPXC-Editor

Der DPXC-Editor richtet sich an alle, die Textkorpora erheben wollen aber sich noch nicht festlegen möchten, mit welchem Programm sie später (weiterver-)arbeiten werden. Sie können unannotierte Textdaten und Metadaten speichern. Der Fokus liegt auf der einfachen Bedienung, hoher Flexibilität was die Datenerfassung anbelangt und auf hoher Kompatibilität. Die Ausgabe des DPXC-Editors (XML) können Sie mittels XSL-Transformation in jedes beliebige andere XML-Format übertragen. Außerdem können Sie mit wenigen Klicks das unannotierte Textmaterial mit dem CorpusExplorer automatisch annotieren und auswerten. Der CorpusExplorer lässt dabei die DPXC-Korpora vollkommen unberührt, sodass Sie jederzeit zum Ausgangspunkt zurückkehren können. Weitere Informationen zum DPXC-Editor finden Sie hier. Der DPXC-Editor ist keine Erweiterung des CorpusExplorers im klassischen Sinne. Er basiert auf dem CorpusExplorer-Framework und kann daher nur genutzt werden, wenn der CorpusExplorer installiert ist. Paketgröße ca 2 MB

Download

Stanford POS

Diese Erweiterung stellt den Stanford Maxent Tagger zur automatischen Annotation bereit. Verfügbare Sprachversionen: Arabisch, Chinesisch, Englisch, Französisch, Deutsch - inkl. aller Varianten. Wichtig (Systemvoraussetzung): Bevor Sie diese Erweiterung installieren, müssen Sie die aktuelle Java-Version installieren. Diese Installation kann aus Rechtsgründen leider nicht automatisiert werden. Paketgröße ca. 330 MB

Download

MarMoT

MarMoT ist ein generic conditional random field (CRF) POS-Tagger für: Arabisch, Baskisch, Bulgarisch, Deutsch, Englisch, Estnisch, Französisch, Hebräisch, Koreanisch, Persisch, Polnisch, Rumänisch, Schwedisch, Serbisch, Slowakisch, Slowenisch, Tschechisch, Ungarisch.
MarMoT wurde von Dr. Thomas Müller (LMU München) entwickelt und unter der GPL v3 veröffentlicht. Weitere Informationen zu MarMoT finden Sie hier.

Wichtig (Systemvoraussetzung): Bevor Sie diese Erweiterung installieren, müssen Sie die aktuelle Java-Version installieren. Diese Installation kann aus Rechtsgründen leider nicht automatisiert werden. Größe: ca. 3 GB

Download

OpenNLP

Wenn Sie die OpenNLP-Erweiterung für den CorpusExplorer installieren, dann stehen Ihnen zwei zusätzliche Tagger für die automatische Annotation von Texten zur Verfügung. Unterstützte Sprachen: Deutsch, Englisch, Niederländisch und Portugiesisch. Wichtig (Systemvoraussetzung): Bevor Sie diese Erweiterung installieren, müssen Sie die aktuelle Java-Version installieren. Diese Installation kann aus Rechtsgründen leider nicht automatisiert werden. Paketgröße ca. 50 MB

Download

Toxy

Toxy ist wie Apache Tika (s.o.) ein Allroundtalent, wenn es um die Text-/Metadatenextraktion geht. Installieren Sie diese Erweiterung, wenn Tika keine zufriedenstellenden Ergebnisse bietet. Unter Dokumente annotieren haben Sie dann den neuen Dateityp: Auf gut Glück (Tika) zur Verfügung. Wie auch bei Tika gilt: Verwenden Sie möglichst immer den passenden/spezifischen Dateitypen und Toxy/Tika nur als Notlösung. Paketgröße ca. 10 MB

Download

Ihr Plug-in?

An dieser Stelle könnte ihre Erweiterung für den CorpusExplorer aufgelistet werden. Nutzen Sie das Addon-SDK um eigene Erweiterungen zu entwickeln.

Entwickeln

Pandoc (!NEU!)

Pandoc (https://pandoc.org/) ist ein Konverter für verschiedene Text-Dateiformate (siehe https://pandoc.org/). Durch die Integration in den CorpusExplorer stehen folgende Optionen für den Prozess "Dokument(e) annotieren" bereit: commonmark, docbook, Microsoft Word, ePUB, haddock, html, json, LaTeX, markdown (in den Varianten: markdown strict, github, mnd und phpextra), mediawiki (Wikipedia), OpenOffice Document, OPML, ORG, RST, T2T, Textile und twiki.
Die Konvertierung erfolgt immer in zwei Schritten: 1. Pandoc konvertiert den Rohtext nach HTML. 2. Der CorpusExplorer importiert die HTML-Daten. Auf diese Weise werden Fußnoten und Referenzen effizient entfernt.

Download

Salt & Pepper (!NEU!)

Pepper (http://corpus-tools.org/pepper/) erlaubt es, verschiedene linguistische XML-Formate untereinander zu konvertieren. SaltXML ist dabei der Zwischenstandard, über den die Konvertierung läuft. Nach der Installation stehen für den Korpus-Export folgende Formate für "Korpus importieren" bereit: ALDT, CoNLL, CoraXML, EXMARaLDA, ELAN, GATE-XML, GenericXML, GRAF, RST, TEI 5, TigerXML, UAM, ToolboxXML, WebannoTSV und WOLOF - außerdem für Im- & Export: ANNIS, DOT, GraphAnno, MMAX2, PaulaXML, Penn-Treebank, RelANNIS, SaltInfo, SaltXML, TCF, Text und TreeTagger (annotierter Rohtext).

Download

Add-ons für Datenbanken:

ElasticSearch

NoSQL-Datenbank die Daten im JSON-Format speichert/verwaltet. Benötigt Java. Läuft unter Linux, Windows und MacOS. Sehr leicht zu installieren, da nur eine ZIP-Datei entpackt werden muss. Weitere Infos zu ElasticSearch / Download.

Download

MySQL / MariaDB (!NEU!)

SQL-Datenbank. Läuft unter Linux, Windows und MacOS. Erfordert eine Installation (z. B. XAMPP für Windows) und etwas MySQL-Know-how, da die Datenbank entsprechend konfiguriert werden muss (nutzen Sie my-huge.ini oder my-innodb-heavy-4G.ini für den produktiven Betrieb).

Download

SQLite (!NEU!)

SQL-92 embedded Datenbank (Datenbank wird in einer einzelnen Datei abgelegt). Keine Installation notwendig. Läuft unter Linux, Windows, Android und MacOS.

Download

Installationsanleitung:

Programm Add-ons:

OnSteroids

DTA::CAB (-NEU-)

Apache Tika

UDPipe

DPXC-Editor

Stanford POS

MarMoT

OpenNLP

Toxy

Ihr Plug-in?

Pandoc (!NEU!)

Salt & Pepper (!NEU!)

Add-ons für Datenbanken:

ElasticSearch

MySQL / MariaDB (!NEU!)

SQLite (!NEU!)

Archiv

Schlagwörter