CorpusExplorer (August Update 2017)

Das August-Update bringt nicht nur kleine Verbesserungen sondern auch drei große Neuerungen mit sich.

1. Öffnung der Konfigurations-Schnittstelle / Abschaltung der Advanced/PC-Poolraum Edition

Bisher gab es drei Versionen für den CorpusExplorer – Zukünftig nur noch eine einheitliche Version. Folgende Installationspakete werden Anfang 2018 abgeschaltet. Nutzer*innen werden darüber bei jedem Programmstart informiert. Folgende Installationspakete werden entfernt: Die bisherige Advanced-Edition richtete sich an freiwilliger Tester*innen, die neuste Funktionen ausprobieren wollten (BETA-Test). Außerdem die PC-Poolraum Edition – sie war für Poolräume konzipiert und löschte bei jedem Programmstart bisherige Einstellungen. Die neue Version des CorpusExplorers vereint alle Funktionalitäten in einem Installationsprogramm. Über so genannte Feature-Toggles können ab jetzt optional experimentelle Funktionen bei Bedarf aktiviert werden. Außerdem können alle CorpusExplorer-Instanzen automatisch/verteilt konfiguriert werden. Nähere Informationen folgen bald.

2. CEC – Die CorpusExplorerConsole wird ab jetzt ausgeliefert

Damit ist es möglich, aus anderen Programmen oder anderen Programmiersprachen auf Analysen/Daten des CorpusExplorers zuzugreifen. Ursprünglich wurde die Konsolen-Lösung unter dem Namen CorpusExplorer-Port-R entwickelt und sollte die Nutzung des CorpusExplorers innerhalb der Programmiersprache R ermöglichen. Daraus ist eine konsolenbasierte Schnittstelle erwachsen, die viele Funktionen des CorpusExplorers mit wenig Aufwand zur Verfügung stellt. Zielgruppe sind fortgeschrittene Nutzer*innen, die andere Programme und komplexe Workflows nutzen aber nicht auf das CorpusExplorer.SDK zugreifen wollen/können und vielmehr eine schnelle Lösung benötigen um Korpusdaten auszuwerten. Die Analyseergebnisse werden direkt in stdout geschrieben – daher können die Ergebnisse direkt übertragen werden. Eine Dokumentation dazu finden Sie unter: https://github.com/notesjor/CorpusExplorer.Terminal.Console

3. Elasticsearch – simple / skalierbare NoSQL-Datenbank

Seit einiger Zeit experimentiere ich mit unterschiedlichen Backends im CorpusExplorer. Warum ist Elasticsearch das erste Datenbankbackend? – Weil Elasticsearch kostenfrei, leicht zu installieren und extrem gut skalierbar ist. Die meisten SQL-Datenbanken sind sehr träge, wenn man große Datenstrukturen ablegen möchte – oder man braucht viel know-how und gute Hardware. Elasticsearch bedarf nur einer Java-Installation – das Elasticsearch-Installationspaket ist eine simple ZIP-Datei (einfach entpacken und bin/elasticsearch.bat starten) – schon kann es losgehen. Der CorpusExplorer kann neue Korpora direkt in Elasticsearch speichern oder bestehende Korpora in Elasticsearch exportieren/importieren. Hier sei angemerkt, dass Elasticsearch nur eine Option für Korpora ab ca. 25 Mio. Token sein sollte. Kleinere Korpora laufen effizienter mit dem CEC6-Backend. Für sehr große Korpora (ab 500 Mio. Token) empfiehlt es sich zudem, mehrere verteilte Elasticsearch-Knoten zu nutzen. Attraktiv sind hierbei auch die Angebot von amazon und azure – hier kann man hochverfügbare Elasticsearch-Instanzen für kleines Geld mieten. Außerdem gibt es eine Export-Funktion namens „CorpusExplorer >>> Elasticsearch“ mit der der Volltext aller Layer in Elasticsearch geschrieben werden kann – ideal zur Weiterverarbeitung mit ES und anderen Werkzeugen (dieser Export erlaubt aber keine Nutzung mehr durch den CorpusExplorer). Auch zu diesem Feature folgt in den nächsten Tagen noch ein ausführlicher Artikel.

1. Öffnung der Konfigurations-Schnittstelle / Abschaltung der Advanced/PC-Poolraum Edition

2. CEC – Die CorpusExplorerConsole wird ab jetzt ausgeliefert

3. Elasticsearch – simple / skalierbare NoSQL-Datenbank

Archiv

Schlagwörter