Lange ist es her. Das letzte Update erfolgte im Q3 2019. Was war passiert? War die Entwicklung eingeschlafen? – Nein, die Entwicklung ging weiter. Es gab nur keine neuen Updates, da der CorpusExplorer als Teil meines Dissertationsprojekts eingereicht wurde und eine Begutachtung erfolgte. Jetzt steht nur noch die Verteidigung für mich an (also bitte Daumen drücken). Traditionell (seit mehr als fünf Jahren) ist das Mai-Update (Q2) immer ein besonders großes Update.

Folgende Neuerungen gibt es:

  • Korpora werden beim Import automatisch auf Konsistenz und Fehler überprüft. Diese Überprüfung kann jetzt unter „Projekteinstellung“ >  „Feature Toggle & Einstellungen“ > „CEC6-Validation?“ deaktiviert werden. Empfehlung: Bitte aktiviert lassen. Falls Sie aber viele Korpora haben, die Fehler enthalten und Sie diese alle auf einmal laden möchten, dann deaktivieren Sie diese Option.
  • Korpora vereinen überarbeitet – Unter „Projekteinstellungen“ > „Werkzeuge“ > „Korpora vereinen“ war es zuvor nur möglich CorpusExplorer Korpora zu vereinen. Ab jetzt lassen sich alle importfähigen Korpora (wie z. B. CoNLL, TXM, TreeTagger-TXT) einlesen und in alle exportfähigen Formate (z. B. CoNLL, Weblicht, DTA-TCF) exportieren (vereinen).
    Tipp: Wer große Korpora hat, sollte eher den QuickMode nutzen. Dazu geht man wie folgt vor: CorpusExplorer sollte NICHT laufen. Drücken Sie die Tastenkombination STRG + R, um „Ausführen“ anzuzeigen. Geben Sie in das Eingabefeld folgendes ein und bestätigen Sie mit „Ok“: CorpusExplorer –conv
  • Der DPXC-Editor (Addon) wurde verbessert. In den kommenden Wochen wird es hier ein größeres Feature-Release geben, das einige oft nachgefragte Funktionen mit sich bringt.
  • CEC6-Dateien können jetzt erneut über „Dokumente annotieren“ erneut annotiert werden.
  • Alle Tabellen-Visualisierungen verfügen jetzt über einen Delay von 500ms bei der Suche. D. h. nicht jeder Tastendruck bei der Suche führt zum sofortigen Auslösung der Suchfunktion (wie bisher). Auch wenn es merkwürdig klingt, eine Verzögerung führt hier zu einer Beschleunigung (die GUI fühlt sich schneller an).
  • Arbeiten zum QuickIndex v3 wurden abgeschlossen. Die Resultate finden aktuell nur im Projekt diskursmonitor.de Anwendung, werden aber auch bald im CorpusExplorer verfügbar sein. QuickIndex ist ein auf linguistische Annotationen optimierter Suchindex, grob ähnlich zu Lucene (wobei Lucene andere Grundannahmen trifft), der wenige Daten im Arbeitsspeicher halten muss um effizient zu sein.
  • Verbesserung der Sentiment-Compiler (für komplexere Sentiment-Abfragen anstelle von Einzeltoken).
  • Neue Funktionen für die CEC (CorpusExplorer Console):
    • hash – Berechnet Hashwert für alle Dokumente. Erlaubt die Identifikation von absolut identischen Dokumenten.
    • hash-roll – Berechnet rollende Hashwerte für alle Dokumente. Erlaubt die Identifikation von teilweise identischen Dokumenten.
  • Verbesserungen bei folgenden Dateiformaten:
    • Tiger-XML (verbesserter Import)
    • IDS I5-Korpora (neu – Scraper)
    • TXM (neu – Import/Export/Scraper)
    • CorpusWorkbench (Exporter)
    • BAWE (neu Scraper)
    • BNC (neu Scraper)
  • Umstellung auf „.NET Framework“ 4.6.1
  • FeatureFox-Framework v1 – Dieses Projekt befasst sich mit der Frage, wie man die GUI und den gesamten CorpusExplorer so entschlanken kann, das nur die benötigten Module geladen werden. Hierzu wird es im Q3 2020 eine grundlegende Überarbeitung der Funktionen geben.
  • Allgemeine Verbesserungen, Aktualisierung von Drittkomponenten und kleiner Bug-Fixes.