Auch wenn erst Ende März ist, so ist das April Update bereits fertig.
Neue Funktionen / Verbesserungen:
- UDPipe – Teil 1: Der CorpusExplorer kann ab jetzt eine bestehende UDPipe inkl. Universal Dependencies Sprachmodelle ansprechen (Herstellerwebseite).
UDPipe muss zuvor installiert und die UD-Sprachmodelle müssen im selben Verzeichnis liegen wie die „udpipe.exe“. - UDPipe – Teil 2: Für alle, denen die Installation von UDPipe zu kompliziert ist, gibt es ein CorpusExplorer-Addon. Dieses installiert UDPipe vollautomatisch inkl. aller verfügbaren Sprachmodelle (aktuell werden 69 Sprachen unterstützt). Das Addon wird auch zukünftig die Aktualisierung von UDPipe sicherstellen. Außerdem stellt das Addon einen performance-optimierten Tagger bereit.
Daher: Wer UDPipe nur selten nutzen will oder nur wenige Sprachen benötigt, kann die integrierte Version (siehe: UDPipe – Teil 1) nutzen. Wer viele Sprachen benötigt oder große Korpora verarbeiten muss, der sollte das Addon nutzen. (UDPipe Addon herunterladen) - MarMoT: Als weiteres Addon wird der MarMoT POS-Tagger bereitgestellt. Dieser sehr exakte Tagger stellt 18 Sprachmodelle zur Verfügung. (MarMoT herunterladen)
- Neue Autosplit-Optionen: Mittels Autosplit lassen sich Korpora in beliebige Subkorpora/Cluster zerteilen. Für Datumsangaben kommt die Möglichkeit hinzu, Jahrzehnte und Jahrhunderte zu splitten. Für alle Cluster-Splitter kann jetzt die Splitting-Methode gewählt werden. Zuvor war es nur möglich, die Cluster anhand der Werte zu befüllen. Dies führt jedoch in der Praxis zu Clustern mit sehr unterschiedlichen Größen. Cluster können jetzt einen gleichen (Dokument) oder ähnlichen (Token, Sätze) Umfang durch dynamische Grenzen erhalten. Gleichgroße oder ähnlich große Cluster lassen sich besser Vergleichen.
- Export-Funktionen: Bisher hatten nur einige Analysen eine Export-Funktion. Ab jetzt können alle Analysedaten exportiert werden. Exportformate sind z. B. CSV, Excel, PDF, JSON, uvm.
- Pivot-Tabelle Layout laden/speicher: Neben einer Export-Funktionalität für die Daten wurde alle Pivot-Analyse die Möglichkeit hinzugefügt, dass Layout (gewählte Spalten/Zeilen, Filterungen, Sortierungen, etc.) zu laden oder zu speichern.
- Farbverlauf / Farbpalette (beta): Die Heatmap unter Korpusverteilung kann jetzt mit unterschiedlichen Farbverläufen eingefärbt werden. Unter anderem gibt es für den Druck einen Grauverlauf (falls keine Farbgrafiken erlaubt sind) und für Nutzer*innen mit eingeschränkter Farbwahrnehmung optimierte Farbverläufe (z. B. Orange <> Blau). Außerdem lässt sich der Farbverlauf invertieren. Für die Zukunft ist geplant weitere Analysen mit einer Farbauswahl auszustatten.
Anmerkung: Falls Sie den CorpusExplorer nutzen und eine eingeschränkte Farbwahrnehmung haben, würde ich mich sehr freuen, wenn Sie mich kontaktieren und sich für Usability-Tests zur Verfügung stellen. - CEC6 [STREAM] – Neues Dateiformat (beta): Das CEC6-Format hat sich sehr bewährt und wird auch auf lange Sicht das Basisformat für den CorpusExplorer bleiben. Am Format selber wurden keine Änderungen vorgenommen, jedoch gibt es einen neuen Lese/Import-Prozess. Dieser lädt nicht wie üblich, alle Daten direkt in den Arbeitsspeicher (Pro: hohe Performance / Contra: Arbeitsspeicher ist stark begrenzt), sondern ließt nur die notwendigen Sprungmarken ein. Erst wenn eine Analyse startet, werden die notwendigen Daten von der Festplatte gelesen. Dadurch ist der Arbeitsspeicher ist nicht länger die Begrenzung, dafür reduziert sich jedoch die Performance etwas.
Die bisherige Lösung zur Nutzung unbegrenzt großer Korpora auf Basis von Datenbanken (MySql, SQLite oder ElasticSearch – Addons siehe hier) wird dadurch keinesfalls obsolet. Zukünftig soll der STREAM-Zugriff automatisch aktiviert werden, wenn der CorpusExplorer Arbeitsspeicherengpässe erkennt. Die genannten Datenbank werden weiterhin gepflegt und erweitert – sie sind insbesondere für den Export und die Zusammenarbeit mit anderen Programmen vorgesehen. - Performance: Es gibt wie immer Performance-Optimierungen. Insbesondere für die Analysen „Volltext > Texte annotieren“ und „Frequenzanalyse > Tabelle“ – diese sind die meistgenutzten Analysen im Programm.
- Fehlerkorrekturen: Wie immer wurden auch einige Fehler korrigiert.