Das August/September/Oktober Update des CorpusExploreres bringt eine ganze Liste neuer Funktionen mit sich. Einige vereinfachen die Bedienung, einige erlauben zusätzliche Dateiformate und andere bringen neue Funktionen für Nutzer*innen und Entwickler*innen.
- Auf Nutzerwunsch wurde unter „Analysen“ ein neuer Menüpunkt hinzugefügt: Favoriten. Häufig genutzte Analysen werden hier per Schnellzugriff aufgelistet. Außerdem ist es möglich, in den Projekteinstellungen eigene Favoriten festzulegen. Diese Favoriten-Settings lassen sich auch Ex-/Importieren. Damit kann man z. B. für ein Seminar bestimmte Analysen voreinstellen.
- Neue Analyse: Skipgram
- Neue Dateiformate: Gutenberg DVD 13 (setzt eine entsprechend lizenzierte DVD voraus), DTAbf (vorher nur DTAbf.TCF – jetzt voller Support), PMG-XML, Direkter Import für zuvor mit dem TreeTagger annotierter Dateien (Nutzerwunsch), außerdem Import von CATMA-Dateien (mit und ohne bestehender Annotation). ALTO-XML wird jetzt in der Version 1.2 unterstützt (neuere Versionen folgen). Der WebLicht Im-/Export wurde überarbeitet. Es gab Probleme mit dem Dateiformat – der Im-/Export wurde mit unterschiedlichen Texten validiert.
- Neue Funktionen für die Konsole:
- Stilvergleich mittels N-Grammen und Burrows Delta.
- Analyse mittels MTLD und VOCD
- Ausgabe ganzer Dokumente mit: get-document
- get-document-displaynames listet alle Dokumente mit Anzeigename und GUID auf.
- get-document-metadata [GUID] – hiermit lassen sich die Metadaten eines gewählten Dokuments anzeigen.
- query-list – Funktioniert wie query, nur das am Ende kein Schnappschuss/Korpus steht, sondern eine Liste mit Dokumenten Anzeigenamen und GUIDs.
- cluster-list – Funktioniert wie cluster, nur das am Ende keine Schnappschüsse/Korpora stehen, sondern eine Liste mit Dokumenten Anzeigenamen und GUIDs.
- N-Gramme können jetzt selektiv analysiert werden.
- Die Hilfe wurde überarbeitet. Optionale Parameter werden zukünftig mit { } hervorgehoben.
- Der Skript-Modus kommt jetzt mit weniger Aktualisierungen aus. Dies sorgt für eine bessere Anzeigequalität.
- Die Konsole kann jetzt einen RESTful-Webservice starten. Die Funktion ist aktuell noch experimentell.
- Der CorpusExplorer ist von Anfang an auf Flexibilität ausgelegt. Dateiformate, Tagger, Analysen, Visualisierungen, uvm. konnten bisher als Add-ons erstellt und nachinstalliert werden. Bei einem Workshop wurde ich gefragt, ob man nicht auch Analysen mit unterschiedlichen Metriken/Algorithmen erweitern könnte (z. B. Vokabularkomplexität – hier gibt es verschiedene Metriken)… also eine bestehende Analyse mit zusätzlichen Features ausstatten kann. Nach einigen Überlegungen ergab sich eine einfache und intuitive API – Diese Add-ons werden als Sideload-Addons bezeichnet. Jede Analyse/Visualisierung kann Sideload-Addons zulassen. Aufruf: Configuration.GetSideloadFeature<T>() – T ist hierbei der Typ (am besten ein Interface oder eine abstrakte Klasse) von dem alle Sideload-Addons erben müssen. Der Aufruf gibt IEnumerable<T> zurück – damit ist sichergestellt, dass eine Analyse/Visualisierung nur Sideload-Addons lädt, die sie auch verarbeiten kann.
- Kleine Verbesserungen an der Oberfläche und Fehlerkorrekturen – z. B. wurden verschiedene Korpora geladen, so wurden in der Korpusübersicht Layer mit gleichem Namen mehrfach gezählt, jetzt gibt die Übersicht nur unterschiedliche Layer aus.