InAppNote

CorpusExplorer (XMAS Update Dez/Jan 2018/19)

Erstmal wünsche ich allen Nutzer*innen des CorpusExplorers frohe Feiertage und einen guten Rutsch ins Jahr 2019. Die letzten Tage des Jahres nutze ich, um ein paar Dinge im CorpusExplorer zu verbessert. Folgendes hat sich getan:

  • Übersichtsanzeige wurde verbessert. Bisher wurden die Token (z. B. auf den Übersichtsseiten zu Korpora und Schnappschüssen) immer in Mio. angegeben. Dies führte in letzter Zeit zu einigen Irritationen und Nachfragen wie: „Bei mir zeigt der CorpusExplorer nur 0,00 Token an“. Kleine Korpora erweckten also den Anschein leer zu sein. Die Anzeige der Token und Dokumente skaliert jetzt automatisch in Tausenderschritten – Tsd., Mio. Mrd.
  • OpenThesaurus steht jetzt als Zusatz-Tagger bereit. Damit kann eine Synonym-Suche realisiert werden.
  • AltoXML wurde verbessert (weniger Fehler – schnellere Verarbeitung).
  • Neue Datenformate für Blogger und Tumblr.
  • Geringfügige Verbesserungen an der GUI.
Mehr

CorpusExplorer (Update Nov/Dez 2018) – Reguläre Ausdrücke und CutOff-Phrasen

CorpusExplorer (Update Nov/Dez 2018) – Reguläre Ausdrücke und CutOff-Phrasen

Auf einem Workshop in Würzburg (2018-11-09) baten mich mehrere Teilnehmer*innen, dass ich Reguläre Ausdrücke (Regular Expression – kurz RegEx) im CorpusExplorer ermöglichen soll. Bisher habe ich RegEx vermieden – oder zumindest in der Oberfläche gut versteckt. Auch weiterhin halte ich diese hässlichen RegEx-Dinger, die mehr an Marsianisch oder Klingonisch erinnern, als an eine Abfragesprache, für überflüssig und hinderlich, wenn es um die Gestaltung einer grafischen Benutzerschnittstelle geht (als Programmierer weiß ich natürlich den Vorteil von RegEx zu schätzen – hier sei nur auf meinen Favoriten „<[^>]*>“ verwiesen, der sämtliche XML-Tags aus einer Datei entfernen kann).

Es gibt aber zwei Argumente die ich für überzeugend halte:

  1. Es gibt viel existierendes Wissen zu Regulären Ausdrücken – meist in Form mühsam zusammengeklöppelter Abfragen auf Schmierzetteln (ist bei mir nicht anders). Dieses Wissen will man natürlich weiterhin nutzen.
  2. Bei einigen Abfragen, z. B. bei der Suche nach verschiedenen Wortformen können RegEx der/dem Eingeweihten helfen, schneller ans Ziel zu kommen.

Daher führt dieses Update folgende neue Funktionen ein:

  • RegEx für die Erstellung von Schnappschüssen. Mit und ohne Satzgrenzenerkennung.
  • RegEx für alle Tabellen-Analysen, zum schnellen Suchen von Werten.

Zusätzlich gibt es folgende neue Funktionen / Verbesserungen:

  • Neue Analyse unter „Phrasen & Muster“ > „CutOff-Phrasen“.
    Hierbei lässt sich nach Phrasen suchen, die zwischen zwei Begriffen stehen. Eine maximale Spanne kann angegeben werden.

    Neue Analyse: CutOff-Phrasen

  • Das Problem mit hochauflösenden Bildschirmen kurz HighDPI tauchte leider wieder auf. Für diese Bildschirme wurden neue Korrekturen eingeführt.
  • Die Ikonografie für Filter wurde vereinheitlicht / Die Icons auf der Korpusübersichtsseite wurden aufgehübscht.

 

Mehr

CorpusExplorer (Update Aug/Sep/Okt 2018) – Favoriten, Formate, Flexibilität und neue Funktionen

Das August/September/Oktober Update des CorpusExploreres bringt eine ganze Liste neuer Funktionen mit sich. Einige vereinfachen die Bedienung, einige erlauben zusätzliche Dateiformate und andere bringen neue Funktionen für Nutzer*innen und Entwickler*innen.

  • Auf Nutzerwunsch wurde unter „Analysen“ ein neuer Menüpunkt hinzugefügt: Favoriten. Häufig genutzte Analysen werden hier per Schnellzugriff aufgelistet. Außerdem ist es möglich, in den Projekteinstellungen eigene Favoriten festzulegen. Diese Favoriten-Settings lassen sich auch Ex-/Importieren. Damit kann man z. B. für ein Seminar bestimmte Analysen voreinstellen.
  • Neue Analyse: Skipgram
  • Neue Dateiformate: Gutenberg DVD 13 (setzt eine entsprechend lizenzierte DVD voraus), DTAbf (vorher nur DTAbf.TCF – jetzt voller Support), PMG-XML, Direkter Import für zuvor mit dem TreeTagger annotierter Dateien (Nutzerwunsch), außerdem Import von CATMA-Dateien (mit und ohne bestehender Annotation). ALTO-XML wird jetzt in der Version 1.2 unterstützt (neuere Versionen folgen). Der WebLicht Im-/Export wurde überarbeitet. Es gab Probleme mit dem Dateiformat – der Im-/Export wurde mit unterschiedlichen Texten validiert.
  • Neue Funktionen für die Konsole:
    • Stilvergleich mittels N-Grammen und Burrows Delta.
    • Analyse mittels MTLD und VOCD
    • Ausgabe ganzer Dokumente mit: get-document
    • get-document-displaynames listet alle Dokumente mit Anzeigename und GUID auf.
    • get-document-metadata [GUID] – hiermit lassen sich die Metadaten eines gewählten Dokuments anzeigen.
    • query-list – Funktioniert wie query, nur das am Ende kein Schnappschuss/Korpus steht, sondern eine Liste mit Dokumenten Anzeigenamen und GUIDs.
    • cluster-list – Funktioniert wie cluster, nur das am Ende keine Schnappschüsse/Korpora stehen, sondern eine Liste mit Dokumenten Anzeigenamen und GUIDs.
    • N-Gramme können jetzt selektiv analysiert werden.
    • Die Hilfe wurde überarbeitet. Optionale Parameter werden zukünftig mit { } hervorgehoben.
    • Der Skript-Modus kommt jetzt mit weniger Aktualisierungen aus. Dies sorgt für eine bessere Anzeigequalität.
    • Die Konsole kann jetzt einen RESTful-Webservice starten. Die Funktion ist aktuell noch experimentell.
  • Der CorpusExplorer ist von Anfang an auf Flexibilität ausgelegt. Dateiformate, Tagger, Analysen, Visualisierungen, uvm. konnten bisher als Add-ons erstellt und nachinstalliert werden. Bei einem Workshop wurde ich gefragt, ob man nicht auch Analysen mit unterschiedlichen Metriken/Algorithmen erweitern könnte (z. B. Vokabularkomplexität – hier gibt es verschiedene Metriken)… also eine bestehende Analyse mit zusätzlichen Features ausstatten kann. Nach einigen Überlegungen ergab sich eine einfache und intuitive API – Diese Add-ons werden als Sideload-Addons bezeichnet. Jede Analyse/Visualisierung kann Sideload-Addons zulassen. Aufruf: Configuration.GetSideloadFeature<T>() – T ist hierbei der Typ (am besten ein Interface oder eine abstrakte Klasse) von dem alle Sideload-Addons erben müssen. Der Aufruf gibt IEnumerable<T> zurück – damit ist sichergestellt, dass eine Analyse/Visualisierung nur Sideload-Addons lädt, die sie auch verarbeiten kann.
  • Kleine Verbesserungen an der Oberfläche und Fehlerkorrekturen – z. B. wurden verschiedene Korpora geladen, so wurden in der Korpusübersicht Layer mit gleichem Namen mehrfach gezählt, jetzt gibt die Übersicht nur unterschiedliche Layer aus.
Mehr

Folge mir auf Twitter