Mit etwas Verspätung erscheint das Q3-Release des CorpusExplorers. Evtl. wird es noch ein weiteres Update in diesem Jahr geben. Folgendes ist neu oder wurde geändert:

Neuerung:

  • Mit MDA (Multidimensional Document Analyzer) gibt es jetzt eine relativ einfache wie auch mächtige Abfragesyntax. Abfragen werden als TSV-Tabelle formuliert. Jede definierte Spalte entspricht einer Position in der zu suchenden Phrase. In die erste Zeile wird der Layer eingetragen. Alle weiteren Zeilen enthalten (alternative) Werte für die entsprechende Position.
    Bsp.:

    Lemma Lemma POS Lemma
    Flucht der NN nach
    Reise des NE über
    Umzug in

    Diese Tabelle würde z. B. folgendes finden: Flucht der Frau nach; Reise des Autos über; Umzug der Berlinerin nach
    Hinweis (Nutzung): Aktuell ist die Funktion nur via Konsole verfügbar (ACTION = kwic-mda).
    Hinweis (Leerstelle): Anstelle des Layer-Namens kann auch BLANK eingetragen werden, dann kann an der Stelle in der Phrase ein beliebiger Wert stehen.
    Hinweis (Zukunft): Ein Support für Multi-Layer-Abfragen auf eine bestimmte Position sind in Planung.

  • ZIP Support für Export-Formate. Einige Export-Formate, wie z. B. JSON, TreeTagger oder CoNLL – produzieren beim Export großer Korpora eine große Menge an Dateien. Es gibt jetzt die Möglichkeit, anstelle eines Ordners mit vielen Dateien sich eine einzige ZIP-Datei erzeugen zu lassen.

Verbesserungen:

  • Immer mal wieder gibt es Probleme mit dem neuen Skalierungssystem von Microsoft Windows 10 und 11. Ich habe einige Verbesserungen am CorpusExplorer vorgenommen, um auch bei höheren Skalierungen ein gleichbleibendes Nutzungserlebnis zu gewährleisten.
  • Der Twitter-Scraper wurde verbessert. IDs in Tweets, die direkt als JSON aus Profilen gezogen werden, werden jetzt besser zugeordnet. Danke an Fabian Deus für die Hinweise.
  • Das Hinzufügen neuer Metaangaben funktioniert jetzt wieder bzw. sogar noch besser, da man ab jetzt beim Erzeugen von Metadaten den Datentyp gleich mit einstellen kann. Danke für den Hinweis an: Christian Boulanger
  • Der DPXC-Editor wird jetzt aus dem CorpusExplorer nicht mehr als separater Prozess gestartet. Dies hat bei einigen Installationen dazu geführt, dass der DPXC-Editor sehr langsam bzw. mit viel Zeitverzögerung startete. Das Problem ist jetzt behoben. Danke für den Hinweis: Anna-Maria Balbach.
  • Verbesserung für Format-Support.

Ausblick:

  • Aktuell arbeite ich an einem HDF5-Support für den CorpusExplorer.