Artikel getaggt mit "CorpusExplorer"

CorpusExplorer (Update Juni/Juli 2018) – Sentiment-Detection, Layer wählbar, verbesserte Analysen

CorpusExplorer (Update Juni/Juli 2018) – Sentiment-Detection, Layer wählbar, verbesserte Analysen

Das Update für Juni/Juli 2018 bringt folgende Neuerungen und Verbesserungen mit sich:

  • Sentiment-Detection: Unter den Spezialfunktionen gibt es jetzt das neue Analysemodul „Sentiment Detection“. Damit lassen sich vordefinierte SD-Wörterbücher auf ein(en) Korpus/Schnappschuss anwenden. Eine Besonderheit: Wenn Sie die Analyse starten, können Sie entweder aus einem vorgefertigten Modell wählen, dieses manuell ändern oder ein eigenes Modell laden.

    Neu: Sentiment-Detection

  • KWIC Ansicht überarbeitet: Bisher war die KWIC-Ansicht (Volltextzugriff > Texte suchen (KWIC)) sehr umständlich zu bedienen. Man musste einzelne Ergebnisse nach erfolgreicher Suche manuell anwählen. Die neu überarbeitete KWIC Ansicht nutzt die bereits vielfach bewährte Tabellenansicht zur Darstellung von KWIC-Resultaten.

    Überarbeitet: KWIC

  • Keyword-Analyse überarbeitet: Die Keyword-Analyse wurde überarbeitet und bietet jetzt mehr Daten.

    Überarbeitet: Keyword-Analyse

  • Links/Rechts-Frequenz überarbeitet: Bisher war es nur möglich zu sehen, ob ein Wort rechts, links oder gar keine Tendenz im Verhältnis zum Suchwort hat. Die neu überarbeitete Fassung bringt eine ganze Fülle neuer Informationen mit sich. So ist jede einzelne Position links oder rechts erkennbar.

    Überarbeitet: Links/Rechts-Frequenz

  • Layer, Layer, Layer: Im letzten Update wurde für alle relevanten Analysemodule die Möglichkeit geschaffen, die Daten zu exportieren. Mit dem Juni/Juli 2018 Update kommt jetzt die Möglichkeit, die Analyselayer für fast alle Analyse abzuändern. Damit lassen sich z. B. Kookkurrenzen auf Lemma oder POS Ebene berechnen.
  • Korpora – Überprüfung: Wurde alles richtig annotiert? Funktioniert die Satzgrenzenerkennung? Wurde jedes Dokument mit den gleichen Einstellungen annotiert?
    Wenn Sie ein neues Korpus laden, überprüft der CorpusExplorer jetzt jede Datei auf Integrität. Nur wenn es Probleme gibt, meldet sich der CorpusExplorer und schlägt Ihnen mögliche Lösungen vor – Aus diesen Lösungen können Sie dann per Mausklick auswählen.

    Neu: Korpora werden automatisch überprüft

  • XML-Skripte für Console: Ein bisher noch wenig genutztes (weil auch bisher wenig dokumentiertes) Feature ist die Möglichkeit, den CorpusExplorer per Konsole (also ohne GUI) zu steuern. Dies ist besonders dann hilfreich, wenn Sie Analysen automatisieren möchten oder wenn der CorpusExplorer aus anderen Programmen/Programmiersprachen z. B. R aufrufen wollen. Dieses Feature wurde jetzt um die Möglichkeit erweitert, mehrere Befehle in einem XML-Skript zu speichern. Außerdem wurde das Feature jetzt besser Dokumentiert: [siehe]

    Neu: Abfragen mit XML-Skript

  • ElasticSearch: Der CorpusExplorer ist nun kompatibel mit ElasticSearch 6.x
  • Vereinheitlichung GUI: Die Eingabemasken für Suchausdrücke wurden vereinheitlicht. Der Farbauswahldialog (beta im letzten Update) ist jetzt für weitere Analysen verfügbar. Außerdem wurde der Dialog zum Anwählen alternativer Schnappschüsse (z. B. in Vergleichsanalysen) überarbeitet.
  • Fehler „Korpusname“: Wurde im Prozess „Dokumente annotieren“ ein Korpusname vergeben, der ungültige Pfadzeichen (wie z. B. „, :, \) enthielt, dann konnte dies zu zerstückelten Korpusnamen führen. Das Update behebt den Fehler, indem ungültige Pfadzeichen zukünftig durch Unterstriche „_“ ersetzt werden.
  • Überarbeitetes Installations-/Update-Packaging: Durch die neue Paketierung sind einzelnen Downloads kleiner – gerade Nutzer*innen mit schlechter Internetanbindung profitieren davon.
  • Aktiver Speicherschutz: Der CorpusExplorer ist so konzipiert, dass er das Maximum an Performance aus einem Rechner herausholt. Mehrere parallele Berechnungen und intensive Nutzung des Arbeitsspeichers erlauben Analysen, die viele andere Programme nicht oder nur wesentlich langsamer verarbeiten. Auf einigen Rechnern kann dies zu Problemen führen, insbesondere wenn weitere Programme im Hintergrund laufen und der Arbeitsspeicher knapp ist. Der neue Schutzmechanismus soll vermeiden, dass der Arbeitsspeicher überläuft – damit sollte der CorpusExplorer auf den betroffenen Rechnern weniger Abstürze verursachen.
  • Allgemeine Korrekturen und kleiner Bugfixes
Mehr

CorpusExplorer (Update Mai 2018)

Folgende Funktionen wurden in der Mai 2018-Version des CorpusExplorers hinzugefügt/verbesser:

  • Neue annotierbare Dateiformate:
    • Deutscher Bundestag Plenarprotokolle OpenAccess
    • Deutscher Bundestag Drucksachen OpenAccess
    • Deutscher Wortschatz Universität Leipzig
    • PostgreSQL Dump der Seite kleineanfrage.de
  • Neue Clone-Detection: Mittels Clone-Detection können Text-Dubletten erkannt und aus einem Korpus entfernt werden. Bisher gab es nur zwei Alternativen. Entweder die sehr schnelle und SHA512 basierte Analyse, die leider nur 100% Dubletten erkennt. Oder die sehr langsame vektorbasierte Analyse, die auch ähnliche Texte erkennen kann. Neu ist der Ansatz auf Basis von so gennaten Fuzzy Hashes (genauer: context triggered piecewise hashes (kurz: CTPH)). Dieser Ansatz kommt z. B. bei der Erkennung von SPAM/JUNK-Mails zum Einsatz und eignet sich hervorragend für die Analyse von stark recyelten Texten (z. B. Zeitungsartikeln in denen nur wenige Wörter oder Satzzeichen getauscht werden). CTPH verfügt über eine gute Performance und über eine gute Erkennungsrate und damit einen guten Mittelweg zwischen SHA512 und Vektoranalyse.
  • Neue Filter für Metadaten – Beginnt mit … & Endet auf …
  • Verbesserungen für einige weitere annotierbare Dateiformate wie PDF, APAEK (http://www.apaek.uni-frankfurt.de), etc.
Mehr

CorpusExplorer (Update April 2018) – schneller, exportfreudiger & neue Sprachmodelle

Auch wenn erst Ende März ist, so ist das April Update bereits fertig.

Neue Funktionen / Verbesserungen:

  • UDPipe – Teil 1: Der CorpusExplorer kann ab jetzt eine bestehende UDPipe inkl. Universal Dependencies Sprachmodelle ansprechen (Herstellerwebseite).
    UDPipe muss zuvor installiert und die UD-Sprachmodelle müssen im selben Verzeichnis liegen wie die „udpipe.exe“.
  • UDPipe – Teil 2: Für alle, denen die Installation von UDPipe zu kompliziert ist, gibt es ein CorpusExplorer-Addon. Dieses installiert UDPipe vollautomatisch inkl. aller verfügbaren Sprachmodelle (aktuell werden 69 Sprachen unterstützt). Das Addon wird auch zukünftig die Aktualisierung von UDPipe sicherstellen. Außerdem stellt das Addon einen performance-optimierten Tagger bereit.
    Daher: Wer UDPipe nur selten nutzen will oder nur wenige Sprachen benötigt, kann die integrierte Version (siehe: UDPipe – Teil 1) nutzen. Wer viele Sprachen benötigt oder große Korpora verarbeiten muss, der sollte das Addon nutzen. (UDPipe Addon herunterladen)
  • MarMoT: Als weiteres Addon wird der MarMoT POS-Tagger bereitgestellt. Dieser sehr exakte Tagger stellt 18 Sprachmodelle zur Verfügung. (MarMoT herunterladen)
  • Neue Autosplit-Optionen: Mittels Autosplit lassen sich Korpora in beliebige Subkorpora/Cluster zerteilen. Für Datumsangaben kommt die Möglichkeit hinzu, Jahrzehnte und Jahrhunderte zu splitten. Für alle Cluster-Splitter kann jetzt die Splitting-Methode gewählt werden. Zuvor war es nur möglich, die Cluster anhand der Werte zu befüllen. Dies führt jedoch in der Praxis zu Clustern mit sehr unterschiedlichen Größen. Cluster können jetzt einen gleichen (Dokument) oder ähnlichen (Token, Sätze) Umfang durch dynamische Grenzen erhalten. Gleichgroße oder ähnlich große Cluster lassen sich besser Vergleichen.
  • Export-Funktionen: Bisher hatten nur einige Analysen eine Export-Funktion. Ab jetzt können alle Analysedaten exportiert werden. Exportformate sind z. B. CSV, Excel, PDF, JSON, uvm.
  • Pivot-Tabelle Layout laden/speicher: Neben einer Export-Funktionalität für die Daten wurde alle Pivot-Analyse die Möglichkeit hinzugefügt, dass Layout (gewählte Spalten/Zeilen, Filterungen, Sortierungen, etc.) zu laden oder zu speichern.
  • Farbverlauf / Farbpalette (beta): Die Heatmap unter Korpusverteilung kann jetzt mit unterschiedlichen Farbverläufen eingefärbt werden. Unter anderem gibt es für den Druck einen Grauverlauf (falls keine Farbgrafiken erlaubt sind) und für Nutzer*innen mit eingeschränkter Farbwahrnehmung optimierte Farbverläufe (z. B. Orange <> Blau). Außerdem lässt sich der Farbverlauf invertieren. Für die Zukunft ist geplant weitere Analysen mit einer Farbauswahl auszustatten.
    Anmerkung: Falls Sie den CorpusExplorer nutzen und eine eingeschränkte Farbwahrnehmung haben, würde ich mich sehr freuen, wenn Sie mich kontaktieren und sich für Usability-Tests zur Verfügung stellen.
  • CEC6 [STREAM] – Neues Dateiformat (beta): Das CEC6-Format hat sich sehr bewährt und wird auch auf lange Sicht das Basisformat für den CorpusExplorer bleiben. Am Format selber wurden keine Änderungen vorgenommen, jedoch gibt es einen neuen Lese/Import-Prozess. Dieser lädt nicht wie üblich, alle Daten direkt in den Arbeitsspeicher (Pro: hohe Performance / Contra: Arbeitsspeicher ist stark begrenzt), sondern ließt nur die notwendigen Sprungmarken ein. Erst wenn eine Analyse startet, werden die notwendigen Daten von der Festplatte gelesen. Dadurch ist der Arbeitsspeicher ist nicht länger die Begrenzung, dafür reduziert sich jedoch die Performance etwas.
    Die bisherige Lösung zur Nutzung unbegrenzt großer Korpora auf Basis von Datenbanken (MySql, SQLite oder ElasticSearch – Addons siehe hier) wird dadurch keinesfalls obsolet. Zukünftig soll der STREAM-Zugriff automatisch aktiviert werden, wenn der CorpusExplorer Arbeitsspeicherengpässe erkennt. Die genannten Datenbank werden weiterhin gepflegt und erweitert – sie sind insbesondere für den Export und die Zusammenarbeit mit anderen Programmen vorgesehen.
  • Performance: Es gibt wie immer Performance-Optimierungen. Insbesondere für die Analysen „Volltext > Texte annotieren“ und „Frequenzanalyse > Tabelle“ – diese sind die meistgenutzten Analysen im Programm.
  • Fehlerkorrekturen: Wie immer wurden auch einige Fehler korrigiert.
Mehr

CorpusExplorer (Dezember Update 2017) – Erster Erfolg durch Telemetrie

Eigentlich war für 2017 kein weiteres Update nach November geplant. Mit dem November Update wurde die neue Telemetrie-Funktion des CorpusExplorers aktiviert. Damit lassen sich Fehler und Performance auf den Rechnern der Nutzer*innen anonym in Echtzeit ermitteln (mehr Details dazu – finden Sie hier). Dabei viel auf, dass einige der Nutzer*innen noch sehr alte Korpusdateien einsetzen (Version 5 und abwärts – aktuell ist Version 6). Bei diesen Versionen kam es scheinbar durch das Update (oder vielleicht auch eines davor) zu Problemen. Das Dezember Update sollte die Probleme beheben.
Daher drei Dinge zum Jahresende:

  1. Danke an alle, die die neue Telemetrie-Funktion aktiviert haben.
  2. An die betreffenden Nutzer*innen: Bitte entschuldigt etwalig entstandene Unannehmlichkeiten. Das Update behebt hoffentlich alle Probleme. Wenn nicht, helfe ich gerne persönlich (Kontaktformular). Bitte nutzen Sie auch die Möglichkeit alte Korpora in das neue CEC6-Format zu konvertieren. Laden/Speichern und Analysen gehen mit diesem Format deutlich schneller von der Hand.
  3. Wünsche ich allen frohe Feiertage und einen guten Rutsch ins Jahr 2018.
Mehr