Artikel getaggt mit "ElasticSearch"

CorpusExplorer (Update Juni/Juli 2018) – Sentiment-Detection, Layer wählbar, verbesserte Analysen

CorpusExplorer (Update Juni/Juli 2018) – Sentiment-Detection, Layer wählbar, verbesserte Analysen

Das Update für Juni/Juli 2018 bringt folgende Neuerungen und Verbesserungen mit sich:

  • Sentiment-Detection: Unter den Spezialfunktionen gibt es jetzt das neue Analysemodul „Sentiment Detection“. Damit lassen sich vordefinierte SD-Wörterbücher auf ein(en) Korpus/Schnappschuss anwenden. Eine Besonderheit: Wenn Sie die Analyse starten, können Sie entweder aus einem vorgefertigten Modell wählen, dieses manuell ändern oder ein eigenes Modell laden.

    Neu: Sentiment-Detection

  • KWIC Ansicht überarbeitet: Bisher war die KWIC-Ansicht (Volltextzugriff > Texte suchen (KWIC)) sehr umständlich zu bedienen. Man musste einzelne Ergebnisse nach erfolgreicher Suche manuell anwählen. Die neu überarbeitete KWIC Ansicht nutzt die bereits vielfach bewährte Tabellenansicht zur Darstellung von KWIC-Resultaten.

    Überarbeitet: KWIC

  • Keyword-Analyse überarbeitet: Die Keyword-Analyse wurde überarbeitet und bietet jetzt mehr Daten.

    Überarbeitet: Keyword-Analyse

  • Links/Rechts-Frequenz überarbeitet: Bisher war es nur möglich zu sehen, ob ein Wort rechts, links oder gar keine Tendenz im Verhältnis zum Suchwort hat. Die neu überarbeitete Fassung bringt eine ganze Fülle neuer Informationen mit sich. So ist jede einzelne Position links oder rechts erkennbar.

    Überarbeitet: Links/Rechts-Frequenz

  • Layer, Layer, Layer: Im letzten Update wurde für alle relevanten Analysemodule die Möglichkeit geschaffen, die Daten zu exportieren. Mit dem Juni/Juli 2018 Update kommt jetzt die Möglichkeit, die Analyselayer für fast alle Analyse abzuändern. Damit lassen sich z. B. Kookkurrenzen auf Lemma oder POS Ebene berechnen.
  • Korpora – Überprüfung: Wurde alles richtig annotiert? Funktioniert die Satzgrenzenerkennung? Wurde jedes Dokument mit den gleichen Einstellungen annotiert?
    Wenn Sie ein neues Korpus laden, überprüft der CorpusExplorer jetzt jede Datei auf Integrität. Nur wenn es Probleme gibt, meldet sich der CorpusExplorer und schlägt Ihnen mögliche Lösungen vor – Aus diesen Lösungen können Sie dann per Mausklick auswählen.

    Neu: Korpora werden automatisch überprüft

  • XML-Skripte für Console: Ein bisher noch wenig genutztes (weil auch bisher wenig dokumentiertes) Feature ist die Möglichkeit, den CorpusExplorer per Konsole (also ohne GUI) zu steuern. Dies ist besonders dann hilfreich, wenn Sie Analysen automatisieren möchten oder wenn der CorpusExplorer aus anderen Programmen/Programmiersprachen z. B. R aufrufen wollen. Dieses Feature wurde jetzt um die Möglichkeit erweitert, mehrere Befehle in einem XML-Skript zu speichern. Außerdem wurde das Feature jetzt besser Dokumentiert: [siehe]

    Neu: Abfragen mit XML-Skript

  • ElasticSearch: Der CorpusExplorer ist nun kompatibel mit ElasticSearch 6.x
  • Vereinheitlichung GUI: Die Eingabemasken für Suchausdrücke wurden vereinheitlicht. Der Farbauswahldialog (beta im letzten Update) ist jetzt für weitere Analysen verfügbar. Außerdem wurde der Dialog zum Anwählen alternativer Schnappschüsse (z. B. in Vergleichsanalysen) überarbeitet.
  • Fehler „Korpusname“: Wurde im Prozess „Dokumente annotieren“ ein Korpusname vergeben, der ungültige Pfadzeichen (wie z. B. „, :, \) enthielt, dann konnte dies zu zerstückelten Korpusnamen führen. Das Update behebt den Fehler, indem ungültige Pfadzeichen zukünftig durch Unterstriche „_“ ersetzt werden.
  • Überarbeitetes Installations-/Update-Packaging: Durch die neue Paketierung sind einzelnen Downloads kleiner – gerade Nutzer*innen mit schlechter Internetanbindung profitieren davon.
  • Aktiver Speicherschutz: Der CorpusExplorer ist so konzipiert, dass er das Maximum an Performance aus einem Rechner herausholt. Mehrere parallele Berechnungen und intensive Nutzung des Arbeitsspeichers erlauben Analysen, die viele andere Programme nicht oder nur wesentlich langsamer verarbeiten. Auf einigen Rechnern kann dies zu Problemen führen, insbesondere wenn weitere Programme im Hintergrund laufen und der Arbeitsspeicher knapp ist. Der neue Schutzmechanismus soll vermeiden, dass der Arbeitsspeicher überläuft – damit sollte der CorpusExplorer auf den betroffenen Rechnern weniger Abstürze verursachen.
  • Allgemeine Korrekturen und kleiner Bugfixes
Mehr

CorpusExplorer (November Update 2017)

So langsam gewöhnt sich der CorpusExplorer an einen dreimonatigen Update-Zyklus. Über einige ausgewählte Funktionen wird es in den kommenden Tagen noch zusätzliche Blog-Beiträge geben.

Neue Funktionen:

  • Unterstützung von anderen Encodings/Codepages als UTF-8. Dies kann unter: Projekteinstellungen geändert werden. Aktuell muss noch die Codepage-Nummer eingetragen werden (zu finden auf https://de.wikipedia.org/wiki/Zeichensatztabelle).
  • Unterstützung von Rechts-nach-Links Schreibrichtung für semitische Sprachen. Dies kann ebenfalls in den Projekteinstellungen geändert werden. Es kann derzeit noch zu ungewünschten Darstellungen kommen. Über eine Rückmeldung (inkl. Screenshot/Beschreibung) würde ich mich freuen – Kontaktformular.
  • Neuer Scraper für das WET-Format verfügbar (Dokumente annotieren). Damit lassen sich auf Basis von http://commoncrawl.org/the-data/get-started/ sehr große Web-Korpora bauen. Der Scraper verfügt über zwei Filteroptionen. Sprachfilter: Automatisch Spracherkennung mittels NTextCat (erkennt 280 unterschiedliche Sprachen) es werden nur Dokumente übernommen, die der vorgegebenen Sprache entsprechen (Hinweis: der Filter führt einige Rechenoperationen im Rohtext durch und ist daher sehr langsam). Domainfilter: Es werden nur Dokumente von vorgegebenen Top-Level-Domains (TLD – z. B.: .de oder .com) übernommen.
  • Unter den Spezialfunktionen gibt es eine neue Visualisierung: Karte – Hier können Frequenzen einzelnen Ländern zugeordnet werden. Neben einer sehr detailreichen Weltkarte steht eine alternative Visualisierung zur Verfügung, die alle Ländern als gleichgroße Kacheln darstellt (einige Klein-/Inselstaaten werden nicht angezeigt) – dies Darstellung basiert auf folgender Arbeit (https://github.com/mustafasaifee42/Tile-Grid-Map).
  • Ein neuer Multi-Layer-Filter zur Erstellung neuer Schnappschüsse wurde hinzugefügt. Damit lassen sich Phrasen formulieren, die auf mehrere Layer zurückgreifen. z. B.: Wort:die POS:ADJA Wort:Hauptstadt – würde z. B. die kleine Hauptstadt, die schöne Hauptstadt, usw. finden.

Neue Funktionen – nur SDK (für Entwickler):

Neue CE-Addons:

  • Datenbanken sind ab jetzt optional als Addon verfügbar. In einem früheren Update wurde die NoSQL-Datenbank ElasticSearch in den CorpusExplorer integriert. Diese Funktionalität wurde aus der Standardinstallation gestrichen. Folgende Datenbanken sind ab jetzt als CE-Addon verfügbar:
    • ElasticSearch – NoSQL-Datenbank die Daten im JSON-Format speichert. Benötigt Java, läuft auf allen Betriebssystemen, leicht zu installieren (da nur eine ZIP-Datei entpackt werden muss).
    • MySQL/MariaDB – SQL-Datenbank. Läuft auf allen Betriebssystemen. Erfordert eine Installation (z. B. XAMPP für Windows) und etwas MySQL-Know-how, da die Datenbank entsprechend konfiguriert werden muss (nutzen Sie my-huge.ini oder my-innodb-heavy-4G.ini für den produktiven Betrieb).
    • SQLite – SQL-92 embedded Datenbank – Keine Installation notwendig. Läuft auf allen Betriebssystemen. Datenbank wird in einer einzelnen Datei abgelegt.
  • PANDOC: Pandoc (https://pandoc.org/) ist ein Konverter für verschiedene Text-Dateiformate (siehe https://pandoc.org/). Die Erweiterung kann genutzt werden um z. B. Text aus LaTeX oder Wikipedia zu extrahieren.
  • SaltXML & Pepper (BETA): Pepper (http://corpus-tools.org/pepper/) erlaubt es, verschiedene linguistische XML-Formate untereinander zu konvertieren. SaltXML ist dabei der Zwischenstandard, über den die Konvertierung läuft. Aktuell nutzt der CorpusExplorer noch eine Zwischenlösung:
    • Aktuell:
      • Import: Ausgangsformat > Pepper > SaltXML > Pepper > CoNLL > CorpusExplorer
      • Export: CorpusExplorer > CoNLL > Pepper > SaltXML > Pepper > Zielformat.
    • Um die Geschwindigkeit zu erhöhen, ist bereits ein verkürzter Ablauf in Planung:
      • Import: Ausgangsformat > Pepper > SaltXML > CorpusExplorer
      • Export: CorpusExplorer > SaltXML > Pepper > Zielformat.
    • Die geplante Umstellung wird für die Nutzer*in nicht spürbar sein, außer das Import/Export danach schneller ablaufen wird.

Neues CE-Korpus-Addon:

  • Dank PANDOC konnte ein Korpus der aktuellen deutschsprachigen Wikipedia erstellt werden. Das Korpus ist kostenfrei verfügbar. Der Zugang muss aber erfragt werden, da die Menge der Daten sonst meinen Server lahmlegen würde. Schreiben Sie mir bitte über das Kontaktformular, falls Sie das Korpus nutzen möchten.

Korrekturen/Verbesserungen:

  • Die externen Tagger (u. a. der TreeTagger) wurden verbessert (Stabilität/Performance).
  • Bisher gab es zwei identische Funktionen zur Analyse von Kookkurrenzen (Abfrage & Tabelle). Beide arbeiten jetzt mit unterschiedlichen Ansätzen:
    • Tabelle – ermittelt weiterhin zu allen Worten alle Kookkurrenzen. Bis zu einer Korpusgröße von 50 Mio. Token funktioniert dies auf normaler Hardware gut (ggf. mit einigen Minuten Wartezeit). Eine nachträgliche Beschränkung auf nur einen Begriff ist möglich und erfordert keine zusätzlichen Abfragen.
    • Abfrage – ermittelt nur die Kookkurrenzen zu einem/mehreren Begriff(en). Dadurch können auf größere Korpora (über 50 Mio.) relativ gut mit normaler Hardware abgefragt werden. Da jede Abfrage Zeit beansprucht sind hintereinander erfolgende Abfragen nicht so schnell wie in der „Tabelle“. In weiterer Vorteil: Man kann auch die Kookkurrenzen zu mehreren Begriffen ermitteln, dabei wird nach der exakten Reihenfolge der Queries gesucht (Bsp. „in der Hauptstadt“).
Mehr

Folge mir auf Twitter