Artikel getaggt mit "November"

CorpusExplorer (Update Nov/Dez 2018) – Reguläre Ausdrücke und CutOff-Phrasen

CorpusExplorer (Update Nov/Dez 2018) – Reguläre Ausdrücke und CutOff-Phrasen

Auf einem Workshop in Würzburg (2018-11-09) baten mich mehrere Teilnehmer*innen, dass ich Reguläre Ausdrücke (Regular Expression – kurz RegEx) im CorpusExplorer ermöglichen soll. Bisher habe ich RegEx vermieden – oder zumindest in der Oberfläche gut versteckt. Auch weiterhin halte ich diese hässlichen RegEx-Dinger, die mehr an Marsianisch oder Klingonisch erinnern, als an eine Abfragesprache, für überflüssig und hinderlich, wenn es um die Gestaltung einer grafischen Benutzerschnittstelle geht (als Programmierer weiß ich natürlich den Vorteil von RegEx zu schätzen – hier sei nur auf meinen Favoriten „<[^>]*>“ verwiesen, der sämtliche XML-Tags aus einer Datei entfernen kann).

Es gibt aber zwei Argumente die ich für überzeugend halte:

  1. Es gibt viel existierendes Wissen zu Regulären Ausdrücken – meist in Form mühsam zusammengeklöppelter Abfragen auf Schmierzetteln (ist bei mir nicht anders). Dieses Wissen will man natürlich weiterhin nutzen.
  2. Bei einigen Abfragen, z. B. bei der Suche nach verschiedenen Wortformen können RegEx der/dem Eingeweihten helfen, schneller ans Ziel zu kommen.

Daher führt dieses Update folgende neue Funktionen ein:

  • RegEx für die Erstellung von Schnappschüssen. Mit und ohne Satzgrenzenerkennung.
  • RegEx für alle Tabellen-Analysen, zum schnellen Suchen von Werten.

Zusätzlich gibt es folgende neue Funktionen / Verbesserungen:

  • Neue Analyse unter „Phrasen & Muster“ > „CutOff-Phrasen“.
    Hierbei lässt sich nach Phrasen suchen, die zwischen zwei Begriffen stehen. Eine maximale Spanne kann angegeben werden.

    Neue Analyse: CutOff-Phrasen

  • Das Problem mit hochauflösenden Bildschirmen kurz HighDPI tauchte leider wieder auf. Für diese Bildschirme wurden neue Korrekturen eingeführt.
  • Die Ikonografie für Filter wurde vereinheitlicht / Die Icons auf der Korpusübersichtsseite wurden aufgehübscht.

 

Mehr

CorpusExplorer (November Update 2017)

So langsam gewöhnt sich der CorpusExplorer an einen dreimonatigen Update-Zyklus. Über einige ausgewählte Funktionen wird es in den kommenden Tagen noch zusätzliche Blog-Beiträge geben.

Neue Funktionen:

  • Unterstützung von anderen Encodings/Codepages als UTF-8. Dies kann unter: Projekteinstellungen geändert werden. Aktuell muss noch die Codepage-Nummer eingetragen werden (zu finden auf https://de.wikipedia.org/wiki/Zeichensatztabelle).
  • Unterstützung von Rechts-nach-Links Schreibrichtung für semitische Sprachen. Dies kann ebenfalls in den Projekteinstellungen geändert werden. Es kann derzeit noch zu ungewünschten Darstellungen kommen. Über eine Rückmeldung (inkl. Screenshot/Beschreibung) würde ich mich freuen – Kontaktformular.
  • Neuer Scraper für das WET-Format verfügbar (Dokumente annotieren). Damit lassen sich auf Basis von http://commoncrawl.org/the-data/get-started/ sehr große Web-Korpora bauen. Der Scraper verfügt über zwei Filteroptionen. Sprachfilter: Automatisch Spracherkennung mittels NTextCat (erkennt 280 unterschiedliche Sprachen) es werden nur Dokumente übernommen, die der vorgegebenen Sprache entsprechen (Hinweis: der Filter führt einige Rechenoperationen im Rohtext durch und ist daher sehr langsam). Domainfilter: Es werden nur Dokumente von vorgegebenen Top-Level-Domains (TLD – z. B.: .de oder .com) übernommen.
  • Unter den Spezialfunktionen gibt es eine neue Visualisierung: Karte – Hier können Frequenzen einzelnen Ländern zugeordnet werden. Neben einer sehr detailreichen Weltkarte steht eine alternative Visualisierung zur Verfügung, die alle Ländern als gleichgroße Kacheln darstellt (einige Klein-/Inselstaaten werden nicht angezeigt) – dies Darstellung basiert auf folgender Arbeit (https://github.com/mustafasaifee42/Tile-Grid-Map).
  • Ein neuer Multi-Layer-Filter zur Erstellung neuer Schnappschüsse wurde hinzugefügt. Damit lassen sich Phrasen formulieren, die auf mehrere Layer zurückgreifen. z. B.: Wort:die POS:ADJA Wort:Hauptstadt – würde z. B. die kleine Hauptstadt, die schöne Hauptstadt, usw. finden.

Neue Funktionen – nur SDK (für Entwickler):

Neue CE-Addons:

  • Datenbanken sind ab jetzt optional als Addon verfügbar. In einem früheren Update wurde die NoSQL-Datenbank ElasticSearch in den CorpusExplorer integriert. Diese Funktionalität wurde aus der Standardinstallation gestrichen. Folgende Datenbanken sind ab jetzt als CE-Addon verfügbar:
    • ElasticSearch – NoSQL-Datenbank die Daten im JSON-Format speichert. Benötigt Java, läuft auf allen Betriebssystemen, leicht zu installieren (da nur eine ZIP-Datei entpackt werden muss).
    • MySQL/MariaDB – SQL-Datenbank. Läuft auf allen Betriebssystemen. Erfordert eine Installation (z. B. XAMPP für Windows) und etwas MySQL-Know-how, da die Datenbank entsprechend konfiguriert werden muss (nutzen Sie my-huge.ini oder my-innodb-heavy-4G.ini für den produktiven Betrieb).
    • SQLite – SQL-92 embedded Datenbank – Keine Installation notwendig. Läuft auf allen Betriebssystemen. Datenbank wird in einer einzelnen Datei abgelegt.
  • PANDOC: Pandoc (https://pandoc.org/) ist ein Konverter für verschiedene Text-Dateiformate (siehe https://pandoc.org/). Die Erweiterung kann genutzt werden um z. B. Text aus LaTeX oder Wikipedia zu extrahieren.
  • SaltXML & Pepper (BETA): Pepper (http://corpus-tools.org/pepper/) erlaubt es, verschiedene linguistische XML-Formate untereinander zu konvertieren. SaltXML ist dabei der Zwischenstandard, über den die Konvertierung läuft. Aktuell nutzt der CorpusExplorer noch eine Zwischenlösung:
    • Aktuell:
      • Import: Ausgangsformat > Pepper > SaltXML > Pepper > CoNLL > CorpusExplorer
      • Export: CorpusExplorer > CoNLL > Pepper > SaltXML > Pepper > Zielformat.
    • Um die Geschwindigkeit zu erhöhen, ist bereits ein verkürzter Ablauf in Planung:
      • Import: Ausgangsformat > Pepper > SaltXML > CorpusExplorer
      • Export: CorpusExplorer > SaltXML > Pepper > Zielformat.
    • Die geplante Umstellung wird für die Nutzer*in nicht spürbar sein, außer das Import/Export danach schneller ablaufen wird.

Neues CE-Korpus-Addon:

  • Dank PANDOC konnte ein Korpus der aktuellen deutschsprachigen Wikipedia erstellt werden. Das Korpus ist kostenfrei verfügbar. Der Zugang muss aber erfragt werden, da die Menge der Daten sonst meinen Server lahmlegen würde. Schreiben Sie mir bitte über das Kontaktformular, falls Sie das Korpus nutzen möchten.

Korrekturen/Verbesserungen:

  • Die externen Tagger (u. a. der TreeTagger) wurden verbessert (Stabilität/Performance).
  • Bisher gab es zwei identische Funktionen zur Analyse von Kookkurrenzen (Abfrage & Tabelle). Beide arbeiten jetzt mit unterschiedlichen Ansätzen:
    • Tabelle – ermittelt weiterhin zu allen Worten alle Kookkurrenzen. Bis zu einer Korpusgröße von 50 Mio. Token funktioniert dies auf normaler Hardware gut (ggf. mit einigen Minuten Wartezeit). Eine nachträgliche Beschränkung auf nur einen Begriff ist möglich und erfordert keine zusätzlichen Abfragen.
    • Abfrage – ermittelt nur die Kookkurrenzen zu einem/mehreren Begriff(en). Dadurch können auf größere Korpora (über 50 Mio.) relativ gut mit normaler Hardware abgefragt werden. Da jede Abfrage Zeit beansprucht sind hintereinander erfolgende Abfragen nicht so schnell wie in der „Tabelle“. In weiterer Vorteil: Man kann auch die Kookkurrenzen zu mehreren Begriffen ermitteln, dabei wird nach der exakten Reihenfolge der Queries gesucht (Bsp. „in der Hauptstadt“).
Mehr

DTA-Kernkorpus als Korpus-Addon verfügbar

Das DTA-Kernkorpus ist ab jetzt als Korpus-Addon verfügbar. Für Sie heißt das: Einfache Installation, bereits analysefertiges Material, Updates erfolgen vollautomatisch. Das DTA-Korpus-Addon können Sie hier herunterladen: [Download]. Weitere Informationen zum Addon sowie weitere Korpus- & Programm-Addons finden Sie [hier].

Mehr

CorpusExplorer v2.0 – November Update

CorpusExplorer v2.0 – November Update

Das November Update bringt viele neue Funktionen für Freunde von Zeitreihenanalysen.

Neuerungen / Verbesserungen :

  • Frequenzanalyse > Zeitliche Verteilung – Bisher war diese Funktion unter den Spezialfunktionen zu finden. Jetzt hat diese Analyseform endlich den Betastatus verlassen.
  • Kookkurrenzen > Zeitliche Verteilung – Wählen Sie einen Begriff und lassen Sie sich die Polarisationen einzelner Kookkurrenzen im zeitlichen Verlauf anzeigen.
  • Korpusverteilung > Zeitliche Verteilung – Wählen Sie eine Kategorie und dann die Werte dieser Kategorie um deren Verteilung über unterschiedliche Zeiträume zu vergleichen.
  • Korpusverteilung > Zustandanalyse – Wählen Sie einen Datums/Zeit-Parameter, dann die gewünschte Entität (z. B. Autor) und abschließend den Zustand (z. B. Verlag). So können Autoren identifiziert werden, die entweder für einen oder für mehrere Verlage arbeiten. Verlagswechsel werden so schnell und einfach nachvollziehbar.
  • Schnappschuss > Autosplit – Zu der bisherigen Funktion den Schnappschuss in gleichgroße Zeitfenster (Cluster) einzuteilen, gibt es jetzt die Möglichkeit die Dokumente anhand ihrer Werte zu gruppieren. Die möglichen Granulierungsstufen reichen von Jahr bis hin zu Minute. Granulierungen nach Jahrzehnt oder Jahrhundert sind aktuell nur auf Nachfrage möglich.
  • Kookkurrenzen > Tabelle – Bisher war es ratsam, die angezeigte Tabelle beidseitig zu filtern. D. h. ein Begriff musste einmal in der Spalte ‚Zeichenkette‘ und einmal in ‚Kookkurrenz‘ gesucht werden. Dies ist jetzt nicht mehr notwendig (aber weiterhin möglich). Unterhalb der Tabelle befindet sich jetzt eine Suchmaske, die Eingaben entgegennimmt und die Tabelle entsprechend filtert.
  • Textedition > Textvergleich – Ab jetzt kann direkt abgelesen werden, wie viele Einfügungen und Entfernungen notwendig sind um den linken in den rechten Text zu transformieren. Außerdem wird die Edit-Distanz angegeben. Diese ist nicht notwendigerweise identisch mit ‚Hinzufügen‘ + ‚Entfernen‘ – da sich überlappende Änderungen ergeben können.
  • Es gibt ein neues Datenformat für alle CorpusExplorer-Backends. Das ‚Lightweight‘-Korpusformat erfasst pro Korpus nur ein einziges Dokument. Dies erlaubt, auch Streamdaten in Echtzeit zu analysieren.
  • Über die Entwicklerschnittstelle (CorpusExplorer SDK) können jetzt Dokumente zusätzlich/nachträglich annotiert werden. Einzelne Layer lassen sich leichter exportieren, annotieren und re-importieren/duplizieren.
  • PMG-XML wird jetzt unterstützt. Es erlaubt den direkten Import von Zeitungsartikel unterschiedlicher Verlage.
  • Es wurden wie immer kleine fiese Anzeigefehler behoben. Diese Mistdinger sind einfach nicht tot zu kriegen.

Darüber hinaus wurde das Wartungstool aktualisiert. Es ist die erste Anlaufstelle für Probleme mit dem CorpusExplorer. Neu:

  • Fehler sind jetzt übersichtlich in Kategorien gruppiert.
  • Eine Installation des Wartungsprogramms ist jetzt nicht mehr notwendig. Die Exe kann heruntergeladen werden – ausgeführt und dann auch spurlos wieder gelöscht werden.
  • Es wird jetzt auch eine Hilfe für verschiedene Windows-Probleme angeboten.
    Hinweis: Microsoft empfiehlt schon seit geraumer Zeit keine Optimierungssoftware wir z. B. TuneUp-Utils oder CCleaner einzusetzen. Gerade unter Windows 10 nutzen diese Programme wenig – d. h. historisch waren diese Programme mal unter Windows XP von nutzen. Aktuell sorgen solche Programme aber oft für Probleme – einige davon kann das CorpusExplorer Wartungstool wieder beheben.
Mehr

Folge mir auf Twitter