CorpusExplorer

Neues Add-on: DTA::CAB

Neues Add-on: DTA::CAB

DTA::CAB ist ein orthographischer Normalisierer für historische Sprachstufen des Deutschen (entwickelt von Bryan Jurish, Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften). Mit diesem Add-on können Sie frühneuhochdeutsche und mittelhochdeutsche Texte automatisch normalisieren und annotieren. Nach der Installation wählen Sie dazu den Tagger „DTA::CAB + TreeTagger“ aus. Eine bestehende Internetverbindung während der Normalisierung/Annotation ist erforderlich, da die Daten an das „Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften“ geschickt werden (es erfolgt keine Speicherung – die Texte werden direkt verarbeitet). Nach der Annotation stehen Ihnen vier Layer bereit (Wort = die normalisierte Wortform / Lemma = das Lemma der normalisierten Wortform / POS = Part-of-Speech bzw. Wortart / Original = der originale Rohtext). Wenn Sie dieses Add-on im Rahmen einer
wissenschaftlichen Arbeit nutzen, dann zitieren Sie bitte folgende Arbeit:

Jurish, B. Finite-state Canonicalization Techniques for Historical German.
PhD thesis, Universität Potsdam, 2012 (defended 2011). URN
urn:nbn:de:kobv:517-opus-55789

Weitere DTA::CAB relevante Arbeiten finden Sie unter:
http://odo.dwds.de/~jurish/software/dta-cab/#pubs

Das Add-on können Sie entweder direkt aus dem CorpusExplorer heraus installieren, oder über die Add-on-Seite herunterladen.

 

Mehr

CorpusExplorer (Update Q2 2019)

Das Mai Update des CorpusExplorers bringt einige Verbesserungen und Korrekturen.

Neu:

  • In Kooperation mit Bryan Jurish wird es ein Add-on für DTA::CAB geben. Dazu am Wochenende mehr.

Verbesserungen:

  • Die Performance des TreeTagger-Moduls wurde verbessert.
  • Das KWIT-Analysemodul erstellt nun keine 0-Kanten mehr.
  • Erste Verbesserungen des Ecosystems (System das im Hintergrund alle Teilkomponenten überwacht und ggf. nachinstalliert.). Weitere Verbesserungen, insbesondere was die Performance anbelangt, werden folgen.
  • Verbesserungen und Erweiterungen der Dateiformate.
Mehr

CorpusExplorer (Update Q1 2019 + März SP1)

Heute wurde ein kleines Zusatzupdate (SP) für den CorpusExplorer veröffentlicht. Folgendes wird dadurch verbessert:

  • Unterstützung für CoraXML 0.8 und CoraXML 1.0 – Damit können Dateien von https://www.linguistics.rub.de/comphist/resources/cora/index.html geöffnet werden. Zuvor war das Format nur über die Erweiterung Salt&Pepper verfügbar (hierbei wurde das Format zunächst nach Salt-XML, CoNLL und abschließend nach CEC6 konvertiert) – der jetzige Import-Prozess ist direkt CoraXML > CEC6.
  • Pandoc – hier wurde die Unterstützung für UTF-8 verbessert. Die Installationspakete wurden aktualisiert und die Installationsgröße konnte um 20 MB reduziert werden.
  • SDK: Layernamen müssen jetzt nicht mehr bereits bei der Instantiierung bekannt sein, sondern werden nachträglich (bei Gebrauch) automatisch erzeugt.
  • Der NexisLexis Import wurde verbessert – die Erkennung von Einsprungspunkten für den Formatparser ist jetzt flexibler.
Mehr

CorpusExplorer (Update Q1 2019)

CorpusExplorer (Update Q1 2019)

Es ist soweit – ein großes Update wartet auf alle Nutzer*innen des CorpusExplorers.

Hier eine Zusammenfassung der Neuerungen/Verbesserungen:

  • Eine persönliche Angelegenheit zuerst: Seit mehreren Versionen unterstützen mich viele Nutzer*innen bei der Entwicklung, indem Sie der Übermittlung anonymisierter Telemetrie-Daten zustimmen. Euch allen vielen Dank. Meine Erfahrungen die ich dadurch sammeln konnte, sind unersetzlich. Mich störte aber (A) das diese Daten an Dritte (Microsoft Azure) gehen – und – (B) das eigentlich mehr Daten gesammelt werden, als nötig (ich hatte das schon so restriktiv eingestellt wie möglich, aber Azure Application Insights ist sehr sammelfreudig). Als Verfechter von Datensparsamkeit habe ich jetzt eine eigenen Lösung gebaut – der Quellcode für den Server (der die Daten sammelt) findet ihr auf GitHub (https://github.com/notesjor/OpenSourceTelemetrie). Der CorpusExplorer nutzt jetzt also eine eigenen, OpenSource Infrastruktur, die außerdem sehr datensparsam ist. Es werden z. B. keine IP-Adresse mehr protokolliert.
  • Die neue Startseite / die neue Korpus Übersicht
    Für etwas mehr Komfort sorgen die neue Startseite und die neue „Korpus Übersicht“.
    Auf der Startseite gibt es jetzt die Sektion „Aktuelles und Neuigkeiten“ (vielleicht etwas doppelt gemoppelt). In diesem Bereich werden aktuell Meldungen zum CorpusExplorer angezeigt (ein per RSS synchronisierter Newsfeed). Dies Betrifft sowohl Programm-Updates als auch z. B. Workshops (Wer eigenen Workshops bewerben will, kann sich gerne melden – Kontakt). Darunter ist die Sektion „Verfügbar Add-ons“ zu finden. Hier werden alle offiziellen Add-ons des CorpusExplorers aufgelistet, die sich mit einem Klick installieren lassen (auch hier: wer eigene Entwicklung plant oder einstellen möchte – gerne melden).
    Auf der „Korpus Übersicht“ findet sich eine Sektion „Frei verfügbare Korpora“ – Auch diese lassen sich mit einem Klick installieren/abonnieren.
  • Neue Dateiformate:
    • Unterstützung für TEI-XML P5 des CAL²-Projekts
    • Unterstützung für OffeneGesetze.de
    • Export für das SQLite basierte Format von coquery.org (aktuell BETA) – setzt eine Installation des SQLite-Addons voraus.
  • Verbesserungen:
    • Cut-Off-Phrasen sind jetzt strenger (auf Begriff (A) muss Begriff (B) folgen). Die Spanne zwischen den Begriffe A+B wird jetzt ausgegeben und erlaubt ein nachträgliches Filtern.
  • Korrekturen:
    • Verbesserung des CEC6-Stream
    • Die RegEx-Suche in Tabellen wurde verbessert (Spalten wurden nicht korrekt angezeigt, Fehlermeldungen [Easteregg] wurde entfernt).
    • Schnappschuss Refresh wurde verbessert.
Mehr

Workshop 19.03./20.02.2019 – „Information Extraction aus frühneuhochdeutschen Texten“

Die automatisierte Erschließung historischer Texte, deren Sprache und Orthografie noch keiner Standardisierung unterliegt, ist schwierig. Am Zentrum für Informationsmodellierung laufen zur Zeit drei Projekte, die sprachlich im Frühneuhochdeutschen angesiedelt sind: die Erforschung frühneuzeitlicher Diplomatenkorrespondenz (fwf, P 30091), die Edition von Reichstagsakten von 1576 (fwf, I 3446) und die Erschließung und Auswertung spätmittelalterlicher Kochrezepte (fwf, I 3614). Um eine computergestützte Aufbereitung sprachlicher Inhalte bei der Texterschließung einsetzen zu können, richten die drei Projekte in Kooperation mit dem HRSM Projekt KONDE – Kompetenznetzwerk Digitale Edition einen Workshop aus, in dem NLP-Methoden und Werkzeuge zum Information Extraction auf frühneuhochdeutsche Texte angewandt werden sollen. Der Workshop umfasst folgende Einheiten:

 

Montag Nachmittag, 18.03.2019:

  • Einführung in die Varianz des Frühneuhochdeutschen (Erika Windberger-Heidenkummer, Universität Graz)

Dienstag, 19.03.2019:

Mittwoch Vormittag, 20.03.2019:

Der Workshop wird auf das Textmaterial der Projekte fokussieren, Interessierte sind aber prinzipiell willkommen! Die Teilnahme ist für zentrumsexterne Personen allerdings kostenpflichtig (€200.-/Person); Anmeldungen bitte bei ta.zarg-inunull@gulk.tumleh

Mehr

CorpusExplorer (XMAS Update Dez/Jan 2018/19)

Erstmal wünsche ich allen Nutzer*innen des CorpusExplorers frohe Feiertage und einen guten Rutsch ins Jahr 2019. Die letzten Tage des Jahres nutze ich, um ein paar Dinge im CorpusExplorer zu verbessert. Folgendes hat sich getan:

  • Übersichtsanzeige wurde verbessert. Bisher wurden die Token (z. B. auf den Übersichtsseiten zu Korpora und Schnappschüssen) immer in Mio. angegeben. Dies führte in letzter Zeit zu einigen Irritationen und Nachfragen wie: „Bei mir zeigt der CorpusExplorer nur 0,00 Token an“. Kleine Korpora erweckten also den Anschein leer zu sein. Die Anzeige der Token und Dokumente skaliert jetzt automatisch in Tausenderschritten – Tsd., Mio. Mrd.
  • OpenThesaurus steht jetzt als Zusatz-Tagger bereit. Damit kann eine Synonym-Suche realisiert werden.
  • AltoXML wurde verbessert (weniger Fehler – schnellere Verarbeitung).
  • Neue Datenformate für Blogger und Tumblr.
  • Geringfügige Verbesserungen an der GUI.
Mehr

CorpusExplorer (Update Nov/Dez 2018) – Reguläre Ausdrücke und CutOff-Phrasen

CorpusExplorer (Update Nov/Dez 2018) – Reguläre Ausdrücke und CutOff-Phrasen

Auf einem Workshop in Würzburg (2018-11-09) baten mich mehrere Teilnehmer*innen, dass ich Reguläre Ausdrücke (Regular Expression – kurz RegEx) im CorpusExplorer ermöglichen soll. Bisher habe ich RegEx vermieden – oder zumindest in der Oberfläche gut versteckt. Auch weiterhin halte ich diese hässlichen RegEx-Dinger, die mehr an Marsianisch oder Klingonisch erinnern, als an eine Abfragesprache, für überflüssig und hinderlich, wenn es um die Gestaltung einer grafischen Benutzerschnittstelle geht (als Programmierer weiß ich natürlich den Vorteil von RegEx zu schätzen – hier sei nur auf meinen Favoriten „<[^>]*>“ verwiesen, der sämtliche XML-Tags aus einer Datei entfernen kann).

Es gibt aber zwei Argumente die ich für überzeugend halte:

  1. Es gibt viel existierendes Wissen zu Regulären Ausdrücken – meist in Form mühsam zusammengeklöppelter Abfragen auf Schmierzetteln (ist bei mir nicht anders). Dieses Wissen will man natürlich weiterhin nutzen.
  2. Bei einigen Abfragen, z. B. bei der Suche nach verschiedenen Wortformen können RegEx der/dem Eingeweihten helfen, schneller ans Ziel zu kommen.

Daher führt dieses Update folgende neue Funktionen ein:

  • RegEx für die Erstellung von Schnappschüssen. Mit und ohne Satzgrenzenerkennung.
  • RegEx für alle Tabellen-Analysen, zum schnellen Suchen von Werten.

Zusätzlich gibt es folgende neue Funktionen / Verbesserungen:

  • Neue Analyse unter „Phrasen & Muster“ > „CutOff-Phrasen“.
    Hierbei lässt sich nach Phrasen suchen, die zwischen zwei Begriffen stehen. Eine maximale Spanne kann angegeben werden.

    Neue Analyse: CutOff-Phrasen

  • Das Problem mit hochauflösenden Bildschirmen kurz HighDPI tauchte leider wieder auf. Für diese Bildschirme wurden neue Korrekturen eingeführt.
  • Die Ikonografie für Filter wurde vereinheitlicht / Die Icons auf der Korpusübersichtsseite wurden aufgehübscht.

 

Mehr

CorpusExplorer (Update Aug/Sep/Okt 2018) – Favoriten, Formate, Flexibilität und neue Funktionen

Das August/September/Oktober Update des CorpusExploreres bringt eine ganze Liste neuer Funktionen mit sich. Einige vereinfachen die Bedienung, einige erlauben zusätzliche Dateiformate und andere bringen neue Funktionen für Nutzer*innen und Entwickler*innen.

  • Auf Nutzerwunsch wurde unter „Analysen“ ein neuer Menüpunkt hinzugefügt: Favoriten. Häufig genutzte Analysen werden hier per Schnellzugriff aufgelistet. Außerdem ist es möglich, in den Projekteinstellungen eigene Favoriten festzulegen. Diese Favoriten-Settings lassen sich auch Ex-/Importieren. Damit kann man z. B. für ein Seminar bestimmte Analysen voreinstellen.
  • Neue Analyse: Skipgram
  • Neue Dateiformate: Gutenberg DVD 13 (setzt eine entsprechend lizenzierte DVD voraus), DTAbf (vorher nur DTAbf.TCF – jetzt voller Support), PMG-XML, Direkter Import für zuvor mit dem TreeTagger annotierter Dateien (Nutzerwunsch), außerdem Import von CATMA-Dateien (mit und ohne bestehender Annotation). ALTO-XML wird jetzt in der Version 1.2 unterstützt (neuere Versionen folgen). Der WebLicht Im-/Export wurde überarbeitet. Es gab Probleme mit dem Dateiformat – der Im-/Export wurde mit unterschiedlichen Texten validiert.
  • Neue Funktionen für die Konsole:
    • Stilvergleich mittels N-Grammen und Burrows Delta.
    • Analyse mittels MTLD und VOCD
    • Ausgabe ganzer Dokumente mit: get-document
    • get-document-displaynames listet alle Dokumente mit Anzeigename und GUID auf.
    • get-document-metadata [GUID] – hiermit lassen sich die Metadaten eines gewählten Dokuments anzeigen.
    • query-list – Funktioniert wie query, nur das am Ende kein Schnappschuss/Korpus steht, sondern eine Liste mit Dokumenten Anzeigenamen und GUIDs.
    • cluster-list – Funktioniert wie cluster, nur das am Ende keine Schnappschüsse/Korpora stehen, sondern eine Liste mit Dokumenten Anzeigenamen und GUIDs.
    • N-Gramme können jetzt selektiv analysiert werden.
    • Die Hilfe wurde überarbeitet. Optionale Parameter werden zukünftig mit { } hervorgehoben.
    • Der Skript-Modus kommt jetzt mit weniger Aktualisierungen aus. Dies sorgt für eine bessere Anzeigequalität.
    • Die Konsole kann jetzt einen RESTful-Webservice starten. Die Funktion ist aktuell noch experimentell.
  • Der CorpusExplorer ist von Anfang an auf Flexibilität ausgelegt. Dateiformate, Tagger, Analysen, Visualisierungen, uvm. konnten bisher als Add-ons erstellt und nachinstalliert werden. Bei einem Workshop wurde ich gefragt, ob man nicht auch Analysen mit unterschiedlichen Metriken/Algorithmen erweitern könnte (z. B. Vokabularkomplexität – hier gibt es verschiedene Metriken)… also eine bestehende Analyse mit zusätzlichen Features ausstatten kann. Nach einigen Überlegungen ergab sich eine einfache und intuitive API – Diese Add-ons werden als Sideload-Addons bezeichnet. Jede Analyse/Visualisierung kann Sideload-Addons zulassen. Aufruf: Configuration.GetSideloadFeature<T>() – T ist hierbei der Typ (am besten ein Interface oder eine abstrakte Klasse) von dem alle Sideload-Addons erben müssen. Der Aufruf gibt IEnumerable<T> zurück – damit ist sichergestellt, dass eine Analyse/Visualisierung nur Sideload-Addons lädt, die sie auch verarbeiten kann.
  • Kleine Verbesserungen an der Oberfläche und Fehlerkorrekturen – z. B. wurden verschiedene Korpora geladen, so wurden in der Korpusübersicht Layer mit gleichem Namen mehrfach gezählt, jetzt gibt die Übersicht nur unterschiedliche Layer aus.
Mehr

CorpusExplorer (Update Juni/Juli 2018) – Sentiment-Detection, Layer wählbar, verbesserte Analysen

CorpusExplorer (Update Juni/Juli 2018) – Sentiment-Detection, Layer wählbar, verbesserte Analysen

Das Update für Juni/Juli 2018 bringt folgende Neuerungen und Verbesserungen mit sich:

  • Sentiment-Detection: Unter den Spezialfunktionen gibt es jetzt das neue Analysemodul „Sentiment Detection“. Damit lassen sich vordefinierte SD-Wörterbücher auf ein(en) Korpus/Schnappschuss anwenden. Eine Besonderheit: Wenn Sie die Analyse starten, können Sie entweder aus einem vorgefertigten Modell wählen, dieses manuell ändern oder ein eigenes Modell laden.

    Neu: Sentiment-Detection

  • KWIC Ansicht überarbeitet: Bisher war die KWIC-Ansicht (Volltextzugriff > Texte suchen (KWIC)) sehr umständlich zu bedienen. Man musste einzelne Ergebnisse nach erfolgreicher Suche manuell anwählen. Die neu überarbeitete KWIC Ansicht nutzt die bereits vielfach bewährte Tabellenansicht zur Darstellung von KWIC-Resultaten.

    Überarbeitet: KWIC

  • Keyword-Analyse überarbeitet: Die Keyword-Analyse wurde überarbeitet und bietet jetzt mehr Daten.

    Überarbeitet: Keyword-Analyse

  • Links/Rechts-Frequenz überarbeitet: Bisher war es nur möglich zu sehen, ob ein Wort rechts, links oder gar keine Tendenz im Verhältnis zum Suchwort hat. Die neu überarbeitete Fassung bringt eine ganze Fülle neuer Informationen mit sich. So ist jede einzelne Position links oder rechts erkennbar.

    Überarbeitet: Links/Rechts-Frequenz

  • Layer, Layer, Layer: Im letzten Update wurde für alle relevanten Analysemodule die Möglichkeit geschaffen, die Daten zu exportieren. Mit dem Juni/Juli 2018 Update kommt jetzt die Möglichkeit, die Analyselayer für fast alle Analyse abzuändern. Damit lassen sich z. B. Kookkurrenzen auf Lemma oder POS Ebene berechnen.
  • Korpora – Überprüfung: Wurde alles richtig annotiert? Funktioniert die Satzgrenzenerkennung? Wurde jedes Dokument mit den gleichen Einstellungen annotiert?
    Wenn Sie ein neues Korpus laden, überprüft der CorpusExplorer jetzt jede Datei auf Integrität. Nur wenn es Probleme gibt, meldet sich der CorpusExplorer und schlägt Ihnen mögliche Lösungen vor – Aus diesen Lösungen können Sie dann per Mausklick auswählen.

    Neu: Korpora werden automatisch überprüft

  • XML-Skripte für Console: Ein bisher noch wenig genutztes (weil auch bisher wenig dokumentiertes) Feature ist die Möglichkeit, den CorpusExplorer per Konsole (also ohne GUI) zu steuern. Dies ist besonders dann hilfreich, wenn Sie Analysen automatisieren möchten oder wenn der CorpusExplorer aus anderen Programmen/Programmiersprachen z. B. R aufrufen wollen. Dieses Feature wurde jetzt um die Möglichkeit erweitert, mehrere Befehle in einem XML-Skript zu speichern. Außerdem wurde das Feature jetzt besser Dokumentiert: [siehe]

    Neu: Abfragen mit XML-Skript

  • ElasticSearch: Der CorpusExplorer ist nun kompatibel mit ElasticSearch 6.x
  • Vereinheitlichung GUI: Die Eingabemasken für Suchausdrücke wurden vereinheitlicht. Der Farbauswahldialog (beta im letzten Update) ist jetzt für weitere Analysen verfügbar. Außerdem wurde der Dialog zum Anwählen alternativer Schnappschüsse (z. B. in Vergleichsanalysen) überarbeitet.
  • Fehler „Korpusname“: Wurde im Prozess „Dokumente annotieren“ ein Korpusname vergeben, der ungültige Pfadzeichen (wie z. B. „, :, \) enthielt, dann konnte dies zu zerstückelten Korpusnamen führen. Das Update behebt den Fehler, indem ungültige Pfadzeichen zukünftig durch Unterstriche „_“ ersetzt werden.
  • Überarbeitetes Installations-/Update-Packaging: Durch die neue Paketierung sind einzelnen Downloads kleiner – gerade Nutzer*innen mit schlechter Internetanbindung profitieren davon.
  • Aktiver Speicherschutz: Der CorpusExplorer ist so konzipiert, dass er das Maximum an Performance aus einem Rechner herausholt. Mehrere parallele Berechnungen und intensive Nutzung des Arbeitsspeichers erlauben Analysen, die viele andere Programme nicht oder nur wesentlich langsamer verarbeiten. Auf einigen Rechnern kann dies zu Problemen führen, insbesondere wenn weitere Programme im Hintergrund laufen und der Arbeitsspeicher knapp ist. Der neue Schutzmechanismus soll vermeiden, dass der Arbeitsspeicher überläuft – damit sollte der CorpusExplorer auf den betroffenen Rechnern weniger Abstürze verursachen.
  • Allgemeine Korrekturen und kleiner Bugfixes
Mehr

Folge mir auf Twitter