Artikel getaggt mit "2019"

CorpusExplorer (Update Q3 2019)

Das Q3 2019 Update des CorpusExplorers bringt folgende Neuerungen und Verbesserungen:

Neue Funktionen:

  • Neue Formate:
    • FoLiA XML
    • RSS Feeds
    • Speedy (Import/Export) – Danke an/Thanks to: Iian Neill & Andreas Kuczera
    • YouTube JSON
    • Wiktionary
    • Redewiedergabe – http://www.redewiedergabe.de/korpus.html
  • QuickMode – Ursprünglich war der QuickMode nur für Entwickler*innen gedacht. Deren Programme konnte so Daten mit dem CorpusExplorer aufbereiten (annotieren/konvertieren). Der QuickMode ist jetzt auch für normale Nutzer verfügbar. Drücken Sie gleichzeitig die Tasten WINDOWS + R. Ausführen erscheint. Geben Sie dort folgendes ein: CorpusExplorer.exe –help und bestätigen Sie mit „Ok“.
    Eine Anleitung erscheint. Folgende Modi sind aktuell verfügbar:

    • –help – Zeigt die Hilfe an.
    • –anno – Annotiert Rohtext und zeigt einen Dialog zum Speichern der fertigen Daten an.
    • –conv – Konvertiert Korpora in unterschiedliche Formate.
    • –sreset – Soft Reset / Falls der CorpusExplorer nicht startet, probieren Sie diese Option aus.
    • –hreset – Sollte der „Soft Reset“ (s. o.) keine Wirkung zeigen, können Sie damit eine Neuinstallation des CorpusExplorers auslösen.

Verbesserungen:

  • Der CorpusExplorer lädt jetzt eine Visualisierung on-demand. D. h. wenn Sie eine Analysemodul erstmalig (nach Programmstart) aufrufen, wird es erst dann geladen. Zuvor wurden alle Analysemodule direkt bei Programmstart geladen. Dies reduziert (A) den RAM-Verbrauch von ca. 450 MB auf 220 MB und (B) die Startzeit des CorpusExplorers sinkt merklich.
  • Die CorpusExplorer Console schreibt Analysedaten jetzt direkt in den Ausgabestream. Dies führt zu einem höheren Durchsatz – gerade bei sehr großen Daten.
  • Verbesserte Darstellung auf HighDPI Displays. Wer meine Arbeit verfolgt weiß: ich schlage mich schon lange mit HighDPI rum. Jetzt ist die Lösung endlich soweit, dass sie gut funktioniert. Gelegentlich gibt es noch kleinere Unterschiede. Aber bis zu einer Skalierung von 150% kann ich eine gute Darstellung garantieren.
  • Verbesserte Suche nach Belegstellen. Wurden die Belegstellen z. B. zur Frequenzanalyse ausgeklappt, wurden bisher alle Belege des jeweiligen Token angezeigt. Jetzt werden nur noch die Belege angezeigt, die mit allen Einträgen POS/Lemma/Wort übereinstimmen.
  • Die COSMAS II wurde verbessert. RTF-Exporte lassen sich jetzt direkt einlesen.
  • APAEK PDF wurde verbessert.
  • Verbesserte Python Schnittstelle (Python > CorpusExplorer > Python).
  • Das Teilprojekt „Furious-Index“ ist weitgehend abgeschlossen. Dadurch beschleunigt sich der Zugriff auf CEC6-Dateien im STREAM-Modus um Faktor 10.
  • Der Server für die Telemetrie wurde umgezogen. Entsprechend werden die Telemetriedaten ab jetzt an den neuen Server geschickt.
  • Es werden neue Telemetrie-Daten erhoben. Hierzu zählt, welche Dateiformate für die Annotation und den Import verwendet werden. Ebenso wie viele Dateien geladen werden und wie lange die initiale Verarbeitung benötigt. Dadurch kann in einigen Wochen/Monaten die Performance für Annotation/Import weiter verbessert werden.
  • Weitere kleinere Verbesserungen und Performance-Optimierungen.
Mehr

CorpusExplorer (Update Q2 2019)

Das Mai Update des CorpusExplorers bringt einige Verbesserungen und Korrekturen.

Neu:

  • In Kooperation mit Bryan Jurish wird es ein Add-on für DTA::CAB geben. Dazu am Wochenende mehr.

Verbesserungen:

  • Die Performance des TreeTagger-Moduls wurde verbessert.
  • Das KWIT-Analysemodul erstellt nun keine 0-Kanten mehr.
  • Erste Verbesserungen des Ecosystems (System das im Hintergrund alle Teilkomponenten überwacht und ggf. nachinstalliert.). Weitere Verbesserungen, insbesondere was die Performance anbelangt, werden folgen.
  • Verbesserungen und Erweiterungen der Dateiformate.
Mehr

CorpusExplorer (Update Q1 2019)

CorpusExplorer (Update Q1 2019)

Es ist soweit – ein großes Update wartet auf alle Nutzer*innen des CorpusExplorers.

Hier eine Zusammenfassung der Neuerungen/Verbesserungen:

  • Eine persönliche Angelegenheit zuerst: Seit mehreren Versionen unterstützen mich viele Nutzer*innen bei der Entwicklung, indem Sie der Übermittlung anonymisierter Telemetrie-Daten zustimmen. Euch allen vielen Dank. Meine Erfahrungen die ich dadurch sammeln konnte, sind unersetzlich. Mich störte aber (A) das diese Daten an Dritte (Microsoft Azure) gehen – und – (B) das eigentlich mehr Daten gesammelt werden, als nötig (ich hatte das schon so restriktiv eingestellt wie möglich, aber Azure Application Insights ist sehr sammelfreudig). Als Verfechter von Datensparsamkeit habe ich jetzt eine eigenen Lösung gebaut – der Quellcode für den Server (der die Daten sammelt) findet ihr auf GitHub (https://github.com/notesjor/OpenSourceTelemetrie). Der CorpusExplorer nutzt jetzt also eine eigenen, OpenSource Infrastruktur, die außerdem sehr datensparsam ist. Es werden z. B. keine IP-Adresse mehr protokolliert.
  • Die neue Startseite / die neue Korpus Übersicht
    Für etwas mehr Komfort sorgen die neue Startseite und die neue „Korpus Übersicht“.
    Auf der Startseite gibt es jetzt die Sektion „Aktuelles und Neuigkeiten“ (vielleicht etwas doppelt gemoppelt). In diesem Bereich werden aktuell Meldungen zum CorpusExplorer angezeigt (ein per RSS synchronisierter Newsfeed). Dies Betrifft sowohl Programm-Updates als auch z. B. Workshops (Wer eigenen Workshops bewerben will, kann sich gerne melden – Kontakt). Darunter ist die Sektion „Verfügbar Add-ons“ zu finden. Hier werden alle offiziellen Add-ons des CorpusExplorers aufgelistet, die sich mit einem Klick installieren lassen (auch hier: wer eigene Entwicklung plant oder einstellen möchte – gerne melden).
    Auf der „Korpus Übersicht“ findet sich eine Sektion „Frei verfügbare Korpora“ – Auch diese lassen sich mit einem Klick installieren/abonnieren.
  • Neue Dateiformate:
    • Unterstützung für TEI-XML P5 des CAL²-Projekts
    • Unterstützung für OffeneGesetze.de
    • Export für das SQLite basierte Format von coquery.org (aktuell BETA) – setzt eine Installation des SQLite-Addons voraus.
  • Verbesserungen:
    • Cut-Off-Phrasen sind jetzt strenger (auf Begriff (A) muss Begriff (B) folgen). Die Spanne zwischen den Begriffe A+B wird jetzt ausgegeben und erlaubt ein nachträgliches Filtern.
  • Korrekturen:
    • Verbesserung des CEC6-Stream
    • Die RegEx-Suche in Tabellen wurde verbessert (Spalten wurden nicht korrekt angezeigt, Fehlermeldungen [Easteregg] wurde entfernt).
    • Schnappschuss Refresh wurde verbessert.
Mehr

CorpusExplorer (XMAS Update Dez/Jan 2018/19)

Erstmal wünsche ich allen Nutzer*innen des CorpusExplorers frohe Feiertage und einen guten Rutsch ins Jahr 2019. Die letzten Tage des Jahres nutze ich, um ein paar Dinge im CorpusExplorer zu verbessert. Folgendes hat sich getan:

  • Übersichtsanzeige wurde verbessert. Bisher wurden die Token (z. B. auf den Übersichtsseiten zu Korpora und Schnappschüssen) immer in Mio. angegeben. Dies führte in letzter Zeit zu einigen Irritationen und Nachfragen wie: „Bei mir zeigt der CorpusExplorer nur 0,00 Token an“. Kleine Korpora erweckten also den Anschein leer zu sein. Die Anzeige der Token und Dokumente skaliert jetzt automatisch in Tausenderschritten – Tsd., Mio. Mrd.
  • OpenThesaurus steht jetzt als Zusatz-Tagger bereit. Damit kann eine Synonym-Suche realisiert werden.
  • AltoXML wurde verbessert (weniger Fehler – schnellere Verarbeitung).
  • Neue Datenformate für Blogger und Tumblr.
  • Geringfügige Verbesserungen an der GUI.
Mehr

Folge mir auf Twitter