Artikel getaggt mit "HighDPI"

CorpusExplorer (Update Q3 2019)

Das Q3 2019 Update des CorpusExplorers bringt folgende Neuerungen und Verbesserungen:

Neue Funktionen:

  • Neue Formate:
    • FoLiA XML
    • RSS Feeds
    • Speedy (Import/Export) – Danke an/Thanks to: Iian Neill & Andreas Kuczera
    • YouTube JSON
    • Wiktionary
    • Redewiedergabe – http://www.redewiedergabe.de/korpus.html
  • QuickMode – Ursprünglich war der QuickMode nur für Entwickler*innen gedacht. Deren Programme konnte so Daten mit dem CorpusExplorer aufbereiten (annotieren/konvertieren). Der QuickMode ist jetzt auch für normale Nutzer verfügbar. Drücken Sie gleichzeitig die Tasten WINDOWS + R. Ausführen erscheint. Geben Sie dort folgendes ein: CorpusExplorer.exe –help und bestätigen Sie mit „Ok“.
    Eine Anleitung erscheint. Folgende Modi sind aktuell verfügbar:

    • –help – Zeigt die Hilfe an.
    • –anno – Annotiert Rohtext und zeigt einen Dialog zum Speichern der fertigen Daten an.
    • –conv – Konvertiert Korpora in unterschiedliche Formate.
    • –sreset – Soft Reset / Falls der CorpusExplorer nicht startet, probieren Sie diese Option aus.
    • –hreset – Sollte der „Soft Reset“ (s. o.) keine Wirkung zeigen, können Sie damit eine Neuinstallation des CorpusExplorers auslösen.

Verbesserungen:

  • Der CorpusExplorer lädt jetzt eine Visualisierung on-demand. D. h. wenn Sie eine Analysemodul erstmalig (nach Programmstart) aufrufen, wird es erst dann geladen. Zuvor wurden alle Analysemodule direkt bei Programmstart geladen. Dies reduziert (A) den RAM-Verbrauch von ca. 450 MB auf 220 MB und (B) die Startzeit des CorpusExplorers sinkt merklich.
  • Die CorpusExplorer Console schreibt Analysedaten jetzt direkt in den Ausgabestream. Dies führt zu einem höheren Durchsatz – gerade bei sehr großen Daten.
  • Verbesserte Darstellung auf HighDPI Displays. Wer meine Arbeit verfolgt weiß: ich schlage mich schon lange mit HighDPI rum. Jetzt ist die Lösung endlich soweit, dass sie gut funktioniert. Gelegentlich gibt es noch kleinere Unterschiede. Aber bis zu einer Skalierung von 150% kann ich eine gute Darstellung garantieren.
  • Verbesserte Suche nach Belegstellen. Wurden die Belegstellen z. B. zur Frequenzanalyse ausgeklappt, wurden bisher alle Belege des jeweiligen Token angezeigt. Jetzt werden nur noch die Belege angezeigt, die mit allen Einträgen POS/Lemma/Wort übereinstimmen.
  • Die COSMAS II wurde verbessert. RTF-Exporte lassen sich jetzt direkt einlesen.
  • APAEK PDF wurde verbessert.
  • Verbesserte Python Schnittstelle (Python > CorpusExplorer > Python).
  • Das Teilprojekt „Furious-Index“ ist weitgehend abgeschlossen. Dadurch beschleunigt sich der Zugriff auf CEC6-Dateien im STREAM-Modus um Faktor 10.
  • Der Server für die Telemetrie wurde umgezogen. Entsprechend werden die Telemetriedaten ab jetzt an den neuen Server geschickt.
  • Es werden neue Telemetrie-Daten erhoben. Hierzu zählt, welche Dateiformate für die Annotation und den Import verwendet werden. Ebenso wie viele Dateien geladen werden und wie lange die initiale Verarbeitung benötigt. Dadurch kann in einigen Wochen/Monaten die Performance für Annotation/Import weiter verbessert werden.
  • Weitere kleinere Verbesserungen und Performance-Optimierungen.
Mehr

CorpusExplorer (Update Nov/Dez 2018) – Reguläre Ausdrücke und CutOff-Phrasen

CorpusExplorer (Update Nov/Dez 2018) – Reguläre Ausdrücke und CutOff-Phrasen

Auf einem Workshop in Würzburg (2018-11-09) baten mich mehrere Teilnehmer*innen, dass ich Reguläre Ausdrücke (Regular Expression – kurz RegEx) im CorpusExplorer ermöglichen soll. Bisher habe ich RegEx vermieden – oder zumindest in der Oberfläche gut versteckt. Auch weiterhin halte ich diese hässlichen RegEx-Dinger, die mehr an Marsianisch oder Klingonisch erinnern, als an eine Abfragesprache, für überflüssig und hinderlich, wenn es um die Gestaltung einer grafischen Benutzerschnittstelle geht (als Programmierer weiß ich natürlich den Vorteil von RegEx zu schätzen – hier sei nur auf meinen Favoriten „<[^>]*>“ verwiesen, der sämtliche XML-Tags aus einer Datei entfernen kann).

Es gibt aber zwei Argumente die ich für überzeugend halte:

  1. Es gibt viel existierendes Wissen zu Regulären Ausdrücken – meist in Form mühsam zusammengeklöppelter Abfragen auf Schmierzetteln (ist bei mir nicht anders). Dieses Wissen will man natürlich weiterhin nutzen.
  2. Bei einigen Abfragen, z. B. bei der Suche nach verschiedenen Wortformen können RegEx der/dem Eingeweihten helfen, schneller ans Ziel zu kommen.

Daher führt dieses Update folgende neue Funktionen ein:

  • RegEx für die Erstellung von Schnappschüssen. Mit und ohne Satzgrenzenerkennung.
  • RegEx für alle Tabellen-Analysen, zum schnellen Suchen von Werten.

Zusätzlich gibt es folgende neue Funktionen / Verbesserungen:

  • Neue Analyse unter „Phrasen & Muster“ > „CutOff-Phrasen“.
    Hierbei lässt sich nach Phrasen suchen, die zwischen zwei Begriffen stehen. Eine maximale Spanne kann angegeben werden.

    Neue Analyse: CutOff-Phrasen

  • Das Problem mit hochauflösenden Bildschirmen kurz HighDPI tauchte leider wieder auf. Für diese Bildschirme wurden neue Korrekturen eingeführt.
  • Die Ikonografie für Filter wurde vereinheitlicht / Die Icons auf der Korpusübersichtsseite wurden aufgehübscht.

 

Mehr

Folge mir auf Twitter