Allgemein

CorpusExplorer (Update Aug/Sep/Okt 2018) – Favoriten, Formate, Flexibilität und neue Funktionen

Das August/September/Oktober Update des CorpusExploreres bringt eine ganze Liste neuer Funktionen mit sich. Einige vereinfachen die Bedienung, einige erlauben zusätzliche Dateiformate und andere bringen neue Funktionen für Nutzer*innen und Entwickler*innen.

  • Auf Nutzerwunsch wurde unter „Analysen“ ein neuer Menüpunkt hinzugefügt: Favoriten. Häufig genutzte Analysen werden hier per Schnellzugriff aufgelistet. Außerdem ist es möglich, in den Projekteinstellungen eigene Favoriten festzulegen. Diese Favoriten-Settings lassen sich auch Ex-/Importieren. Damit kann man z. B. für ein Seminar bestimmte Analysen voreinstellen.
  • Neue Analyse: Skipgram
  • Neue Dateiformate: Gutenberg DVD 13 (setzt eine entsprechend lizenzierte DVD voraus), DTAbf (vorher nur DTAbf.TCF – jetzt voller Support), PMG-XML, Direkter Import für zuvor mit dem TreeTagger annotierter Dateien (Nutzerwunsch), außerdem Import von CATMA-Dateien (mit und ohne bestehender Annotation). ALTO-XML wird jetzt in der Version 1.2 unterstützt (neuere Versionen folgen). Der WebLicht Im-/Export wurde überarbeitet. Es gab Probleme mit dem Dateiformat – der Im-/Export wurde mit unterschiedlichen Texten validiert.
  • Neue Funktionen für die Konsole:
    • Stilvergleich mittels N-Grammen und Burrows Delta.
    • Analyse mittels MTLD und VOCD
    • Ausgabe ganzer Dokumente mit: get-document
    • get-document-displaynames listet alle Dokumente mit Anzeigename und GUID auf.
    • get-document-metadata [GUID] – hiermit lassen sich die Metadaten eines gewählten Dokuments anzeigen.
    • query-list – Funktioniert wie query, nur das am Ende kein Schnappschuss/Korpus steht, sondern eine Liste mit Dokumenten Anzeigenamen und GUIDs.
    • cluster-list – Funktioniert wie cluster, nur das am Ende keine Schnappschüsse/Korpora stehen, sondern eine Liste mit Dokumenten Anzeigenamen und GUIDs.
    • N-Gramme können jetzt selektiv analysiert werden.
    • Die Hilfe wurde überarbeitet. Optionale Parameter werden zukünftig mit { } hervorgehoben.
    • Der Skript-Modus kommt jetzt mit weniger Aktualisierungen aus. Dies sorgt für eine bessere Anzeigequalität.
    • Die Konsole kann jetzt einen RESTful-Webservice starten. Die Funktion ist aktuell noch experimentell.
  • Der CorpusExplorer ist von Anfang an auf Flexibilität ausgelegt. Dateiformate, Tagger, Analysen, Visualisierungen, uvm. konnten bisher als Add-ons erstellt und nachinstalliert werden. Bei einem Workshop wurde ich gefragt, ob man nicht auch Analysen mit unterschiedlichen Metriken/Algorithmen erweitern könnte (z. B. Vokabularkomplexität – hier gibt es verschiedene Metriken)… also eine bestehende Analyse mit zusätzlichen Features ausstatten kann. Nach einigen Überlegungen ergab sich eine einfache und intuitive API – Diese Add-ons werden als Sideload-Addons bezeichnet. Jede Analyse/Visualisierung kann Sideload-Addons zulassen. Aufruf: Configuration.GetSideloadFeature<T>() – T ist hierbei der Typ (am besten ein Interface oder eine abstrakte Klasse) von dem alle Sideload-Addons erben müssen. Der Aufruf gibt IEnumerable<T> zurück – damit ist sichergestellt, dass eine Analyse/Visualisierung nur Sideload-Addons lädt, die sie auch verarbeiten kann.
  • Kleine Verbesserungen an der Oberfläche und Fehlerkorrekturen – z. B. wurden verschiedene Korpora geladen, so wurden in der Korpusübersicht Layer mit gleichem Namen mehrfach gezählt, jetzt gibt die Übersicht nur unterschiedliche Layer aus.
Mehr

Problem: Der CorpusExplorer zeigt keine Daten/Tabellen mehr an…

Bei einigen Nutzer*innen kann es vorkommen, dass urplötzlich keine Daten oder Tabellen im CorpusExplorer angezeigt werden. Das Problem liegt an der neuen DPI-Skalierungsfunktion von Windows. Diese neue Funktion wird durch das Windows-Update automatisch auf jedem Windows 10 Rechner installiert und tritt auch nur auf, wenn die Skalierung ungleich 100% beträgt (z. B. bei hochauflösenden Displays).

Abhilfe langfristig: Ein Update ist in Arbeit.

Abhilfe kurzfristig:

  1. Beenden Sie alle Programme.
  2. Klicken Sie mit der rechten Maustaste auf den Desktop und wählen Sie aus dem Menü „Anzeigeeinstellungen“.
  3. Überprüfen Sie ob der Regler/Auswahlbox für „Skalierung“ auf 100% steht. Wenn das der Fall ist, dann liegt ein anderes Problem vor (dann sind Sie hier fertig und müssen mir eine E-Mail schreiben, damit ich auch von diesem Fehler erfahre). Wenn der Wert von 100% abweicht, dann setzen Sie den Regler/Auswahlbox auf 100% und fahren Sie mit Punkt 4 fort.
  4. Wie Sie festestellen werden, wird nach der Reduktion auf 100% vieles auf dem Bildschirm kleiner. Um das auszugleichen, klicken Sie auf „Erweiterte Einstellungen“. Dort können Sie eine andere (niedrigere) Bildschirmauflösung wählen z. B. 1366 x 768. Die Reduktion der Auflösung hat den gleichen Effekt wie eine Skalierung – kommt dafür aber ohne unschöne Nebeneffekte daher.
  5. Starten Sie den Rechner neu. Das Problem sollte behoben sein.
Mehr

Lisa Lena Opas-Hänninen Young Scholar Prize 2016

Lisa Lena Opas-Hänninen Young Scholar Prize 2016

Da fährt man nichtsahnend nach Leipzig zur DHd2016 und kommt völlig überrascht mit einem „Lisa Lena Opas-Hänninen Young Scholar Prize“ zurück. Den prämierten Vortrag kann man [hier herunterladen]. Das vorgestellte Programm ist, wie könnte es anders sein, der CorpusExplorer. Ein kleines Dankeschön an die gesamte DH-Community: Ich habe mich entschlossen, ein spezielles DHd2016-CorpusExplorer-Release anzufertigen. Es wird auf spezielle Probleme der DHd2016 eingehen und ich werde versuchen, einige Lösungen nachzubauen/nachzuvollziehen. Das Release wird voraussichtlich Ende März zur Verfügung stehen – also @notejor auf Twitter folgen und immer informiert sein.

Im Vortrag vertieft (Foto by A. Rockenberger @ARockenberger)

Im Vortrag vertieft (Foto by A. Rockenberger @ARockenberger)

Verleihung des Lisa Lena Opas-Hänninen Young Scholar Prize

Mehr

CloneDetection

CloneDetection

Egal ob Tweets oder Zeitungsartikel – viele Korpora enthalten Textsorten, die per se zu Duplikaten neigen. Der CorpusExplorer kann jetzt diese automatisch entfernen. Laden Sie ein Korpus. Rufen Sie die Schnappschuss-Detailansicht auf und klicken Sie auf AntiClone.

Hinweis: Aktuell ist diese Funktion nur für kleinere Schnappschüsse geeignet (bis 1 Mio. Token). Für Q1 2016 ist bereits ein Speed-Update geplant.

Clone-Detection

Mehr

WordPress PING-Services Stand: 2015-07

Gerade habe ich mal die „Update Services“ (PING) meines WordPress-Blogs überprüft, entschlackt und aktualisiert. Hier ist meine Liste 2015-07 mit PING-Services die

  • vertrauenswürdig sind…
  • funktionieren (zum Zeitpunkt des Abrufs heute 2015-07-07…
  • und für mich als deutschsprachiger Blogger relevant erscheinen.

Die Vertrauenswürdigkeit wurde mit WOT (Web of Trust) eingeschätzt.

Neue Liste 2015-07:
http://rpc.pingomatic.com
http://rpc.twingly.com
http://ping.feedburner.com
http://rpc.technorati.com/rpc/ping
http://rpc.weblogs.com/RPC2
http://blo.gs/ping.php
http://blogsearch.google.com/ping/RPC2
http://blogsearch.google.de/ping/RPC2
http://rpc.pingomatic.com/
http://blogpingr.de/ping/rpc2
http://rpc.bloggerei.de/ping/

Veraltete Liste:

http://rpc.pingomatic.com
http://rpc.twingly.com
http://api.feedster.com/ping
http://api.moreover.com/RPC2
http://api.moreover.com/ping
http://www.blogdigger.com/RPC2
http://www.blogshares.com/rpc.php
http://www.blogsnow.com/ping
http://www.blogstreet.com/xrbin/xmlrpc.cgi
http://bulkfeeds.net/rpc
http://www.newsisfree.com/xmlrpctest.php
http://ping.blo.gs/
http://ping.feedburner.com
http://ping.syndic8.com/xmlrpc.php
http://ping.weblogalot.com/rpc.php
http://rpc.blogrolling.com/pinger/
http://rpc.technorati.com/rpc/ping
http://rpc.weblogs.com/RPC2
http://www.feedsubmitter.com
http://blo.gs/ping.php
http://www.pingerati.net
http://www.pingmyblog.com
http://geourl.org/ping
http://ipings.com
http://www.weblogalot.com/ping
http://blogsearch.google.com/ping/RPC2
http://blogsearch.google.de/ping/RPC2
http://ping.wordblog.de/
http://rpc.icerocket.com:10080/
http://rpc.pingomatic.com/
http://rpc.twingly.com/
http://ping.feedburner.google.com/
http://blogpingr.de/ping/rpc2
http://rpc.bloggerei.de/ping/

Mehr

Unterstützung erneut eingeworben – Vielen Dank an PostSharp

Heute habe ich mich sehr gefreut, als ich meinen E-Mail-Briefkasten geöffnet habe. Die Firma PostSharp stellt unentgeltlich das gleichnamige Produkt „PostSharp – Ultimate“ zur Weiterentwicklung des CorpusExplorers zur Verfügung. Vielen Dank dafür! PostSharp ist eine Compiler-/IDE-Erweiterung die es ermöglicht Aspektorientiert zu Programmieren. Aspektorientierung (AOP) ersetzt nicht Objekt-Orientierung (OOP), sondern ergänzt diese optimal. Viele Entwurfsmuster (siehe auch GoF) lassen sich mit AOP realisieren und noch weiter optimieren (vergl. hierzu auch folgendes Whitepaper). Durch den Einsatz von AOP reduziert sich der Arbeitsaufwand immens, es gibt weniger Quellcode, demzufolge wird alles übersichtlicher und wir können schneller die Dokumentation abschließen. Ich schätze, das wir so sogar um einiges früher mit dem Kurs „Programmieren für Linguisten“ starten können.

Mehr

Folge mir auf Twitter