Artikel getaggt mit "Visualisierung"

Karten-Visualisierungen im CorpusExplorer ganz einfach

Karten-Visualisierungen im CorpusExplorer ganz einfach

Lange habe ich nach einer Lösung gesucht, wie man Karten einfach und effizient im CorpusExplorer integrieren kann. Sowohl kommerzielle als auch OpenSource Lösungen wurden geprüft – von klassischen WinForm- und WPF-Lösungen bis hin zu HTML5/JS. Zwei Dinge störten mich am meisten:

  1. Entweder sind zu viele Funktionen vorhanden (was braucht man für eine linguistische Visualisierung eine Routenplanung? oder eine Abfrage welche Restaurants in der Nähe sind?) oder es sind zu wenige/nicht die nötigen Funktionen enthalten.
  2. Karten sind schön, aber sie müssen auch zweckmäßig sein. Für diese erste Kartenversion wollte ich die Ländern unterschiedlich einfärben. Wenn man aber z. B. auf eine normale Karte zurückgreift und ein großes Land wie Russland einfärbt, dann verschwimmt die Wahrnehmung von kleineren/benachtbarten Staaten. Hier kam mir ein Tweet zur Hilfe – von Maarten Lambrechts. Er normierte alle Länder auf die gleiche Größe und ordnete sie auf einem Gitter/Schachbrett an. Diese Idee habe ich für den CorpusExplorer implementiert (Quellcode hier) und veröffentlicht.

Hier die aktuelle selbst entwickelte Lösung in Bildern (weiteres im 2018):

Ein zweiter kurzer Verweis auf Twitter:


Dem kann nur zugestimmt werden – Karten gehören zu den klassischen Visualisierungen der Linguistik. Falls jemand eine wirklich gute Programm-Bibliothek/SDK/API/etc. für linguistische Karten-Visualisierungen kennt … ich würde mich sehr über einen Hinweis freuen. Ebenso sind Ideen, Kritik oder Kooperation an/zu meiner Lösung erwünscht.

Mehr

CorpusExplorer v2.0 – Juni/Juli Update – Geänderter Updateplan

CorpusExplorer v2.0 – Juni/Juli Update – Geänderter Updateplan

Neues Update – Neue Funktion – Der „PaperLinguist“ ist jetzt verfügbar (Spezialanalysen). Dadurch wird es möglich, die wichtigsten Analysen in einem Rutsch auszudrucken bzw. als PDF, Word, Excel oder CSV zu exportieren. Aber vorsicht, bei Korpora ab 1 Mio. Token werden es schnell mehrere tausend Seiten.

PaperLinguist-Visualisierung

PaperLinguist-Visualisierung

Ansonsten: Weniger Fehler und minimale Verbesserungen am Benutzerinterface.

Wichtig: Um Zeit für die Dissertation zu haben – deren Teil ja auch der CorpusExplorer ist – werde ich vorübergehend nur noch alle drei Monate ein neues Update herausgeben. Mittlerweile korrigiere ich sowieso nur noch wenige Dinge – der CorpusExplorer läuft sehr stabil. Außerdem wird es durch den geänderten Updateplan eher mehr als weniger neue Funktionen geben. Jedes neue Update kostet Zeit – Zeit für die Bereitstellung und Zeit für die Dokumentation.

Mehr

Textmining – Effizienz ist eine Frage des Chaos

Textmining – Effizienz ist eine Frage des Chaos

Effizienz und Chaos passen für viele Menschen nicht zusammen, für Computer manchmal schon. Der Grund, Ordnung enthält immer Redundanzen (z. B. Dopplungen). Man kann sich diese Dopplungen zunutze machen und meistens helfen Sie auch – z. B. wenn ich meinen Haustürschlüssel immer an die gleiche „redundante“ Stelle auf der Kommode im Flur lege, dann finde ich ihn schnell wieder. Heute möchte ich einen Fall präsentieren, in dem man Redundanzen möglichst vermeiden möchte. Es geht um Textmining – sprich der Analyse und Aufbereitung großer Textmengen.

Folgendes Bild zeigt einen Vergleich zwischen zwei Formaten (XML & CorpusExplorer) wie Sie im Arbeitsspeicher liegen. Die Visualisierung wurde aus einem Memory-Dump des Arbeitsspeichers erstellt.
Das zugrundegelegte Datenmaterial ist bei beiden identisch, es handelt sich um 1’000 zufällig ausgewählte Texte (weitere Metriken: 29’311 Sätze – 747’916 Tokens).

Dateiformate im Vergleich (links XML / rechts CorpusExplorer)

Links: XML-Dokumente
Rechts: Das neue CorpusExplorer-Dateiformat

Was man auf dem Bild sehr gut erkennt, die XML-Daten sind größtenteils sehr gut strukturiert, man erkennt bestimmte wiederkehrende Muster. Auch sieht man sowohl oben als auch in der Mitte Sequenzen, die chaotisch organisiert sind, also kein Muster aufweisen. Rechts ist das neue CorpusExplorer-Dateiformat zu sehen, hier erkennt man keine Regelmäßigkeiten oder Muster – was ein wenig an die Zeiten der guten alten TV-Zimmerantenne erinnert.

Sicherlich ist es von Vorteil Daten zu strukturieren und sicherlich ist XML eine sehr gute Möglichkeit, um dies zu bewerkstelligen. Der CorpusExplorer strukturiert die Daten ebenfalls, aber ohne dabei einen immensen Berg an Redundanzen zu produzieren. Das Credo lautet also: kleiner Datenberg – höhere Geschwindigkeit der Analyse. Das oben gezeigt Bild ist nicht ganz fair, es benachteiligt den CorpusExplorer, da es so aussieht als wären die Daten des CorpusExplorers gleich groß und nur chaotisch. Das folgende Bild zeigt die Speichervisualisierung ohne Skalierung:

 

Ohne Skalierung

Der Vorteil gegenüber XML ist deutlich messbar, um ca. Faktor 300 kleiner Dateien – sowie eine zehnfach besser Analyseperformance. Es zeigt sich also, man kann mit Optimierungen einiges erreichen. Mehr über das neue CorpusExplorer-Format sowie Optimierungsideen für eigene Projekte in Kürze hier im Blog … comming soon

Mehr

CorpusExplorer (Hilfe-Video): Korpus ausbalancieren/gewichten

Wie sind die Dokumente im Korpus verteilt, welchen Anteil hat der Autor X oder der Verlag Y am Gesamtkorpus? – Diese Frage schnell zu beantworten ist Aufgabe dieses Moduls. Kombinieren Sie dieses Modul mit der Suche so haben sie ein sehr mächtiges Werkzeug zur Hand.

Mehr

CorpusExplorer (Hilfe-Video): Graphen, Graphen und nochmals Graphen

Sie sind hübsch und keine modern wirkende („wollende“) Publikation kommt ohne sie aus… je komplizierter… je größer… sein wir ehrlich, ein Spielzeug für fReAx… Party für alle!!! – Diese Modul macht es möglich Graphen sinnvoll zu nutzen und zu analysieren. Selbst rekursiv…

Nachdem ich in meiner Magisterarbeit GraphViz an die Grenzen des Möglichen gebracht habe, mit Grafiken jenseits der 2GB-Grenzen – jetzt ein Tool, dass wirklich große Graphen handhabbar macht und mit groß meine ich wirklich groß.

Mehr

TED – Hans Rosling: Meine Daten werden ihre Denkweise verändern

H. Rosling hält einen sehr spannenden Vortrag über Entwicklungsländer, wie wir diese sehen und was die Daten(-lage) dazu sagen. Daher sein Motto: „Your Mindset vs. My Dataset“ – Es zeigt sich das Datenvisualisierung durchaus auch bei der Entscheidungssuche helfen kann. Sehr spannendes Tool…!

Mehr

Folge mir auf Twitter