Gepostet vonJan

#LinguRätsel – Alle Lösungen

Lösungen für die #LinguRätsel

  1. Arzneimittel & Kinder
  2. Gegenmaßnahmen, Auftreten & Nebenwirkungen
  3. Arzneimittel & Arztes
  4. Risiken, Nebenwirkungen, Arzt & Apotheker
  5. Alkohol & [Arzneimittel]
  6. Nebenwirkungen, Patienten, Behandlung & [Arzneimittel]
  7. Infektionen, [Arzneimittel] & Beschwerden
  8. [Arzneimittel], Temperatur, [Arzneimittel] & Originalverpackung
Mehr

#LinguRätsel – Aufgabe: Finde die richtigen NOMEN

Heute Abend startet das erste #LinguRätsel
– ich freue mich auch über kreative Lösungen.

Kleiner Hinweis: Als Grundlage für Rätsel dient ein Korpus das aus 1000 Beipackzetteln basiert. D.h. Die Nomen stammen alle aus dem medizinisch/pharmazeutischen Bereich.

Beispiel: 
Bei anhaltenden NOMEN suche Sie bitte ihre(n) NOMEN auf.
Lösung: Beschwerden & Arzt

Die Lösungen findest Du immer am Folgetag in der neuen Aufgabe.
Treue Rater(innen) werden in einer Bestenliste geführt !YEAH!

Mehr

Textmining – Effizienz ist eine Frage des Chaos

Textmining – Effizienz ist eine Frage des Chaos

Effizienz und Chaos passen für viele Menschen nicht zusammen, für Computer manchmal schon. Der Grund, Ordnung enthält immer Redundanzen (z. B. Dopplungen). Man kann sich diese Dopplungen zunutze machen und meistens helfen Sie auch – z. B. wenn ich meinen Haustürschlüssel immer an die gleiche „redundante“ Stelle auf der Kommode im Flur lege, dann finde ich ihn schnell wieder. Heute möchte ich einen Fall präsentieren, in dem man Redundanzen möglichst vermeiden möchte. Es geht um Textmining – sprich der Analyse und Aufbereitung großer Textmengen.

Folgendes Bild zeigt einen Vergleich zwischen zwei Formaten (XML & CorpusExplorer) wie Sie im Arbeitsspeicher liegen. Die Visualisierung wurde aus einem Memory-Dump des Arbeitsspeichers erstellt.
Das zugrundegelegte Datenmaterial ist bei beiden identisch, es handelt sich um 1’000 zufällig ausgewählte Texte (weitere Metriken: 29’311 Sätze – 747’916 Tokens).

Dateiformate im Vergleich (links XML / rechts CorpusExplorer)

Links: XML-Dokumente
Rechts: Das neue CorpusExplorer-Dateiformat

Was man auf dem Bild sehr gut erkennt, die XML-Daten sind größtenteils sehr gut strukturiert, man erkennt bestimmte wiederkehrende Muster. Auch sieht man sowohl oben als auch in der Mitte Sequenzen, die chaotisch organisiert sind, also kein Muster aufweisen. Rechts ist das neue CorpusExplorer-Dateiformat zu sehen, hier erkennt man keine Regelmäßigkeiten oder Muster – was ein wenig an die Zeiten der guten alten TV-Zimmerantenne erinnert.

Sicherlich ist es von Vorteil Daten zu strukturieren und sicherlich ist XML eine sehr gute Möglichkeit, um dies zu bewerkstelligen. Der CorpusExplorer strukturiert die Daten ebenfalls, aber ohne dabei einen immensen Berg an Redundanzen zu produzieren. Das Credo lautet also: kleiner Datenberg – höhere Geschwindigkeit der Analyse. Das oben gezeigt Bild ist nicht ganz fair, es benachteiligt den CorpusExplorer, da es so aussieht als wären die Daten des CorpusExplorers gleich groß und nur chaotisch. Das folgende Bild zeigt die Speichervisualisierung ohne Skalierung:

 

Ohne Skalierung

Der Vorteil gegenüber XML ist deutlich messbar, um ca. Faktor 300 kleiner Dateien – sowie eine zehnfach besser Analyseperformance. Es zeigt sich also, man kann mit Optimierungen einiges erreichen. Mehr über das neue CorpusExplorer-Format sowie Optimierungsideen für eigene Projekte in Kürze hier im Blog … comming soon

Mehr

CorpusExplorer – Miniupdate 2014/07

CorpusExplorer – Miniupdate 2014/07

Die Juli Version des CorpusExplorers enthält folgende Änderungen / Korrekturen

  • Modulbezeichnungen wurden korrigiert.
  • Unter bestimmten Umständen konnte es vorkommen, dass der Korpusname nicht korrekt angezeigt wurde.
  • Unter bestimmten Umständen konnte es vorkommen, dass ein neu erstelltes Korpus nicht richtig angelegt wurde. Die Layer-Dateien befanden sich im Quellordner.
  • Das alte Layer-Format wird ab dieser Version unterdrückt und erscheinen daher nicht mehr in der Auswahl der bereits verfügbaren Korpora. Hintergrund: Diese Option wurde aktiviert um Nutzer des alten Layer-1.0-Formats auf die bevorstehende Umstellung des kommende Layer-5.0-Formats vorzubereiten. Workaround: Diese Einstellung kann über das Einstellungs-Zahnrad in der Korpus-Spalte geändert werden. Entfernen Sie den Haken bei „CE-Layerversion 2.0“ (siehe Screenshot). Ausblick: Sie werden auch in Zukunft die Layer-1.0-Versionen im CorpusExplorer nutzen können, die Konvertierung dauert nur sehr lange, daher werden ab jetzt alle Layer-1.0-Formate blockiert, eine Ausweitung auf Layer-2.0 bis Layer-4.0 ist Anfang 2015 geplant.

Mehr

Unterstützung erneut eingeworben – Vielen Dank an PostSharp

Heute habe ich mich sehr gefreut, als ich meinen E-Mail-Briefkasten geöffnet habe. Die Firma PostSharp stellt unentgeltlich das gleichnamige Produkt „PostSharp – Ultimate“ zur Weiterentwicklung des CorpusExplorers zur Verfügung. Vielen Dank dafür! PostSharp ist eine Compiler-/IDE-Erweiterung die es ermöglicht Aspektorientiert zu Programmieren. Aspektorientierung (AOP) ersetzt nicht Objekt-Orientierung (OOP), sondern ergänzt diese optimal. Viele Entwurfsmuster (siehe auch GoF) lassen sich mit AOP realisieren und noch weiter optimieren (vergl. hierzu auch folgendes Whitepaper). Durch den Einsatz von AOP reduziert sich der Arbeitsaufwand immens, es gibt weniger Quellcode, demzufolge wird alles übersichtlicher und wir können schneller die Dokumentation abschließen. Ich schätze, das wir so sogar um einiges früher mit dem Kurs „Programmieren für Linguisten“ starten können.

Mehr

Ankündigung: CorpusExplorer NEXTGEN-Release

Ankündigung: CorpusExplorer NEXTGEN-Release

Nach zwei Jahren intensiver Entwicklung wurde mit dem NEXTGEN-Release der CorpusExplorer vollständig neu gedacht.
Das offizielle Release ist für das Q3/Q4 2014 geplant. Aktuell laufen die ersten BETA-Tests an.

Was ist NEU?: Alles, sowohl der technische Unterbau als auch die neu entwickelte Oberfläche.

Hier ein kleiner Vorgeschmack:

splash

Der neue Splashscreen – Das Logo muss noch überarbeitet werden.

 

Ein neues Konzept wird die alten Module ablösen. Außerdem wird es eine Möglichkeit geben eigene Plugins zu entwickeln.

Ein neues Konzept wird die alten Module ablösen. Außerdem wird es eine Möglichkeit geben eigene Plugins zu entwickeln.

Oh! - Hier ist aber noch einige rot... Da gibt es noch was zu tun bis zur endgültigen Fassung. Was man aber schon erahnen kann, es gibt neue Möglichkeiten Textmaterial zu akquirieren. YEAH!

Oh! – Hier ist aber noch einige rot… Da gibt es noch was zu tun bis zur endgültigen Fassung. Was man aber schon erahnen kann, es gibt neue Möglichkeiten Textmaterial zu akquirieren. YEAH!

Es folgen drei Beispiele für die neue Auswertungs-Engine:

corpusExplorer5

Die klassische Tabellen-Variante. Inkl. Sortier-, Gruppier- und Filter-Funktionen.

Die speziell entwickelte Chart-Engine nimmt dem Nutzer die Entscheidung ab, welche Darstellungsfunktion die sinnvollste ist.

Die speziell entwickelte Chart-Engine nimmt dem Nutzer die Entscheidung ab, welche Darstellungsfunktion die sinnvollste ist.

Chart-Engine: Diesmal wurde der Donut automatisch gewählt.

Mehr

Folge mir auf Twitter