Gepostet vonJan

CorpusExplorer v2.0 – Oktober Release

Was ist neu im Oktober Release des CorpusExplorers?

  • Neue Scraper für EPUB, DSpin-XML & PDF.
  • Neuer Scraper „Auf gut Glück!“ – versucht aus allen Dateien den größtmöglichen Textinhalt zu extrahieren.
  • Mengenoperationen für Schnappschüsse (inner/outer join, diff).
  • Berechnung der Textähnlichkeit wurde verbessert und beschleunigt.
  • Exporter für DSpin-XML – erlaubt die Anbindung von Slash/A.
  • Serialisierung erfolgt nun ausschließlich mit dem .NET BinaryFormatter – Tests mit XML, JSON, ProtocolBuffer sowie MessagePack verliefen wenig erfolgreich.
  • Korpora und Projekte werden ab 2,5 Mio. Token nicht mehr komprimiert um die Daten schneller schreiben zu können. Komprimieren spart zwar Festplattenplatz, kostet aber Zeit. Wer möchte, kann die Dateien mit GZIP selbst nachträglich komprimieren – z.B. mit dem kostenfreien 7-ZIP.

Hinweis: Da es in diesem Release zu Änderungen an der Dateistruktur kommt, wurde größte Sorgfalt darauf verwendet, dass alle alten Dateien (Projekt/Korpora) weiterhin funktionieren. Der CorpusExplorer erkennt den Inhalt einer CEC5 bzw. PROJ5 Datei und schaltet dann in den entsprechenden Kompatibilitäts-Modus.

Mehr

WordPress PING-Services Stand: 2015-07

Gerade habe ich mal die „Update Services“ (PING) meines WordPress-Blogs überprüft, entschlackt und aktualisiert. Hier ist meine Liste 2015-07 mit PING-Services die

  • vertrauenswürdig sind…
  • funktionieren (zum Zeitpunkt des Abrufs heute 2015-07-07…
  • und für mich als deutschsprachiger Blogger relevant erscheinen.

Die Vertrauenswürdigkeit wurde mit WOT (Web of Trust) eingeschätzt.

Neue Liste 2015-07:
http://rpc.pingomatic.com
http://rpc.twingly.com
http://ping.feedburner.com
http://rpc.technorati.com/rpc/ping
http://rpc.weblogs.com/RPC2
http://blo.gs/ping.php
http://blogsearch.google.com/ping/RPC2
http://blogsearch.google.de/ping/RPC2
http://rpc.pingomatic.com/
http://blogpingr.de/ping/rpc2
http://rpc.bloggerei.de/ping/

Veraltete Liste:

http://rpc.pingomatic.com
http://rpc.twingly.com
http://api.feedster.com/ping
http://api.moreover.com/RPC2
http://api.moreover.com/ping
http://www.blogdigger.com/RPC2
http://www.blogshares.com/rpc.php
http://www.blogsnow.com/ping
http://www.blogstreet.com/xrbin/xmlrpc.cgi
http://bulkfeeds.net/rpc
http://www.newsisfree.com/xmlrpctest.php
http://ping.blo.gs/
http://ping.feedburner.com
http://ping.syndic8.com/xmlrpc.php
http://ping.weblogalot.com/rpc.php
http://rpc.blogrolling.com/pinger/
http://rpc.technorati.com/rpc/ping
http://rpc.weblogs.com/RPC2
http://www.feedsubmitter.com
http://blo.gs/ping.php
http://www.pingerati.net
http://www.pingmyblog.com
http://geourl.org/ping
http://ipings.com
http://www.weblogalot.com/ping
http://blogsearch.google.com/ping/RPC2
http://blogsearch.google.de/ping/RPC2
http://ping.wordblog.de/
http://rpc.icerocket.com:10080/
http://rpc.pingomatic.com/
http://rpc.twingly.com/
http://ping.feedburner.google.com/
http://blogpingr.de/ping/rpc2
http://rpc.bloggerei.de/ping/

Mehr

Kooperation: AnnotationPro & CorpusExplorer – Teil 2/2

Kooperation: AnnotationPro & CorpusExplorer – Teil 2/2

Wie in [diesem Artikel] angekündigt, gibt es jetzt eine Im-/Exporter für AnnotationPro und CorpusExplorer, der in beide Richtungen funktioniert. Bisher konnten ANT-Dateien im CorpusExplorer eingelesen werden. Jetzt können die Daten auch wieder an AnnotationPro zurück übermittelt werden.
AnnotationPro

Dazu installieren Sie bitte folgendes Programm:AnnotationPro <> CorpusExplorer

Nach dem Start können Sie wählen, in welche Richtung Sie eine Datei konvertieren wollen.
Wichtig: Für die Nutzung ist die Installation des CorpusExplorers v2.0 erforderlich.
Tipp: Das Programm stellt für den Weg AnnotationPro > CorpusExplorer nur den TreeTagger sowie dessen Sprachmodelle zur Verfügung. Wenn Sie mehr Option benötigen, dann importieren Sie die ANT-Datei wie bisher direkt über den CorpusExplorer.

Mehr

Kooperation: AnnotationPro & CorpusExplorer – Teil 1/2

Kooperation: AnnotationPro & CorpusExplorer – Teil 1/2

Auf die Frage einer Projektgruppe: Ob denn in naher Zukunft vorgesehen sei, dass der CorpusExplorer auch Transkription von Audio-/Video-Daten unterstützt – war meine Antwort: „Dazu fehlt leider die Zeit und das Budget“. Aber die neue Version (2.0 – aktuell Beta) unterstützt Dateiformate wie z. B. EXMARaLDA – d. h. man kann Transkripte leicht weiterverarbeiten und auswerten.
Diese Anfrage war aber der Ausgangspunkt einer Suche, die schließlich in einer sehr interessanten Kooperation mündet, von der ich jetzt berichte. Durch Zufall fand ich AnnotationPro [kostenlos] (http://annotationpro.org/), ein sehr visuelles, effizientes und vielseitiges Softwareprodukt. An dieser Stelle ein kurzes aber großes Dankeschön an Dr. Katarzyna Klessa, für die Unterstützung bei der Schnittstellenentwicklung und natürlich für AnnoationPro.
Zuerst ein Screenshot von AnnoationPro, dann ein paar wichtige FAQ (weiter unten).

2015-04-26 00_25_47-

 

FAQ

Wie funktioniert der aktuelle Austausch zwischen AnnotationPro und CorpusExplorer?

  1. Erstellen Sie einen Layer in AnnoationPro (oder benennen Sie einen bestehenden Layer um).
    Dieser Layer MUSS den Namen Text tragen (Groß- und Kleinschreibung beachten).
    Dieser Layer sollte einen möglichst fehlerfreien Text enthalten. Vermeiden Sie (soweit möglich) typische Sprach-/Transkript-Annotationen in diesem Layer (z. B. Pausen, Betonungen, Stimmlage, etc.). Dies hat den Grund, dass der CorpusExplorer aus dem Text-Layer einen durchlaufenden Fließtext erzeugt und diesen dann automatisch Annotiert. Sprach- und Transkript-Annotationen können aber nicht von den Parsern und Taggern des CorpusExplorers verarbeitet werden und erzeugen Fehler.
    Tipp: Wenn Sie dennoch Sprach-/Transkript-Annotationen mit auswerten wollen, dann ersetzen Sie die üblichen Tags durch Worte (zur besseren optischen Trennung groß- und zusammengeschrieben) – Bsp.: PAUSEKLEIN, ATMETEIN, HMMKURZ
    Bei Änderungen Speichern nicht vergessen :-)
  2. Starten Sie den „CorpusExplorer v2.0“ – klicken Sie „Mindestens ein Korpus laden“ und wählen Sie dann „Dokumente annotieren“. Ein Dialog erscheint.
  3. Wichtig: Damit Sie im Dialog die ANT-Dateien aus AnnotaionPro wählen können, müssen Sie den richtigen Dateitypen (AnnotationPro (*.ant)) auswählen – siehe Screenshot:2015-04-26 00_45_20-Program Manager
  4. Nachdem Sie den Dateityp ausgewählt haben, wählen Sie die gewünschten ANT-Dateien aus und klicken Sie abschließend auf „Öffnen“.
  5. Der CorpusExplorer fragt Sie noch ein paar Dinge, z. B. welchen Tagger Sie verwenden möchten. Sollten Sie Polnisch (Frau Dr. Klessa ist assoziiert mit der Adam Mickiewicz Universität (AMU) in Poznań, Polen) als Sprache benötigen, dann wählen Sie dies bitte über „Erweiterte Einstellungen“ aus.2015-04-26 00_52_07-CorpusExplorer

Wie wird sich die Kooperation von AnnotationPro und CorpusExplorer weiterhin auswirken?

Wir arbeiten an einem direkten Austausch beider Programme. Wie die Anleitung oben zeigt, funktioniert der Import aktuell nur in eine Richtung. Es wird angestrebt, dass auch AnnotationPro die Daten des CorpusExplorers versteht. Da beide Programme eine sehr ähnliche Programmbasis haben (beide nutzen .NET, sind C# geschrieben und können mit R kommunizieren), sind wir guter Dinge für die Realisation dieses Vorhabens.

[UPDATE: 08.06.2015]
Sie können ab jetzt auch die CorpusExplorer Datei in das ANT-Dateiformat zurückkonvertieren – [siehe hier].

Mehr

BETA 2.0: Updates, Updates, Updates….

Liebe Betatester*innen,

zuerst einmal vielen Dank für die vielen Tests, das Feedback und noch zahlreiche Ideen. Aktuell komme ich nicht dazu den Webblog zu pflegen oder die Hilfe für die Version 2.0 anzugehen, da so viele Rückmeldungen eingehen. Wahrscheinlich habt ihr es gemerkt, jedes mal wenn Ihr den CorpusExplorer v2.0 (beta) startet, erscheint der Updatedialog. Dies ist kein Fehler! – Teilweise veröffentliche ich täglich Updates. Danke nochmals, ihr seid großartig (!) und helft mit ein großartiges Produkt zu entwickeln.

Mehr

Updates 2015-03

Folgende Neuerungen (+)/Änderungen(#) gibt es im März-Release des CorpusExplorers.

Für Version 1.9:
+ Eigenes Speichermanagement
# Performance- und Stabilitätsverbesserungen

Für Version 2.0 (BETA):
+ Eigenes Speichermanagement
+ Excel-Scraper
+ TalkbankXML-Scraper
+ Tools für Softwareentwickler
+ Slash/A-Exporter
+ TwitterJSON- und yourTwapperKeeperJSON-Scraper
# Verbesserungen bei der Erstellung von Schnappschüssen
# Performance- und Stabilitätsverbesserungen

Mehr

CorpusExplorer – Miniupdate 2014/11

CorpusExplorer – Miniupdate 2014/11

Eines der letzten Updates in diesem Jahr enthält noch mal zwei neue Funktionen.

  1. Das Modul „Verschlagworten“, welches das Annotieren des Volltexts erlaubt, verfügt jetzt am unteren linken Rand über  eine neue Option „Metadaten“. Mit einem Klick klappt ein Menü aus, in dem man die Dokument-Metadaten des jeweiligen Dokuments einsehen kann.
  2. Alle Tabellen („Wörter, Lemma, POS zählen“, „N-Gramme“ und „Kookkurrenz“) verfügen über einen neuen Button „Zu Abfrage“. Dieser funktioniert wie folgt. Wählen Sie eine oder mehrere Tabellenzeilen aus (Mehrfachauswahl: Halten Sie die STRG-Taste gedrückt, während Sie auf unterschiedliche Zeilen klicken). Klicken Sie dann auf „Zu Abfrage“ (ohne gedrückte STRG-Taste). Im Suchfeld (links über der Dokumentenliste wird der erzeugte Suchausdruck automatisch eingefügt und es werden nur die Dokumente gewählt, die auf den Suchausdruck passen.
Mehr

Unterstützung eingeworben – Vielen Dank an Xamarin

Heute geht ein großes Dankeschön an die Firma Xamarin für die Unterstüzung meines Promotionsprojekts. Mit den Tools von Xamarin ist es möglich, C#-Programme auf mehrere Plattformen wie z.B. Android oder iOS zu portieren. Wie sinnvoll das ist, lässt sich jetzt noch nicht mit Bestimmtheit sagen, aber so lässt sich vieles leichter testen. Dankeschön!

Mehr

CorpusExplorer – Miniupdate 2014/10.2

Zweites Oktober-Update (10.2) für den CorpusExplorer. Was wurde geändert:

  1. Die Erkennung von Datumsangaben wurde verbessert. Dies kommt der Metadatenanalyse sehr zugute.
  2. Der unspezifische Begriff: „Kollokator“ wurde an den entsprechenden Stellen durch den passenderen Begriff „Kookkurrenz“ ersetzt um Verwirrungen zu vermeiden.  Vielen Dank an Sina Lautenschläger für den Hinweis.
Mehr

CorpusExplorer – Miniupdate 2014/09

Die September Version des CorpusExplorers enthält folgende Änderungen / Korrekturen:

  • Die Suchfunktion wurde verbessert. Die Ergebnisse werden nun noch schneller gefunden.
  • Suchanfragen können nun für Layer formuliert werden, die Sonderzeichen und/oder Leerzeichen im Namen (Layernamen) enthalten.
  • Sonstige Korrekturen (9) und Performanceverbesserungen (2).
Mehr

#LinguRätsel – Alle Lösungen

Lösungen für die #LinguRätsel

  1. Arzneimittel & Kinder
  2. Gegenmaßnahmen, Auftreten & Nebenwirkungen
  3. Arzneimittel & Arztes
  4. Risiken, Nebenwirkungen, Arzt & Apotheker
  5. Alkohol & [Arzneimittel]
  6. Nebenwirkungen, Patienten, Behandlung & [Arzneimittel]
  7. Infektionen, [Arzneimittel] & Beschwerden
  8. [Arzneimittel], Temperatur, [Arzneimittel] & Originalverpackung
Mehr

#LinguRätsel – Aufgabe: Finde die richtigen NOMEN

Heute Abend startet das erste #LinguRätsel
– ich freue mich auch über kreative Lösungen.

Kleiner Hinweis: Als Grundlage für Rätsel dient ein Korpus das aus 1000 Beipackzetteln basiert. D.h. Die Nomen stammen alle aus dem medizinisch/pharmazeutischen Bereich.

Beispiel: 
Bei anhaltenden NOMEN suche Sie bitte ihre(n) NOMEN auf.
Lösung: Beschwerden & Arzt

Die Lösungen findest Du immer am Folgetag in der neuen Aufgabe.
Treue Rater(innen) werden in einer Bestenliste geführt !YEAH!

Mehr

Textmining – Effizienz ist eine Frage des Chaos

Textmining – Effizienz ist eine Frage des Chaos

Effizienz und Chaos passen für viele Menschen nicht zusammen, für Computer manchmal schon. Der Grund, Ordnung enthält immer Redundanzen (z. B. Dopplungen). Man kann sich diese Dopplungen zunutze machen und meistens helfen Sie auch – z. B. wenn ich meinen Haustürschlüssel immer an die gleiche „redundante“ Stelle auf der Kommode im Flur lege, dann finde ich ihn schnell wieder. Heute möchte ich einen Fall präsentieren, in dem man Redundanzen möglichst vermeiden möchte. Es geht um Textmining – sprich der Analyse und Aufbereitung großer Textmengen.

Folgendes Bild zeigt einen Vergleich zwischen zwei Formaten (XML & CorpusExplorer) wie Sie im Arbeitsspeicher liegen. Die Visualisierung wurde aus einem Memory-Dump des Arbeitsspeichers erstellt.
Das zugrundegelegte Datenmaterial ist bei beiden identisch, es handelt sich um 1’000 zufällig ausgewählte Texte (weitere Metriken: 29’311 Sätze – 747’916 Tokens).

Dateiformate im Vergleich (links XML / rechts CorpusExplorer)

Links: XML-Dokumente
Rechts: Das neue CorpusExplorer-Dateiformat

Was man auf dem Bild sehr gut erkennt, die XML-Daten sind größtenteils sehr gut strukturiert, man erkennt bestimmte wiederkehrende Muster. Auch sieht man sowohl oben als auch in der Mitte Sequenzen, die chaotisch organisiert sind, also kein Muster aufweisen. Rechts ist das neue CorpusExplorer-Dateiformat zu sehen, hier erkennt man keine Regelmäßigkeiten oder Muster – was ein wenig an die Zeiten der guten alten TV-Zimmerantenne erinnert.

Sicherlich ist es von Vorteil Daten zu strukturieren und sicherlich ist XML eine sehr gute Möglichkeit, um dies zu bewerkstelligen. Der CorpusExplorer strukturiert die Daten ebenfalls, aber ohne dabei einen immensen Berg an Redundanzen zu produzieren. Das Credo lautet also: kleiner Datenberg – höhere Geschwindigkeit der Analyse. Das oben gezeigt Bild ist nicht ganz fair, es benachteiligt den CorpusExplorer, da es so aussieht als wären die Daten des CorpusExplorers gleich groß und nur chaotisch. Das folgende Bild zeigt die Speichervisualisierung ohne Skalierung:

 

Ohne Skalierung

Der Vorteil gegenüber XML ist deutlich messbar, um ca. Faktor 300 kleiner Dateien – sowie eine zehnfach besser Analyseperformance. Es zeigt sich also, man kann mit Optimierungen einiges erreichen. Mehr über das neue CorpusExplorer-Format sowie Optimierungsideen für eigene Projekte in Kürze hier im Blog … comming soon

Mehr

CorpusExplorer – Miniupdate 2014/07

CorpusExplorer – Miniupdate 2014/07

Die Juli Version des CorpusExplorers enthält folgende Änderungen / Korrekturen

  • Modulbezeichnungen wurden korrigiert.
  • Unter bestimmten Umständen konnte es vorkommen, dass der Korpusname nicht korrekt angezeigt wurde.
  • Unter bestimmten Umständen konnte es vorkommen, dass ein neu erstelltes Korpus nicht richtig angelegt wurde. Die Layer-Dateien befanden sich im Quellordner.
  • Das alte Layer-Format wird ab dieser Version unterdrückt und erscheinen daher nicht mehr in der Auswahl der bereits verfügbaren Korpora. Hintergrund: Diese Option wurde aktiviert um Nutzer des alten Layer-1.0-Formats auf die bevorstehende Umstellung des kommende Layer-5.0-Formats vorzubereiten. Workaround: Diese Einstellung kann über das Einstellungs-Zahnrad in der Korpus-Spalte geändert werden. Entfernen Sie den Haken bei „CE-Layerversion 2.0“ (siehe Screenshot). Ausblick: Sie werden auch in Zukunft die Layer-1.0-Versionen im CorpusExplorer nutzen können, die Konvertierung dauert nur sehr lange, daher werden ab jetzt alle Layer-1.0-Formate blockiert, eine Ausweitung auf Layer-2.0 bis Layer-4.0 ist Anfang 2015 geplant.

Mehr

Folge mir auf Twitter