Artikel getaggt mit "Annotieren"

CorpusExplorer v2.0 – November Update

CorpusExplorer v2.0 – November Update

Das November Update ist unscheinbar. Eine wichtige aber für Nutzer*innen vorerst unsichtbare Änderung:

Der CorpusExplorer kann ab jetzt für viele verschiedene Datenformate genutzt werden (kein Import nötig). Dank Adapter-Pattern (Insider für OOP-Entwickler*innen). Die aktuelle Insider-Edition enthält bereits diese Funktion und wird zeitgleich mit dem neuen CEFS-Format ausgestattet.

Was ist CEFS?
CEFS ist das CorpusExplorer-FileSystem – ein neuartiges Korpusformat für (fast) unbegrenzt große Korpora.

Warum nur (fast)?
Das (fast) bezieht sich auf zwei Grenzen:

  1. Es können max. 2,1 Milliarden Layerwerte (Types) gespeichert werden.
  2. Es gibt eine Grenze an Token, diese ist definiert durch die Größe des verfügbaren Festplattenspeichers.

Wird CEFS das CEC5-Format ablösen?
Nein! – CEC5 ist eine In-Memory-Technik und beide Formate werden gleichberechtigt existieren.

Unterschiede CEFS / CEC5?

  • CEC5 eignet sich für kleine/mittlere Korpora – Regel Arbeitsspeicher in GB * 1 Mio. Token. Also auf aktuellen PCs (8 GB RAM) sind ca. 8 Mio. Token möglich.
  • CEFS für mittlere/große Korpora – Also für alle Korpora die über das CEC5-Limmit hinausgehen.

Wann wird CEFS für Standard-Nutzer verfügbar sein?
Der Insider-Test läuft noch bis 15.02.2016 – Das erste darauf folgende Release wird dann CEFS für alle verfügbar machen.

Wo finde ich CEFS?
Annotieren oder Importieren Sie Korpora und unterstützt der Tagger/Importer CEFS, dann wird Ihnen eine Auswahl zwischen CEC5 (Standardformat) und CEFS angezeigt – Aktueller Screenshot:

CEFS

Mehr

Kooperation: AnnotationPro & CorpusExplorer – Teil 1/2

Kooperation: AnnotationPro & CorpusExplorer – Teil 1/2

Auf die Frage einer Projektgruppe: Ob denn in naher Zukunft vorgesehen sei, dass der CorpusExplorer auch Transkription von Audio-/Video-Daten unterstützt – war meine Antwort: „Dazu fehlt leider die Zeit und das Budget“. Aber die neue Version (2.0 – aktuell Beta) unterstützt Dateiformate wie z. B. EXMARaLDA – d. h. man kann Transkripte leicht weiterverarbeiten und auswerten.
Diese Anfrage war aber der Ausgangspunkt einer Suche, die schließlich in einer sehr interessanten Kooperation mündet, von der ich jetzt berichte. Durch Zufall fand ich AnnotationPro [kostenlos] (http://annotationpro.org/), ein sehr visuelles, effizientes und vielseitiges Softwareprodukt. An dieser Stelle ein kurzes aber großes Dankeschön an Dr. Katarzyna Klessa, für die Unterstützung bei der Schnittstellenentwicklung und natürlich für AnnoationPro.
Zuerst ein Screenshot von AnnoationPro, dann ein paar wichtige FAQ (weiter unten).

2015-04-26 00_25_47-

 

FAQ

Wie funktioniert der aktuelle Austausch zwischen AnnotationPro und CorpusExplorer?

  1. Erstellen Sie einen Layer in AnnoationPro (oder benennen Sie einen bestehenden Layer um).
    Dieser Layer MUSS den Namen Text tragen (Groß- und Kleinschreibung beachten).
    Dieser Layer sollte einen möglichst fehlerfreien Text enthalten. Vermeiden Sie (soweit möglich) typische Sprach-/Transkript-Annotationen in diesem Layer (z. B. Pausen, Betonungen, Stimmlage, etc.). Dies hat den Grund, dass der CorpusExplorer aus dem Text-Layer einen durchlaufenden Fließtext erzeugt und diesen dann automatisch Annotiert. Sprach- und Transkript-Annotationen können aber nicht von den Parsern und Taggern des CorpusExplorers verarbeitet werden und erzeugen Fehler.
    Tipp: Wenn Sie dennoch Sprach-/Transkript-Annotationen mit auswerten wollen, dann ersetzen Sie die üblichen Tags durch Worte (zur besseren optischen Trennung groß- und zusammengeschrieben) – Bsp.: PAUSEKLEIN, ATMETEIN, HMMKURZ
    Bei Änderungen Speichern nicht vergessen :-)
  2. Starten Sie den „CorpusExplorer v2.0“ – klicken Sie „Mindestens ein Korpus laden“ und wählen Sie dann „Dokumente annotieren“. Ein Dialog erscheint.
  3. Wichtig: Damit Sie im Dialog die ANT-Dateien aus AnnotaionPro wählen können, müssen Sie den richtigen Dateitypen (AnnotationPro (*.ant)) auswählen – siehe Screenshot:2015-04-26 00_45_20-Program Manager
  4. Nachdem Sie den Dateityp ausgewählt haben, wählen Sie die gewünschten ANT-Dateien aus und klicken Sie abschließend auf „Öffnen“.
  5. Der CorpusExplorer fragt Sie noch ein paar Dinge, z. B. welchen Tagger Sie verwenden möchten. Sollten Sie Polnisch (Frau Dr. Klessa ist assoziiert mit der Adam Mickiewicz Universität (AMU) in Poznań, Polen) als Sprache benötigen, dann wählen Sie dies bitte über „Erweiterte Einstellungen“ aus.2015-04-26 00_52_07-CorpusExplorer

Wie wird sich die Kooperation von AnnotationPro und CorpusExplorer weiterhin auswirken?

Wir arbeiten an einem direkten Austausch beider Programme. Wie die Anleitung oben zeigt, funktioniert der Import aktuell nur in eine Richtung. Es wird angestrebt, dass auch AnnotationPro die Daten des CorpusExplorers versteht. Da beide Programme eine sehr ähnliche Programmbasis haben (beide nutzen .NET, sind C# geschrieben und können mit R kommunizieren), sind wir guter Dinge für die Realisation dieses Vorhabens.

[UPDATE: 08.06.2015]
Sie können ab jetzt auch die CorpusExplorer Datei in das ANT-Dateiformat zurückkonvertieren – [siehe hier].

Mehr

CorpusExplorer – Miniupdate 2014/11

CorpusExplorer – Miniupdate 2014/11

Eines der letzten Updates in diesem Jahr enthält noch mal zwei neue Funktionen.

  1. Das Modul „Verschlagworten“, welches das Annotieren des Volltexts erlaubt, verfügt jetzt am unteren linken Rand über  eine neue Option „Metadaten“. Mit einem Klick klappt ein Menü aus, in dem man die Dokument-Metadaten des jeweiligen Dokuments einsehen kann.
  2. Alle Tabellen („Wörter, Lemma, POS zählen“, „N-Gramme“ und „Kookkurrenz“) verfügen über einen neuen Button „Zu Abfrage“. Dieser funktioniert wie folgt. Wählen Sie eine oder mehrere Tabellenzeilen aus (Mehrfachauswahl: Halten Sie die STRG-Taste gedrückt, während Sie auf unterschiedliche Zeilen klicken). Klicken Sie dann auf „Zu Abfrage“ (ohne gedrückte STRG-Taste). Im Suchfeld (links über der Dokumentenliste wird der erzeugte Suchausdruck automatisch eingefügt und es werden nur die Dokumente gewählt, die auf den Suchausdruck passen.
Mehr

CorpusExplorer (Hilfe-Video): Annotieren

Hinweis: Ab dem „Juni 2014 Release“ ist es vorübergehend nicht möglich die Annotation zu ändern. Dieses Problem wird bis September 2014 behoben.

Der CorpusExplorer nutzt den TreeTagger von Helmut Schmid zur automatisch Textannotierung. Nachträgliche Korrekturen sind mit dem CorpusExplorer problemlos möglich, auch das Hinterlegen eigener Annotationen ist ein Kinderspiel.
Die Datenlayer genannten Schichten ermöglichen ein sauber getrenntes und thematisch organisiertes Arbeiten.

Mehr

Folge mir auf Twitter