Artikel getaggt mit "Korpus"

CloneDetection

CloneDetection

Egal ob Tweets oder Zeitungsartikel – viele Korpora enthalten Textsorten, die per se zu Duplikaten neigen. Der CorpusExplorer kann jetzt diese automatisch entfernen. Laden Sie ein Korpus. Rufen Sie die Schnappschuss-Detailansicht auf und klicken Sie auf AntiClone.

Hinweis: Aktuell ist diese Funktion nur für kleinere Schnappschüsse geeignet (bis 1 Mio. Token). Für Q1 2016 ist bereits ein Speed-Update geplant.

Clone-Detection

Mehr

Kooperation: AnnotationPro & CorpusExplorer – Teil 1/2

Kooperation: AnnotationPro & CorpusExplorer – Teil 1/2

Auf die Frage einer Projektgruppe: Ob denn in naher Zukunft vorgesehen sei, dass der CorpusExplorer auch Transkription von Audio-/Video-Daten unterstützt – war meine Antwort: „Dazu fehlt leider die Zeit und das Budget“. Aber die neue Version (2.0 – aktuell Beta) unterstützt Dateiformate wie z. B. EXMARaLDA – d. h. man kann Transkripte leicht weiterverarbeiten und auswerten.
Diese Anfrage war aber der Ausgangspunkt einer Suche, die schließlich in einer sehr interessanten Kooperation mündet, von der ich jetzt berichte. Durch Zufall fand ich AnnotationPro [kostenlos] (http://annotationpro.org/), ein sehr visuelles, effizientes und vielseitiges Softwareprodukt. An dieser Stelle ein kurzes aber großes Dankeschön an Dr. Katarzyna Klessa, für die Unterstützung bei der Schnittstellenentwicklung und natürlich für AnnoationPro.
Zuerst ein Screenshot von AnnoationPro, dann ein paar wichtige FAQ (weiter unten).

2015-04-26 00_25_47-

 

FAQ

Wie funktioniert der aktuelle Austausch zwischen AnnotationPro und CorpusExplorer?

  1. Erstellen Sie einen Layer in AnnoationPro (oder benennen Sie einen bestehenden Layer um).
    Dieser Layer MUSS den Namen Text tragen (Groß- und Kleinschreibung beachten).
    Dieser Layer sollte einen möglichst fehlerfreien Text enthalten. Vermeiden Sie (soweit möglich) typische Sprach-/Transkript-Annotationen in diesem Layer (z. B. Pausen, Betonungen, Stimmlage, etc.). Dies hat den Grund, dass der CorpusExplorer aus dem Text-Layer einen durchlaufenden Fließtext erzeugt und diesen dann automatisch Annotiert. Sprach- und Transkript-Annotationen können aber nicht von den Parsern und Taggern des CorpusExplorers verarbeitet werden und erzeugen Fehler.
    Tipp: Wenn Sie dennoch Sprach-/Transkript-Annotationen mit auswerten wollen, dann ersetzen Sie die üblichen Tags durch Worte (zur besseren optischen Trennung groß- und zusammengeschrieben) – Bsp.: PAUSEKLEIN, ATMETEIN, HMMKURZ
    Bei Änderungen Speichern nicht vergessen :-)
  2. Starten Sie den „CorpusExplorer v2.0“ – klicken Sie „Mindestens ein Korpus laden“ und wählen Sie dann „Dokumente annotieren“. Ein Dialog erscheint.
  3. Wichtig: Damit Sie im Dialog die ANT-Dateien aus AnnotaionPro wählen können, müssen Sie den richtigen Dateitypen (AnnotationPro (*.ant)) auswählen – siehe Screenshot:2015-04-26 00_45_20-Program Manager
  4. Nachdem Sie den Dateityp ausgewählt haben, wählen Sie die gewünschten ANT-Dateien aus und klicken Sie abschließend auf „Öffnen“.
  5. Der CorpusExplorer fragt Sie noch ein paar Dinge, z. B. welchen Tagger Sie verwenden möchten. Sollten Sie Polnisch (Frau Dr. Klessa ist assoziiert mit der Adam Mickiewicz Universität (AMU) in Poznań, Polen) als Sprache benötigen, dann wählen Sie dies bitte über „Erweiterte Einstellungen“ aus.2015-04-26 00_52_07-CorpusExplorer

Wie wird sich die Kooperation von AnnotationPro und CorpusExplorer weiterhin auswirken?

Wir arbeiten an einem direkten Austausch beider Programme. Wie die Anleitung oben zeigt, funktioniert der Import aktuell nur in eine Richtung. Es wird angestrebt, dass auch AnnotationPro die Daten des CorpusExplorers versteht. Da beide Programme eine sehr ähnliche Programmbasis haben (beide nutzen .NET, sind C# geschrieben und können mit R kommunizieren), sind wir guter Dinge für die Realisation dieses Vorhabens.

[UPDATE: 08.06.2015]
Sie können ab jetzt auch die CorpusExplorer Datei in das ANT-Dateiformat zurückkonvertieren – [siehe hier].

Mehr

Pressemitteilung: Herzog August Bibliothek Wolfenbüttel

Pressemitteilung der Herzog August Bibliothek Wolfenbüttel vom 23.05.2013:

„Die Digitalisate der Herzog August Bibliothek können ab sofort auf der Grundlage neueroffener Lizenzen, sogenannter Creative Commons Lizenzen, genutzt werden.Voraussetzung ist nur, dass die Quelle genannt wird und die Digitalisate unter gleichen Bedingungen weitergeben werden. Creative Commons Lizenzen legen die rechtlichen Bedingungen für die Veröffentlichung und Verbreitung digitaler Medieninhalte fest. Auf
diese Weise werden rechtliche Schranken verringert und die freie Nachnutzung von digitalen Werken im Internet erleichtert.“ [Vollständige Pressemitteilung]

Mehr

CorpusExplorer (Hilfe-Video): Ein bestehendes Korpus laden

Seit 2014/06 – Gibt es eine kleine Änderung im Ablauf dieses Videos. [Bitte lesen Sie dazu diesen Hinweis].

Haben Sie einmal ein Korpus erzeugt/umgewandelt so können Sie es jederzeit wieder im CorpusExplorer laden, ohne es erneut zu taggen. Alle je erzeugten Korpora werden in ihren „Eigenen Dokumenten“ unter „CorpusExplorer/MeineKorpora“ abgelegt.

Mehr

Folge mir auf Twitter