Artikel getaggt mit "[Ste07]"

CorpusExplorer v2.0 – Oktober Release

Was ist neu im Oktober Release des CorpusExplorers?

  • Neue Scraper für EPUB, DSpin-XML & PDF.
  • Neuer Scraper „Auf gut Glück!“ – versucht aus allen Dateien den größtmöglichen Textinhalt zu extrahieren.
  • Mengenoperationen für Schnappschüsse (inner/outer join, diff).
  • Berechnung der Textähnlichkeit wurde verbessert und beschleunigt.
  • Exporter für DSpin-XML – erlaubt die Anbindung von Slash/A.
  • Serialisierung erfolgt nun ausschließlich mit dem .NET BinaryFormatter – Tests mit XML, JSON, ProtocolBuffer sowie MessagePack verliefen wenig erfolgreich.
  • Korpora und Projekte werden ab 2,5 Mio. Token nicht mehr komprimiert um die Daten schneller schreiben zu können. Komprimieren spart zwar Festplattenplatz, kostet aber Zeit. Wer möchte, kann die Dateien mit GZIP selbst nachträglich komprimieren – z.B. mit dem kostenfreien 7-ZIP.

Hinweis: Da es in diesem Release zu Änderungen an der Dateistruktur kommt, wurde größte Sorgfalt darauf verwendet, dass alle alten Dateien (Projekt/Korpora) weiterhin funktionieren. Der CorpusExplorer erkennt den Inhalt einer CEC5 bzw. PROJ5 Datei und schaltet dann in den entsprechenden Kompatibilitäts-Modus.

Mehr

Kooperation: AnnotationPro & CorpusExplorer – Teil 2/2

Kooperation: AnnotationPro & CorpusExplorer – Teil 2/2

Wie in [diesem Artikel] angekündigt, gibt es jetzt eine Im-/Exporter für AnnotationPro und CorpusExplorer, der in beide Richtungen funktioniert. Bisher konnten ANT-Dateien im CorpusExplorer eingelesen werden. Jetzt können die Daten auch wieder an AnnotationPro zurück übermittelt werden.
AnnotationPro

Dazu installieren Sie bitte folgendes Programm:AnnotationPro <> CorpusExplorer

Nach dem Start können Sie wählen, in welche Richtung Sie eine Datei konvertieren wollen.
Wichtig: Für die Nutzung ist die Installation des CorpusExplorers v2.0 erforderlich.
Tipp: Das Programm stellt für den Weg AnnotationPro > CorpusExplorer nur den TreeTagger sowie dessen Sprachmodelle zur Verfügung. Wenn Sie mehr Option benötigen, dann importieren Sie die ANT-Datei wie bisher direkt über den CorpusExplorer.

Mehr

Folge mir auf Twitter