Was ist neu im Oktober Release des CorpusExplorers?

  • Neue Scraper für EPUB, DSpin-XML & PDF.
  • Neuer Scraper „Auf gut Glück!“ – versucht aus allen Dateien den größtmöglichen Textinhalt zu extrahieren.
  • Mengenoperationen für Schnappschüsse (inner/outer join, diff).
  • Berechnung der Textähnlichkeit wurde verbessert und beschleunigt.
  • Exporter für DSpin-XML – erlaubt die Anbindung von Slash/A.
  • Serialisierung erfolgt nun ausschließlich mit dem .NET BinaryFormatter – Tests mit XML, JSON, ProtocolBuffer sowie MessagePack verliefen wenig erfolgreich.
  • Korpora und Projekte werden ab 2,5 Mio. Token nicht mehr komprimiert um die Daten schneller schreiben zu können. Komprimieren spart zwar Festplattenplatz, kostet aber Zeit. Wer möchte, kann die Dateien mit GZIP selbst nachträglich komprimieren – z.B. mit dem kostenfreien 7-ZIP.

Hinweis: Da es in diesem Release zu Änderungen an der Dateistruktur kommt, wurde größte Sorgfalt darauf verwendet, dass alle alten Dateien (Projekt/Korpora) weiterhin funktionieren. Der CorpusExplorer erkennt den Inhalt einer CEC5 bzw. PROJ5 Datei und schaltet dann in den entsprechenden Kompatibilitäts-Modus.