CorpusExplorer v2.0 – November Update

Das November Update ist unscheinbar. Eine wichtige aber für Nutzer*innen vorerst unsichtbare Änderung:

Der CorpusExplorer kann ab jetzt für viele verschiedene Datenformate genutzt werden (kein Import nötig). Dank Adapter-Pattern (Insider für OOP-Entwickler*innen). Die aktuelle Insider-Edition enthält bereits diese Funktion und wird zeitgleich mit dem neuen CEFS-Format ausgestattet.

Was ist CEFS?
CEFS ist das CorpusExplorer-FileSystem – ein neuartiges Korpusformat für (fast) unbegrenzt große Korpora.

Warum nur (fast)?
Das (fast) bezieht sich auf zwei Grenzen:

  1. Es können max. 2,1 Milliarden Layerwerte (Types) gespeichert werden.
  2. Es gibt eine Grenze an Token, diese ist definiert durch die Größe des verfügbaren Festplattenspeichers.

Wird CEFS das CEC5-Format ablösen?
Nein! – CEC5 ist eine In-Memory-Technik und beide Formate werden gleichberechtigt existieren.

Unterschiede CEFS / CEC5?

  • CEC5 eignet sich für kleine/mittlere Korpora – Regel Arbeitsspeicher in GB * 1 Mio. Token. Also auf aktuellen PCs (8 GB RAM) sind ca. 8 Mio. Token möglich.
  • CEFS für mittlere/große Korpora – Also für alle Korpora die über das CEC5-Limmit hinausgehen.

Wann wird CEFS für Standard-Nutzer verfügbar sein?
Der Insider-Test läuft noch bis 15.02.2016 – Das erste darauf folgende Release wird dann CEFS für alle verfügbar machen.

Wo finde ich CEFS?
Annotieren oder Importieren Sie Korpora und unterstützt der Tagger/Importer CEFS, dann wird Ihnen eine Auswahl zwischen CEC5 (Standardformat) und CEFS angezeigt – Aktueller Screenshot:

CEFS