Das November Update ist unscheinbar. Eine wichtige aber für Nutzer*innen vorerst unsichtbare Änderung:
Der CorpusExplorer kann ab jetzt für viele verschiedene Datenformate genutzt werden (kein Import nötig). Dank Adapter-Pattern (Insider für OOP-Entwickler*innen). Die aktuelle Insider-Edition enthält bereits diese Funktion und wird zeitgleich mit dem neuen CEFS-Format ausgestattet.
Was ist CEFS?
CEFS ist das CorpusExplorer-FileSystem – ein neuartiges Korpusformat für (fast) unbegrenzt große Korpora.
Warum nur (fast)?
Das (fast) bezieht sich auf zwei Grenzen:
- Es können max. 2,1 Milliarden Layerwerte (Types) gespeichert werden.
- Es gibt eine Grenze an Token, diese ist definiert durch die Größe des verfügbaren Festplattenspeichers.
Wird CEFS das CEC5-Format ablösen?
Nein! – CEC5 ist eine In-Memory-Technik und beide Formate werden gleichberechtigt existieren.
Unterschiede CEFS / CEC5?
- CEC5 eignet sich für kleine/mittlere Korpora – Regel Arbeitsspeicher in GB * 1 Mio. Token. Also auf aktuellen PCs (8 GB RAM) sind ca. 8 Mio. Token möglich.
- CEFS für mittlere/große Korpora – Also für alle Korpora die über das CEC5-Limmit hinausgehen.
Wann wird CEFS für Standard-Nutzer verfügbar sein?
Der Insider-Test läuft noch bis 15.02.2016 – Das erste darauf folgende Release wird dann CEFS für alle verfügbar machen.
Wo finde ich CEFS?
Annotieren oder Importieren Sie Korpora und unterstützt der Tagger/Importer CEFS, dann wird Ihnen eine Auswahl zwischen CEC5 (Standardformat) und CEFS angezeigt – Aktueller Screenshot: