Das November Update ist unscheinbar. Eine wichtige aber für Nutzer*innen vorerst unsichtbare Änderung:

    Der CorpusExplorer kann ab jetzt für viele verschiedene Datenformate genutzt werden (kein Import nötig). Dank Adapter-Pattern (Insider für OOP-Entwickler*innen). Die aktuelle Insider-Edition enthält bereits diese Funktion und wird zeitgleich mit dem neuen CEFS-Format ausgestattet.

    Was ist CEFS?
    CEFS ist das CorpusExplorer-FileSystem – ein neuartiges Korpusformat für (fast) unbegrenzt große Korpora.

    Warum nur (fast)?
    Das (fast) bezieht sich auf zwei Grenzen:

    1. Es können max. 2,1 Milliarden Layerwerte (Types) gespeichert werden.
    2. Es gibt eine Grenze an Token, diese ist definiert durch die Größe des verfügbaren Festplattenspeichers.

    Wird CEFS das CEC5-Format ablösen?
    Nein! – CEC5 ist eine In-Memory-Technik und beide Formate werden gleichberechtigt existieren.

    Unterschiede CEFS / CEC5?

    • CEC5 eignet sich für kleine/mittlere Korpora – Regel Arbeitsspeicher in GB * 1 Mio. Token. Also auf aktuellen PCs (8 GB RAM) sind ca. 8 Mio. Token möglich.
    • CEFS für mittlere/große Korpora – Also für alle Korpora die über das CEC5-Limmit hinausgehen.

    Wann wird CEFS für Standard-Nutzer verfügbar sein?
    Der Insider-Test läuft noch bis 15.02.2016 – Das erste darauf folgende Release wird dann CEFS für alle verfügbar machen.

    Wo finde ich CEFS?
    Annotieren oder Importieren Sie Korpora und unterstützt der Tagger/Importer CEFS, dann wird Ihnen eine Auswahl zwischen CEC5 (Standardformat) und CEFS angezeigt – Aktueller Screenshot:

    CEFS