Das erste Update 2017 bringt hauptsächlich Neuerungen ‚unter der Haube‘ – es ist also eher funktional. Dafür bereitet es den Weg für neue Analysemöglichkeiten, die 2017 folgen werden. Die wichtigste Hauptfunktion ist das komplett neu entwickelte Dateiformat CEC6 (CorpusExplorerCorpus v6.0). Es hat gegenüber der Version 5.0 folgende Vorteile:
- Höhere Performance bei einigen Analysen.
- Wesentlich schnelleres Laden/Speichern von sehr großen Korpora
- Ab ca. 15 Mio. Token oder 50’000 Dokumenten bricht die Performance der alten 5.0 Version spürbar ein, da sehr viel Arbeitsspeicher mehrfach beschrieben/freigegeben werden musste um das CEC5-Korpus vollständig zu laden/speichern. Dieses Problem ist in Version 6.0 beseitigt.
- Das Format ist kompatibel zu unterschiedlichen Plattformen, dank MONO
- Die Arbeitsspeicherausbeute wurde verbessert pro 1 GB RAM können ca. 30 Mio. Token gespeichert werden.
Hinweis: Das neue CEC6-Format kann ab jetzt genutzt werden. Aktuell ist noch das CEC5-Format die Standardeinstellung – dies wird sich im Laufe des Jahres ändern. Ein kleiner Nachteil des neuen CEC6-Formats liegt darin, dass die Daten binär-codiert sind. D.h. man kann die Daten nicht mehr manuell oder mit anderen Programmen auslesen. Mittlerweile verfügt der CorpusExplorer aber über eine gute Anzahl an Export-Formaten, so dass es jederzeit möglich ist, die Daten zu exportieren (z. B. in XML, JSON, DTA-Basisformat, Weblicht, usw.).
- Kleinere Verbesserungen: Die Bereinigungsfunktion wurde verbessert. So ist es jetzt auch möglich osteuropäische Sprachdaten zu laden (diese wurden zuvor extrem bereinigt). Ein positiver Nebeneffekt der Korrektur: Der Annotationsprozess wurde beschleunigt.
- Das Modul „PaperLinguist“ hat einen komplett neuen Unterbau erhalten, der die Generierung von Reports beschleunigt.