Eigentlich hatte ich das Update für das Q2 2022 erst für Mai 2022 geplant. Es wird auch ein Mai-Update geben, denn traditionell gibt es im Q2/Mai eines jeden Jahres das größte Update. Trotzdem haben sich jetzt einige Aktualisierungen und Korrekturen angesammelt – daher gibt es jetzt schon ein Update. Folgendes wurde geändert, verbessert oder ergänzt:
Neuerungen:
- Das Standardkompressionsverfahren wurde von GZip auf LZ4 umgestellt. Komprimierte Korpora haben damit eine neue Endung.
- Unkomprimierte Korpora enden auf: .cec6
- Komprimierte (GZip) Korpora enden auf: .cec6.gz
- Komprimierte (LZ4) Korpora enden auf: .cec6.lz4
Fragen / Antworten:
- Frage: Was ändert sich für normale Nutzer*innen?
Antwort: nichts - Frage: Ich verteile über den CorpusExplorer eigene Korpora (z. B. an Studierende), muss ich etwas ändern?
Antwort: Nein, die Verteilung läuft weiterhin mit GZip. Bitte die Korpora nicht mit LZ4 ‚verteilen‘ – dies wird evtl. später realisiert und es wird (falls nötig) dann Tools dafür geben. GZip-Korpora sind meist etwas kleiner als LZ4-Korpora. - Frage: Warum ein neues Kompressionsverfahren?
Antwort: LZ4 ist wesentlich schneller als GZip. D. h. in der Regel lassen sich Korpora die mit LZ4 komprimiert wurden sogar schneller einlesen (durch das Caching und die Deserialisierung im Arbeitsspeicher) als unkomprimierte Korpora. GZip ist etwas effizienter was die Kompressionsrate (Dateigröße) angehet (ca. 5-10%) aber dafür verlangsamt die Kompression Lese-/Schreibzugriffe.
- Frage: Was ändert sich für normale Nutzer*innen?
- Erster (beta) Export für das KorAP-Dateiformat.
- Neuer Scraper für Nexis(uni)
Bitte beachten Sie: Sie sind für die Einhaltung der Nutzungsbedingungen von Nexis selbst verantwortlich.
Daten müssen wie folgt exportiert werden:- Wählen Sie bis zu 100 Dokumente aus.
- Exportieren Sie diese Dokumente mit folgenden Einstellungen:
- Dateiformat: MS Word (docx)
- Dokumente als separate Datei speichern
- Die ZIP-Datei kann dann eingelesen werden (Dokumente annotieren > Dateiformat „Nexis/uni“ ab 2019).
- Erste (beta) Implementierung eines DRM-Systems. Zur sicheren Verteilung rechtlich geschützter Korpora.
- Neue Start-Option. Mit dem Parameter –no-browser kann der integrierte WebBrowser deaktiviert werden. Dies hat im wesentlichen zwei Vorteile: (1) Es kann auf leistungsschwachen Systemen Arbeitsspeicher einsparen (ca. 100-500 MB RAM) und (B) wird der CorpusExplorer auf Linux/MacOS mit WINE oder CrossOver gestartet, dann funktioniert der integrierte WebBrowser nicht (zu stark optimiert) und es kommt zu Fehlermeldungen. Ist der integrierte WebBrowser deaktiviert, werden alle Visualisierungen im Standardbrowser des Betriebssystems angezeigt – damit können die Visualisierungen, die WebBrowser abhängig sind, jetzt auch unter Linux/MacOS genutzt werden.
- Neuer Import für OpusXCES-Dateien.
- Neue Befehle für die CorpusExplorer-Console:
- size – gibt pro Dokument die Anzahl der Sätze und Token zurück.
- cooccurrence-polarisation – Erlaubt es eine Kookkurrenz-Polarisation durchzuführen, ähnlich der Analyse „Kookkurrenzen“ > „Oppositionswörter“.
Korrekturen / Probleme behoben:
- Ein großes Dankeschön geht an Vera-Andreea Talpos von der Universität Münster. Sie hat einen Fehler sehr detailliert untersucht und berichtet, der dazu führt, dass im Analysemodul „Kookkurrenzen > Tabelle“ keine Belege angezeigt werden. Der Fehler ging auf fehlende Selektion zurück und scheint beim letzten Update reingerutscht zu sein. Danke für das Reporting – der Fehler ist jetzt beseitigt.
- Verbesserter Import und Export für SketchEngine™ (siehe Q1 2022 – SP1)
- Verbesserung: ImageBuilder (Installationsprogramm) für Linux/MacOS.
- Vereinfachte Implementierung des WebBrowsers – zuständig für verschiedene Visualisierungen im CorpusExplorer. Der WebBrowser basiert auf der Version 100 von Chromium.
Weitere kleinere Verbesserungen und Neuerungen