CorpusExplorer (Update Q4 2024)

So, das letzte Update für dieses Jahr. Ich wünsche euch schon einmal frohe Feiertage und einen guten Start ins Jahr 2025. Folgende Neuerungen / Änderungen und Verbesserungen gibt es:

Salt-XML kann jetzt direkt importiert werden. Eine Installation von Salt&Pepper (Addon) ist dafür nicht mehr nötig. Das Addon wird es aber weiterhin geben, da es Transformationen und Importe aus anderen Formaten ermöglicht.
Alle Komponenten setzen jetzt das .NET-Framework 4.8 voraus. Unnötige Abhängigkeiten wurden entfernt und der Code wurde bereinigt.
(Teilweise) Unterstützung von DraCor-XML. Leider sind die XML-Daten sehr unterschiedlich, sodass eine vollständige Unterstützung noch etwas dauert.
TreeTagger-Anpassung. Weiterhin wird der TreeTagger als Standard ausgeliefert (an der Stelle erneut ein großes Dankeschön an Helmut Schmid). Die Sprachen Deutsch, Englisch, Französisch, Italienisch, Spanisch, Niederländisch und Polnisch gehören zu den Standardsprachen. Der TreeTagger entwickelt sich aber wie der CorpusExplorer immer weiter. So gibt es mittlerweile eine Reihe von neuen Sprachen. Aktuell können diese manuell nachinstalliert werden (Anleitung auf Anfrage) – ich plane aber für kommendes Jahr eine automatische (bedarfsabhängige und automatische) Installation.
Es gibt neue Consolen-Befehle:
- frequency1-per-document – zählt die Token-Frequenz auf einem Layer pro Dokument.
- frequency1-per-sentence- zählt die Token-Frequenz auf einem Layer pro Satz.
- crossfrequency-select – zählt die Kreuz-Frequenz für einen gegebenen Begriff.
- crossfrequency-select-range – zählt die Kreuz-Frequenz für einen gegebenen Begriff innerhalb eines Range (Token vor/nach Begriff).
- burrows-delta – Berechnet Burrows-Delta.
- cooccurrence-classic – Der CorpusExplorer berechnet Kookkurrenzen innerhalb eines Satzes. Mit diesem Befehl ist es möglich, Kookkurrenzen wie bei alternativer Software üblich innerhalb eines Range (Token vor/nach Suchbegriff) zu berechnen.
- cooccurrence-diversity – Berechnet die Diversität der Kookkurrenzen.
- corpus-fsm – Erstellt eine Finite-State-Machine für ein Korpus bzw. dessen Metadaten. z. B. um im Zeitverlauf Autor*innen zu identifizieren, die für einen oder mehrere Verlage arbeiten.
- ngram-char – Berechnet N-Gramme auf Zeichen-Level.
- reading-ease – Berechnet Lesbarkeitsmetriken.
- skipgram – Berechnet ein Skipgram-Modell.
- term-documet-matrix – Berechnet eine Term-Dokumenten-Matrix
Fehler behoben: Bei einigen CorpusExplorer-Installationen wurden die verfügbaren Addons und „direkt verfügbare Korpora“ nicht korrekt angezeigt. Der Fehler wurde behoben. Evtl. braucht es einen Neustart nach dem Update.
Fehlerkorrekturen und allgemeine Verbesserungen.

Archiv

Schlagwörter