CorpusExplorer – Ein Programm, das aus meiner Magisterarbeit erwachsen ist und im aktuellen Promotionsprojekt weiterentwickelt wird. Der CorpusExplorer vereint eine Vielzahl bekannter computer-/korpuslinguistischer Tools. Er vereinfacht das Arbeiten mit großen Textmengen und erlaubt es, Korpora als Wissensquelle neu zu entdecken … Das Ziel: Sprache und Technik ein Stück näher zusammenzubringen.
CorpusExplorer (Update Q3 2019)
Das Q3 2019 Update des CorpusExplorers bringt folgende Neuerungen und Verbesserungen:
Neue Funktionen:
Neue Formate:
FoLiA XML
RSS Feeds
Speedy (Import/Export) – Danke an/Thanks to: Iian Neill & Andreas Kuczera
YouTube JSON
Wiktionary
Redewiedergabe – http://www.redewiedergabe.de/korpus.html
QuickMode – Ursprünglich war der QuickMode nur für Entwickler*innen gedacht. Deren Programme konnte so Daten mit dem CorpusExplorer aufbereiten (annotieren/konvertieren). Der QuickMode ist jetzt auch für normale Nutzer verfügbar. Drücken Sie gleichzeitig die Tasten WINDOWS + R. Ausführen erscheint. Geben Sie dort folgendes ein: CorpusExplorer.exe –help und bestätigen Sie mit „Ok“.
Eine Anleitung erscheint. Folgende Modi sind aktuell verfügbar:
–help – Zeigt die Hilfe an.
–anno – Annotiert Rohtext und zeigt einen Dialog zum Speichern der fertigen Daten an.
–conv – Konvertiert Korpora in unterschiedliche Formate.
–sreset – Soft Reset / Falls der CorpusExplorer nicht startet, probieren Sie diese Option aus.
–hreset – Sollte der „Soft Reset“ (s. o.) keine Wirkung zeigen, können Sie damit eine Neuinstallation des CorpusExplorers auslösen.
Verbesserungen:
Der CorpusExplorer lädt jetzt eine Visualisierung on-demand. D. h. wenn Sie eine Analysemodul erstmalig (nach Programmstart) aufrufen, wird es erst dann geladen. Zuvor wurden alle Analysemodule direkt bei Programmstart geladen. Dies reduziert (A) den RAM-Verbrauch von ca. 450 MB auf 220 MB und (B) die Startzeit des CorpusExplorers sinkt merklich.
Die CorpusExplorer Console schreibt Analysedaten jetzt direkt in den Ausgabestream. Dies führt zu einem höheren Durchsatz – gerade bei sehr großen Daten.
Verbesserte Darstellung auf HighDPI Displays. Wer meine Arbeit verfolgt weiß: ich schlage mich schon lange mit HighDPI rum. Jetzt ist die Lösung endlich soweit, dass sie gut funktioniert. Gelegentlich gibt es noch kleinere Unterschiede. Aber bis zu einer Skalierung von 150% kann ich eine gute Darstellung garantieren.
Verbesserte Suche nach Belegstellen. Wurden die Belegstellen z. B. zur Frequenzanalyse ausgeklappt, wurden bisher alle Belege des jeweiligen Token angezeigt. Jetzt werden nur noch die Belege angezeigt, die mit allen Einträgen POS/Lemma/Wort übereinstimmen.
Die COSMAS II wurde verbessert. RTF-Exporte lassen sich jetzt direkt einlesen.
APAEK PDF wurde verbessert.
Verbesserte Python Schnittstelle (Python > CorpusExplorer > Python).
Das Teilprojekt „Furious-Index“ ist weitgehend abgeschlossen. Dadurch beschleunigt sich der Zugriff auf CEC6-Dateien im STREAM-Modus um Faktor 10.
Der Server für die Telemetrie wurde umgezogen. Entsprechend werden die Telemetriedaten ab jetzt an den neuen Server geschickt.
Es werden neue Telemetrie-Daten erhoben. Hierzu zählt, welche Dateiformate für die Annotation und den Import verwendet werden. Ebenso wie viele Dateien geladen werden und wie lange die initiale Verarbeitung benötigt. Dadurch kann in einigen Wochen/Monaten die Performance für Annotation/Import weiter verbessert werden.
Weitere kleinere Verbesserungen und Performance-Optimierungen.
Repository „notesjor/SiegenerXmlNarrator“ auf GitHub veröffentlicht
Im Rahmen des Seminar „Programmieren für Linguistinnen“ wurden mit den Studierenden das Programm SiegenerXmlNarrator entwickelt. Es basiert auf C#/WPF (d.h. die GUI ist in XAML einem XML-Dialekt geschrieben). Der Quellcode basiert auf C#. Das Programm liest eine Spieldatei ein (endet auf .game – beinhaltet Spielanweisungen in XML). Die Spielerin kann zwischen verschiedenen Optionen wählen. Dem Spiel liegt ein einfaches Beispiel inkl. OpenAccess-Grafiken bei.
Workshop 12.06.2019 – JLU Gießen – „CorpusExplorer“
Am 12.06.2019 gibt es an der JLU Gießen einen ganztägigen CorpusExplorer-Workshop. Die Teilnahme ist kostenfrei nach vorheriger Anmeldung (per E-Mail).
Neues Add-on: DTA::CAB
DTA::CAB ist ein orthographischer Normalisierer für historische Sprachstufen des Deutschen (entwickelt von Bryan Jurish, Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften). Mit diesem Add-on können Sie frühneuhochdeutsche und...
CorpusExplorer (Update Q2 2019)
Das Mai Update des CorpusExplorers bringt einige Verbesserungen und Korrekturen. Neu: In Kooperation mit Bryan Jurish wird es ein Add-on für DTA::CAB geben. Dazu am Wochenende mehr. Verbesserungen: Die Performance des TreeTagger-Moduls wurde verbessert. Das...
Repository „notesjor/ExperimentalChatGame“ auf GitHub veröffentlicht
"notesjor/ExperimentalChatGame" By notesjor Plattform zum Erstellen von interaktiven Chat-Games (Universität Siegen / Germanistik / Einführung in die Programmierung für Linguist*innen) May 16, 2019 at 10:15AM via GitHub http://bit.ly/2VGltnd
CorpusExplorer (Update Q1 2019 + März SP1)
Heute wurde ein kleines Zusatzupdate (SP) für den CorpusExplorer veröffentlicht. Folgendes wird dadurch verbessert: Unterstützung für CoraXML 0.8 und CoraXML 1.0 - Damit können Dateien von https://www.linguistics.rub.de/comphist/resources/cora/index.html geöffnet...
CorpusExplorer (Update Q1 2019)
Es ist soweit - ein großes Update wartet auf alle Nutzer*innen des CorpusExplorers. Hier eine Zusammenfassung der Neuerungen/Verbesserungen: Eine persönliche Angelegenheit zuerst: Seit mehreren Versionen unterstützen mich viele Nutzer*innen bei der Entwicklung, indem...
Workshop 19.03./20.02.2019 – „Information Extraction aus frühneuhochdeutschen Texten“
Die automatisierte Erschließung historischer Texte, deren Sprache und Orthografie noch keiner Standardisierung unterliegt, ist schwierig. Am Zentrum für Informationsmodellierung laufen zur Zeit drei Projekte, die sprachlich im Frühneuhochdeutschen angesiedelt sind:...
Repository „notesjor/OpenSourceTelemetrie“ auf GitHub veröffentlicht
"notesjor/OpenSourceTelemetrie" By notesjor Client/Server infrastructure to collect telemetric data - OpenSource and privacy friendly (self hosted) January 3, 2019 at 03:06PM via GitHub http://bit.ly/2DCT31F