CorpusExplorer – Ein Programm, das aus meiner Magisterarbeit erwachsen ist und im aktuellen Promotionsprojekt weiterentwickelt wird. Der CorpusExplorer vereint eine Vielzahl bekannter computer-/korpuslinguistischer Tools. Er vereinfacht das Arbeiten mit großen Textmengen und erlaubt es, Korpora als Wissensquelle neu zu entdecken … Das Ziel: Sprache und Technik ein Stück näher zusammenzubringen.
CorpusExplorer (Update Q2 2020 – SP1)
Heute gibt es ein kleines Service Pack (SP) für den CorpusExplorer. Neben wichtigen Stabilitäts- und Performance-Korrekturen enthält das SP folgende neuen Funktionen: Die Volltextanzeige für die Textlinsen-Funktion wurde überarbeitet. Dadurch verbessern sich folgende Aspekte:
Der Text wird schnelle angezeigt – auch bei größeren Textmengen.
Der Text springt automatisch zum ersten Fundstellensatz.
Der Text kann mit der Maus markiert werden und direkt in die Zwischenablage kopiert werden (inkl. Hervorhebung). Zuvor konnte nur der gesamte Text als Plaintext exportiert werden.
Der Quellcode-Editor im Modul HTML5Labor wurde überarbeitet. arbeitet jetzt effektiver und verfügt über einige Sonderfunktionen – wie z. B. Zoom.
Das Modul „NGramme Vergleichen“ gibt jetzt die absolute Frequenz aus und berechnet die Signifikanz zwischen den beiden Schnappschüssen. Zur Signifikanz (das Signifikanzmaß kann in den Projekteinstellungen gewählt werden): Ist eine -1 in der Spalte vermerkt, wurde die Signifikanz nicht berechnet, da das NGram nur in einer der beiden Schnappschüsse vorkommt (-1 bedeutet also: die Signifikanzberechnung wäre unsinnig). Eine liegende Acht (siehe Screenshot – ersten Spalten) bedeutet: Hier tendiert bzw. ist der Signifikanzwert UNENDLICH. Dies deutet auf extreme Unterschiede hin.
CorpusExplorer (Update Q2 2020)
Lange ist es her. Das letzte Update erfolgte im Q3 2019. Was war passiert? War die Entwicklung eingeschlafen? – Nein, die Entwicklung ging weiter. Es gab nur keine neuen Updates, da der CorpusExplorer als Teil meines Dissertationsprojekts eingereicht wurde und eine Begutachtung erfolgte. Jetzt steht nur noch die Verteidigung für mich an (also bitte Daumen drücken). Traditionell (seit mehr als fünf Jahren) ist das Mai-Update (Q2) immer ein besonders großes Update.
Folgende Neuerungen gibt es:
Korpora werden beim Import automatisch auf Konsistenz und Fehler überprüft. Diese Überprüfung kann jetzt unter „Projekteinstellung“ > „Feature Toggle & Einstellungen“ > „CEC6-Validation?“ deaktiviert werden. Empfehlung: Bitte aktiviert lassen. Falls Sie aber viele Korpora haben, die Fehler enthalten und Sie diese alle auf einmal laden möchten, dann deaktivieren Sie diese Option.
Korpora vereinen überarbeitet – Unter „Projekteinstellungen“ > „Werkzeuge“ > „Korpora vereinen“ war es zuvor nur möglich CorpusExplorer Korpora zu vereinen. Ab jetzt lassen sich alle importfähigen Korpora (wie z. B. CoNLL, TXM, TreeTagger-TXT) einlesen und in alle exportfähigen Formate (z. B. CoNLL, Weblicht, DTA-TCF) exportieren (vereinen).
Tipp: Wer große Korpora hat, sollte eher den QuickMode nutzen. Dazu geht man wie folgt vor: CorpusExplorer sollte NICHT laufen. Drücken Sie die Tastenkombination STRG + R, um „Ausführen“ anzuzeigen. Geben Sie in das Eingabefeld folgendes ein und bestätigen Sie mit „Ok“: CorpusExplorer –conv
Der DPXC-Editor (Addon) wurde verbessert. In den kommenden Wochen wird es hier ein größeres Feature-Release geben, das einige oft nachgefragte Funktionen mit sich bringt.
CEC6-Dateien können jetzt erneut über „Dokumente annotieren“ erneut annotiert werden.
Alle Tabellen-Visualisierungen verfügen jetzt über einen Delay von 500ms bei der Suche. D. h. nicht jeder Tastendruck bei der Suche führt zum sofortigen Auslösung der Suchfunktion (wie bisher). Auch wenn es merkwürdig klingt, eine Verzögerung führt hier zu einer Beschleunigung (die GUI fühlt sich schneller an).
Arbeiten zum QuickIndex v3 wurden abgeschlossen. Die Resultate finden aktuell nur im Projekt diskursmonitor.de Anwendung, werden aber auch bald im CorpusExplorer verfügbar sein. QuickIndex ist ein auf linguistische Annotationen optimierter Suchindex, grob ähnlich zu Lucene (wobei Lucene andere Grundannahmen trifft), der wenige Daten im Arbeitsspeicher halten muss um effizient zu sein.
Verbesserung der Sentiment-Compiler (für komplexere Sentiment-Abfragen anstelle von Einzeltoken).
Neue Funktionen für die CEC (CorpusExplorer Console):
hash – Berechnet Hashwert für alle Dokumente. Erlaubt die Identifikation von absolut identischen Dokumenten.
hash-roll – Berechnet rollende Hashwerte für alle Dokumente. Erlaubt die Identifikation von teilweise identischen Dokumenten.
Verbesserungen bei folgenden Dateiformaten:
Tiger-XML (verbesserter Import)
IDS I5-Korpora (neu – Scraper)
TXM (neu – Import/Export/Scraper)
CorpusWorkbench (Exporter)
BAWE (neu Scraper)
BNC (neu Scraper)
Umstellung auf „.NET Framework“ 4.6.1
FeatureFox-Framework v1 – Dieses Projekt befasst sich mit der Frage, wie man die GUI und den gesamten CorpusExplorer so entschlanken kann, das nur die benötigten Module geladen werden. Hierzu wird es im Q3 2020 eine grundlegende Überarbeitung der Funktionen geben.
Allgemeine Verbesserungen, Aktualisierung von Drittkomponenten und kleiner Bug-Fixes.
Vortrag am 25.11.2019: „Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer“ im Rahmen des „Digillu-Workshop: Zusammenstellung und Erschließung von Korpusdaten“ an der BBAW
Methoden zur Zusammenstellung und Erschließung von Texten werden nicht nur in der Linguistik, sondern allgemein in den Geisteswissenschaften und jenseits von fachlichen Grenzen vielseitig eingesetzt, nicht zuletzt seit dem empirical turn. Ohne maschinell gestützte Herangehensweisen sind manche Textsammlungen nicht mehr produktiv für die Forschung zu greifen, zu überprüfen oder zu durchleuchten. Es wird nicht mehr nur gelesen, es wird immer häufiger auch eingelesen, wobei diese Entwicklung und die damit einhergehenden Denkverfahren, Arbeitsschritte und Standards hinterfragt und eingeordnet werden sollten.
Der am 25.11. an der BBAW stattfindende Workshop bietet eine interdisziplinäre, mehrsprachige Bühne für einen wissenschaftlich fundierten Austausch. Im Blickpunkt stehen verschiedene Prozesse des Lesens, zum Beispiel die Erfassung von Keilschrift und Frakturschrift, bis hin zum tatsächlichen Einlesen mithilfe korpus- und computerlinguistischer Werkzeuge. Das breite fachliche Spektrum (u.a. Amerikanistik, Linguistik, Philosophie) und der Fokus auf junge, international aktive Forscher*innen werden dem Workshop ein besonderes Momentum verleihen.
Vortrag am 19.11.2019: „Was heißt und zu welchem Ende studiert man Korpuslinguistik?“ im Rahmen der „Ringvorlesung: Sprache und Kommunikation“ an der Universität Siegen
In dieser Ringvorlesung haben Sie die Möglichkeit, zahlreiche DozentInnen aus der Anglistik, der Germanistik und der Romanistik kennenzulernen. Sie werden Ihnen zentrale Bereiche aus der Linguistik und der Sprachlehr-/lernforschung vorstellen.
Eine Liste der DozentInnen und Themen sehen Sie unten..
Das Material zur Ringvorlesung finden Sie auf der Lernplattform Moodle (http://moodle.uni-siegen.de) – für den Zugriff ist ein ZIMT-Benutzerkonto (studentische E-Mail Adresse) erforderlich (für die Veranstaltung benötigen Sie kein gesondertes Passwort).
Bitte beachten Sie für die abzugegebenden Aufgaben die technisch terminierten Einreichungsfristen in moodle.
Die Dokumente, die Sie hochladen, sollten – sofern von den Dozierenden nicht anders verlangt – entweder im pdf-Format (bei Libre/Open Office können Sie diese z.B. aus dem Dokument erstellen) oder als doc-Datei (altes Word-Format) vorliegen und müssen folgende Benennung aufweisen: „Dozentennachname – Matrikelnummer“. Zudem müssen Sie in den Dokumenten selbst Ihren Namen und Ihre Matrikelnummer angeben.
Um erfolgreich an der Ringvorlesung teilzunehmen, müssen insgesamt drei schriftliche Arbeiten nach je einem Drittel der Veranstaltung zu einem der Sitzungstermine im vorangegangenen Veranstaltungsdrittel elektronisch via moodle abgegeben werden. Jede/r DozentIn, wird dazu eine Aufgabe formulieren.
Die Abgabefrist für die Aufgaben endet je eine Woche nach dem Veranstaltungsdrittel und eine spätere Abgabe ist nicht möglich. Ggf. verlangen einzelne Dozierende eine nicht-elektronische Abgabe. Darauf wird aber dann von diesen explizit zu dem Veranstaltungstermin hingewiesen. An der Abgabefrist ändert sich dann nichts, aber zur Abgabe müssen Sie dann die Postfächer der jeweiligen Dozierenden nutzen. Bei allen anderen Dozierenden ist ausschließlich die elektronische Einreichung via moodle möglich.
Für die elektronische Noteneintragung müssen Sie sich zu gegebener Zeit (siehe Erinnerungsmail seitens der Fakultät) in unisono für die Studienleistung anmelden.
Es müssen min. 2 von 3 Aufgaben bestanden sein. Wenn 2 Aufgaben nicht bestanden wurden (das steht bis zum Ende des Semesters fest), besteht die Möglichkeit, eine der beiden Aufgaben einmalig zu überarbeiten. Diese Überarbeitung muss bzgl. Inhalt, Abgabetermin und Abgabeform mit der/dem jeweiligen Dozentin/Dozenten abgesprochen werden. Sollte die Aufgabe auch nach dieser Überarbeitung nicht bestanden sein (oder von Beginn an alle 3 Aufgaben nicht bestanden sein), ist die Veranstaltung insgesamt nicht bestanden und muss in einem späteren Wintersemester wiederholt werden. (Die freiwillige Abgabe von mehr als 3 Aufgaben hat keinen positiven Einfluss auf die Benotung; es wird je nur die erste Aufgabe des jeweiligen Veranstaltungsdrittels gewertet; zudem ist keine Überarbeitung von mehr als einer Aufgabe möglich.)
Plagiierte Arbeiten (z.B. von KommilitonInnen abgeschriebene Aufgabenbearbeitungen) führen bei allen (!) daran Beteiligten zu einem Nichtbestehen („n.b.“). Die Ringvorlesung gilt damit als nicht bestanden und kann frühestens in einem späteren Wintersemester wiederholt werden.
Eine Liste (ohne Namen, Matrikelnummer-sortiert) mit den bereits bewerteten Aufgaben wird regelmäßig aktualisiert (sobald Noten mehrerer DozentInnen vorliegen) in moodle hochgeladen.
Selbstverständlich können Sie, wenn Sie Fragen zum Thema und/oder zur Benotung haben, die jeweiligen DozentInnen in der Sprechstunde aufsuchen (bitte beachten Sie dafür ggf. im Vorfeld zu vereinbarende Gesprächstermine je nach DozentIn).
Falls Sie noch Fragen haben: In der ersten Sitzung werden Ihnen die Modalitäten der Veranstaltung genau erläutert.
Vortrag: „Maschinelle Sprachverarbeitung in der Diskursanalyse – Ein Überblick“ im Rahmen der „Ringvorlesung: Kommunikative Strategien des Politischen – Einblicke in die computergestützte Diskursforschung“ (Universität Siegen)
Die Entwicklung neuer Forschungsmethoden in der Korpus- und Computerlinguistik, Sprachinformatik oder auch in neueren Varianten der Medienwissenschaft erlauben uns heute die induktive Auswertung großer Datenmengen (mehrere Tausend bis Millionen von Texten), etwa zur Beschreibung von Sprachgebrauchsmustern, massenmedialen Images oder sozialen Netzwerken. Die Ergebnisse dieser algorithmisierten Forschung finden ihrerseits Anwendung in verschiedenen Bereichen, etwa in der Mensch-Computer-Interaktion (z.B. mit Einsatz von Sprachassistenten in immer mehr Haushalten und Gerätekategorien), in der automatisierten Erkennung von „Spam“/“Junk“-Nachrichten oder „Hatespeech“, in digitalen Nachschlagewerken oder Expertensystemen zur Optimierung von Gesetzesentwürfen in der Legislative. Nicht nur für angehende Geistes-, Sozial- und KulturwissenschaftlerInnen innerhalb der Universität, auch in der Alltagspraxis von Unternehmen und Verwaltung wird es zukünftig immer wichtiger, Kompetenzen zum Umgang mit algorithmisierter Sprachverarbeitung aufzubauen. Dies erfordert ein grundlegendes Verständnis der Funktionsweise und der Grenzen ihres Einsatzes, um die Methoden kritisch zu hinterfragen und aktiv zur Weiterentwicklung maschineller Sprachverarbeitung beizutragen.
Besonders deutlich wird dies in der computergestützten Kommunikation öffentlicher Diskurse: Ist es wirklich möglich, Wahlen mit „Chatbots“ zu beeinflussen? Wie funktioniert User-Tracking, staatliche Überwachung oder die automatisierte Auswahl von Job-BewerberInnen mithilfe algorithmisierter Sprachanalyse und welche Risiken ergeben sich daraus für den demokratischen Alltag des Einzelnen? Oder umgekehrt: Wie lassen sich computergestützte Analysemethoden fruchtbar machen, um die Verfasstheit von Diskursen – die Denk- und Machtmuster – in digitalisierten Gesellschaften zu untersuchen und Formen strategischer Kommunikation (von verdeckter Werbung, über Fake-News und Lobbyismus bis hin zu Propaganda) sichtbar(er) zu machen?
CorpusExplorer (Update Q3 2019)
Das Q3 2019 Update des CorpusExplorers bringt folgende Neuerungen und Verbesserungen:
Neue Funktionen:
Neue Formate:
FoLiA XML
RSS Feeds
Speedy (Import/Export) – Danke an/Thanks to: Iian Neill & Andreas Kuczera
YouTube JSON
Wiktionary
Redewiedergabe – http://www.redewiedergabe.de/korpus.html
QuickMode – Ursprünglich war der QuickMode nur für Entwickler*innen gedacht. Deren Programme konnte so Daten mit dem CorpusExplorer aufbereiten (annotieren/konvertieren). Der QuickMode ist jetzt auch für normale Nutzer verfügbar. Drücken Sie gleichzeitig die Tasten WINDOWS + R. Ausführen erscheint. Geben Sie dort folgendes ein: CorpusExplorer.exe –help und bestätigen Sie mit „Ok“.
Eine Anleitung erscheint. Folgende Modi sind aktuell verfügbar:
–help – Zeigt die Hilfe an.
–anno – Annotiert Rohtext und zeigt einen Dialog zum Speichern der fertigen Daten an.
–conv – Konvertiert Korpora in unterschiedliche Formate.
–sreset – Soft Reset / Falls der CorpusExplorer nicht startet, probieren Sie diese Option aus.
–hreset – Sollte der „Soft Reset“ (s. o.) keine Wirkung zeigen, können Sie damit eine Neuinstallation des CorpusExplorers auslösen.
Verbesserungen:
Der CorpusExplorer lädt jetzt eine Visualisierung on-demand. D. h. wenn Sie eine Analysemodul erstmalig (nach Programmstart) aufrufen, wird es erst dann geladen. Zuvor wurden alle Analysemodule direkt bei Programmstart geladen. Dies reduziert (A) den RAM-Verbrauch von ca. 450 MB auf 220 MB und (B) die Startzeit des CorpusExplorers sinkt merklich.
Die CorpusExplorer Console schreibt Analysedaten jetzt direkt in den Ausgabestream. Dies führt zu einem höheren Durchsatz – gerade bei sehr großen Daten.
Verbesserte Darstellung auf HighDPI Displays. Wer meine Arbeit verfolgt weiß: ich schlage mich schon lange mit HighDPI rum. Jetzt ist die Lösung endlich soweit, dass sie gut funktioniert. Gelegentlich gibt es noch kleinere Unterschiede. Aber bis zu einer Skalierung von 150% kann ich eine gute Darstellung garantieren.
Verbesserte Suche nach Belegstellen. Wurden die Belegstellen z. B. zur Frequenzanalyse ausgeklappt, wurden bisher alle Belege des jeweiligen Token angezeigt. Jetzt werden nur noch die Belege angezeigt, die mit allen Einträgen POS/Lemma/Wort übereinstimmen.
Die COSMAS II wurde verbessert. RTF-Exporte lassen sich jetzt direkt einlesen.
APAEK PDF wurde verbessert.
Verbesserte Python Schnittstelle (Python > CorpusExplorer > Python).
Das Teilprojekt „Furious-Index“ ist weitgehend abgeschlossen. Dadurch beschleunigt sich der Zugriff auf CEC6-Dateien im STREAM-Modus um Faktor 10.
Der Server für die Telemetrie wurde umgezogen. Entsprechend werden die Telemetriedaten ab jetzt an den neuen Server geschickt.
Es werden neue Telemetrie-Daten erhoben. Hierzu zählt, welche Dateiformate für die Annotation und den Import verwendet werden. Ebenso wie viele Dateien geladen werden und wie lange die initiale Verarbeitung benötigt. Dadurch kann in einigen Wochen/Monaten die Performance für Annotation/Import weiter verbessert werden.
Weitere kleinere Verbesserungen und Performance-Optimierungen.
Repository „notesjor/SiegenerXmlNarrator“ auf GitHub veröffentlicht
Im Rahmen des Seminar „Programmieren für Linguistinnen“ wurden mit den Studierenden das Programm SiegenerXmlNarrator entwickelt. Es basiert auf C#/WPF (d.h. die GUI ist in XAML einem XML-Dialekt geschrieben). Der Quellcode basiert auf C#. Das Programm liest eine Spieldatei ein (endet auf .game – beinhaltet Spielanweisungen in XML). Die Spielerin kann zwischen verschiedenen Optionen wählen. Dem Spiel liegt ein einfaches Beispiel inkl. OpenAccess-Grafiken bei.
Workshop 12.06.2019 – JLU Gießen – „CorpusExplorer“
Am 12.06.2019 gibt es an der JLU Gießen einen ganztägigen CorpusExplorer-Workshop. Die Teilnahme ist kostenfrei nach vorheriger Anmeldung (per E-Mail).
Neues Add-on: DTA::CAB
DTA::CAB ist ein orthographischer Normalisierer für historische Sprachstufen des Deutschen (entwickelt von Bryan Jurish, Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften). Mit diesem Add-on können Sie frühneuhochdeutsche und...
CorpusExplorer (Update Q2 2019)
Das Mai Update des CorpusExplorers bringt einige Verbesserungen und Korrekturen. Neu: In Kooperation mit Bryan Jurish wird es ein Add-on für DTA::CAB geben. Dazu am Wochenende mehr. Verbesserungen: Die Performance des TreeTagger-Moduls wurde verbessert. Das...