InAppNote

Vortrag am 25.11.2019: „Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer“ im Rahmen des „Digillu-Workshop: Zusammenstellung und Erschließung von Korpusdaten“ an der BBAW

Methoden zur Zusammenstellung und Erschließung von Texten werden nicht nur in der Linguistik, sondern allgemein in den Geisteswissenschaften und jenseits von fachlichen Grenzen vielseitig eingesetzt, nicht zuletzt seit dem empirical turn. Ohne maschinell gestützte Herangehensweisen sind manche Textsammlungen nicht mehr produktiv für die Forschung zu greifen, zu überprüfen oder zu durchleuchten. Es wird nicht mehr nur gelesen, es wird immer häufiger auch eingelesen, wobei diese Entwicklung und die damit einhergehenden Denkverfahren, Arbeitsschritte und Standards hinterfragt und eingeordnet werden sollten.

Der am 25.11. an der BBAW stattfindende Workshop bietet eine interdisziplinäre, mehrsprachige Bühne für einen wissenschaftlich fundierten Austausch. Im Blickpunkt stehen verschiedene Prozesse des Lesens, zum Beispiel die Erfassung von Keilschrift und Frakturschrift, bis hin zum tatsächlichen Einlesen mithilfe korpus- und computerlinguistischer Werkzeuge. Das breite fachliche Spektrum (u.a. Amerikanistik, Linguistik, Philosophie) und der Fokus auf junge, international aktive Forscher*innen werden dem Workshop ein besonderes Momentum verleihen.

Infos

Diese Veranstaltung wird von verschiedenen Projektpartnern ermöglicht, u.a. dem deutsch-französischen Forschungsverband CIERA. Tagungssprachen sind Deutsch, Englisch und Französisch.

25. November 2019 – 9.30 bis 17.30 Uhr
Raum 228
Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
Jägerstraße 22/23, 10117 Berlin

Es sind noch wenige Plätze verfügbar, um Anmeldung wird gebeten: ed.wabbnull@iserabrab

Verantwortlich für die Organisation sind Adrien Barbaresi (BBAW) und Maud Ehrmann (DHLAB – Eidgenössische Technische Hochschule Lausanne, EPFL).

Programm

Empfang ab 9.30 Uhr

  • 9.45-10.45 Uhr: Antoine Doucet (Univ. La Rochelle): Keynote
  • 10.45-11.15 Uhr: Marine Béranger (Collège de France): Assessing Literacy in Mesopotamia Using Digital Technologies: A Case Study Based On The Royal Secretary

Kaffeepause

  • 11.30-12 Uhr: Naomi Truan (Univ. Leipzig): Gesprochene Sprache und Transkription: die XML-TEI Annotation von Parlamentsdebatten
  • 12-12.30 Uhr: Susanne Haaf (BBAW): Auswertung von TEI-Korpora für die Ermittlung von Differenzierungskriterien historischer Textsorten

Lunch

  • 14-14.30 Uhr: Jan Oliver Rüdiger (Univ. Siegen): Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer
  • 14.30-15 Uhr: Melanie Andresen (Univ. Hamburg): Data-Driven Corpus Exploration with Syntactic Annotations
  • 15-15.30 Uhr: Anatole Lucet (ENS Lyon – HFG Karlsruhe): Que peut le numérique en histoire de la philosophie ? L’exemple des œuvres de Gustav Landauer

Kaffeepause

  • 15.45-16.15 Uhr: Raphaël Barman (DHLAB, EPFL): Newspaper semantic segmentation using visual and textual features
  • 16.15-16.45 Uhr: Jana Keck (Univ. Stuttgart): Digging into America’s 19th-Century German-Language Newspapers with Text Reuse and Word Vector Models
  • 16.45-17.15 Uhr: Gaël Lejeune (STIH, Sorbonne Université): Preserving Linguistic Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach

17.15 Uhr: Bilanz


Informationen auf Französisch über die Reihe von Veranstaltungen: https://digillu.hypotheses.org

Mehr

Vortrag am 19.11.2019: „Was heißt und zu welchem Ende studiert man Korpuslinguistik?“ im Rahmen der „Ringvorlesung: Sprache und Kommunikation“ an der Universität Siegen

In dieser Ringvorlesung haben Sie die Möglichkeit, zahlreiche DozentInnen aus der Anglistik, der Germanistik und der Romanistik kennenzulernen. Sie werden Ihnen zentrale Bereiche aus der Linguistik und der Sprachlehr-/lernforschung vorstellen.
Eine Liste der DozentInnen und Themen sehen Sie unten..
Das Material zur Ringvorlesung finden Sie auf der Lernplattform Moodle (http://moodle.uni-siegen.de) – für den Zugriff ist ein ZIMT-Benutzerkonto (studentische E-Mail Adresse) erforderlich (für die Veranstaltung benötigen Sie kein gesondertes Passwort).

Bitte beachten Sie für die abzugegebenden Aufgaben die technisch terminierten Einreichungsfristen in moodle.
Die Dokumente, die Sie hochladen, sollten – sofern von den Dozierenden nicht anders verlangt – entweder im pdf-Format (bei Libre/Open Office können Sie diese z.B. aus dem Dokument erstellen) oder als doc-Datei (altes Word-Format) vorliegen und müssen folgende Benennung aufweisen: „Dozentennachname – Matrikelnummer“. Zudem müssen Sie in den Dokumenten selbst Ihren Namen und Ihre Matrikelnummer angeben.

Um erfolgreich an der Ringvorlesung teilzunehmen, müssen insgesamt drei schriftliche Arbeiten nach je einem Drittel der Veranstaltung zu einem der Sitzungstermine im vorangegangenen Veranstaltungsdrittel elektronisch via moodle abgegeben werden. Jede/r DozentIn, wird dazu eine Aufgabe formulieren.
Die Abgabefrist für die Aufgaben endet je eine Woche nach dem Veranstaltungsdrittel und eine spätere Abgabe ist nicht möglich. Ggf. verlangen einzelne Dozierende eine nicht-elektronische Abgabe. Darauf wird aber dann von diesen explizit zu dem Veranstaltungstermin hingewiesen. An der Abgabefrist ändert sich dann nichts, aber zur Abgabe müssen Sie dann die Postfächer der jeweiligen Dozierenden nutzen. Bei allen anderen Dozierenden ist ausschließlich die elektronische Einreichung via moodle möglich.
Für die elektronische Noteneintragung müssen Sie sich zu gegebener Zeit (siehe Erinnerungsmail seitens der Fakultät) in unisono für die Studienleistung anmelden.
Es müssen min. 2 von 3 Aufgaben bestanden sein. Wenn 2 Aufgaben nicht bestanden wurden (das steht bis zum Ende des Semesters fest), besteht die Möglichkeit, eine der beiden Aufgaben einmalig zu überarbeiten. Diese Überarbeitung muss bzgl. Inhalt, Abgabetermin und Abgabeform mit der/dem jeweiligen Dozentin/Dozenten abgesprochen werden. Sollte die Aufgabe auch nach dieser Überarbeitung nicht bestanden sein (oder von Beginn an alle 3 Aufgaben nicht bestanden sein), ist die Veranstaltung insgesamt nicht bestanden und muss in einem späteren Wintersemester wiederholt werden. (Die freiwillige Abgabe von mehr als 3 Aufgaben hat keinen positiven Einfluss auf die Benotung; es wird je nur die erste Aufgabe des jeweiligen Veranstaltungsdrittels gewertet; zudem ist keine Überarbeitung von mehr als einer Aufgabe möglich.)
Plagiierte Arbeiten (z.B. von KommilitonInnen abgeschriebene Aufgabenbearbeitungen) führen bei allen (!) daran Beteiligten zu einem Nichtbestehen („n.b.“). Die Ringvorlesung gilt damit als nicht bestanden und kann frühestens in einem späteren Wintersemester wiederholt werden.
Eine Liste (ohne Namen, Matrikelnummer-sortiert) mit den bereits bewerteten Aufgaben wird regelmäßig aktualisiert (sobald Noten mehrerer DozentInnen vorliegen) in moodle hochgeladen.
Selbstverständlich können Sie, wenn Sie Fragen zum Thema und/oder zur Benotung haben, die jeweiligen DozentInnen in der Sprechstunde aufsuchen (bitte beachten Sie dafür ggf. im Vorfeld zu vereinbarende Gesprächstermine je nach DozentIn).

Falls Sie noch Fragen haben: In der ersten Sitzung werden Ihnen die Modalitäten der Veranstaltung genau erläutert.

Terminübersicht (Datum__DozentIn__Thema):

  • 08.10.19__Gerwinski__Organisation der Veranstaltung & Infos zum Studiengang SK
  • 15.10.19__Baumann__Grammatische Zweifelsfälle
  • 22.10.19__Klein__Sprachliche und andere Zeichen
  • 29.10.19__Koch__Europäische Sprachenpolitik
  • 05.11.19__Wolter__Sprachen lehren und lernen
  • 12.11.19 entfällt
  • 19.11.19__Rüdiger__Korpuslinguistik
  • 26.11.19__Gerwinski__Konversationsanalyse
  • 03.12.19__Habscheid__Textlinguistik
  • 10.12.19__Thörle__Mehrsprachigkeit
  • 17.12.19__Jautz__Mentales Lexikon
  • 07.01.20__Albers__Sprache und Gender
  • 14.01.20__Vogel, F.__Strategische Kommunikation
  • 21.01.20__Kunter__Sprache und Information

[LINK]

Mehr

Vortrag: „Maschinelle Sprachverarbeitung in der Diskursanalyse – Ein Überblick“ im Rahmen der „Ringvorlesung: Kommunikative Strategien des Politischen – Einblicke in die computergestützte Diskursforschung“ (Universität Siegen)

Vortrag: „Maschinelle Sprachverarbeitung in der Diskursanalyse – Ein Überblick“ im Rahmen der „Ringvorlesung: Kommunikative Strategien des Politischen – Einblicke in die computergestützte Diskursforschung“ (Universität Siegen)

Zeit & Ort: WS 2019/20 (immer Mi, 16-18 Uhr) im Hörsaal AR-B 2104/05 an der Universität Siegen

Die Ringvorlesung verknüpft zwei hochaktuelle wie auch brisante Themen unserer Gesellschaft, nämlich erstens Algorithmen und Methoden der maschinellen Sprachverarbeitung, zweitens strategische Kommunikation in öffentlichen Diskursen.

Die Entwicklung neuer Forschungsmethoden in der Korpus- und Computerlinguistik, Sprachinformatik oder auch in neueren Varianten der Medienwissenschaft erlauben uns heute die induktive Auswertung großer Datenmengen (mehrere Tausend bis Millionen von Texten), etwa zur Beschreibung von Sprachgebrauchsmustern, massenmedialen Images oder sozialen Netzwerken. Die Ergebnisse dieser algorithmisierten Forschung finden ihrerseits Anwendung in verschiedenen Bereichen, etwa in der Mensch-Computer-Interaktion (z.B. mit Einsatz von Sprachassistenten in immer mehr Haushalten und Gerätekategorien), in der automatisierten Erkennung von „Spam“/“Junk“-Nachrichten oder „Hatespeech“, in digitalen Nachschlagewerken oder Expertensystemen zur Optimierung von Gesetzesentwürfen in der Legislative. Nicht nur für angehende Geistes-, Sozial- und KulturwissenschaftlerInnen innerhalb der Universität, auch in der Alltagspraxis von Unternehmen und Verwaltung wird es zukünftig immer wichtiger, Kompetenzen zum Umgang mit algorithmisierter Sprachverarbeitung aufzubauen. Dies erfordert ein grundlegendes Verständnis der Funktionsweise und der Grenzen ihres Einsatzes, um die Methoden kritisch zu hinterfragen und aktiv zur Weiterentwicklung maschineller Sprachverarbeitung beizutragen.

Besonders deutlich wird dies in der computergestützten Kommunikation öffentlicher Diskurse: Ist es wirklich möglich, Wahlen mit „Chatbots“ zu beeinflussen? Wie funktioniert User-Tracking, staatliche Überwachung oder die automatisierte Auswahl von Job-BewerberInnen mithilfe algorithmisierter Sprachanalyse und welche Risiken ergeben sich daraus für den demokratischen Alltag des Einzelnen? Oder umgekehrt: Wie lassen sich computergestützte Analysemethoden fruchtbar machen, um die Verfasstheit von Diskursen – die Denk- und Machtmuster – in digitalisierten Gesellschaften zu untersuchen und Formen strategischer Kommunikation (von verdeckter Werbung, über Fake-News und Lobbyismus bis hin zu Propaganda) sichtbar(er) zu machen?

Studienleistung: Eine Studienleistung kann durch Bestehen eines kurzen (halbstündigen) Tests am Ende der Veranstaltung erworben werden.
Prüfungsleistung: Eine Prüfungsleistung kann erwerben, wer als Teil einer Studiengruppe eine kleine empirische Analyse im Rahmen des Veranstaltungsthemas erarbeitet, am Ende der Ringvorlesung mündlich vorstellt und im Anschluss in einem wissenschaftlichen Essay (im Umfang von etwa 8 Seiten) ausarbeitet.

[LINK]

Mehr

CorpusExplorer (Update Q3 2019)

Das Q3 2019 Update des CorpusExplorers bringt folgende Neuerungen und Verbesserungen:

Neue Funktionen:

  • Neue Formate:
    • FoLiA XML
    • RSS Feeds
    • Speedy (Import/Export) – Danke an/Thanks to: Iian Neill & Andreas Kuczera
    • YouTube JSON
    • Wiktionary
    • Redewiedergabe – http://www.redewiedergabe.de/korpus.html
  • QuickMode – Ursprünglich war der QuickMode nur für Entwickler*innen gedacht. Deren Programme konnte so Daten mit dem CorpusExplorer aufbereiten (annotieren/konvertieren). Der QuickMode ist jetzt auch für normale Nutzer verfügbar. Drücken Sie gleichzeitig die Tasten WINDOWS + R. Ausführen erscheint. Geben Sie dort folgendes ein: CorpusExplorer.exe –help und bestätigen Sie mit „Ok“.
    Eine Anleitung erscheint. Folgende Modi sind aktuell verfügbar:

    • –help – Zeigt die Hilfe an.
    • –anno – Annotiert Rohtext und zeigt einen Dialog zum Speichern der fertigen Daten an.
    • –conv – Konvertiert Korpora in unterschiedliche Formate.
    • –sreset – Soft Reset / Falls der CorpusExplorer nicht startet, probieren Sie diese Option aus.
    • –hreset – Sollte der „Soft Reset“ (s. o.) keine Wirkung zeigen, können Sie damit eine Neuinstallation des CorpusExplorers auslösen.

Verbesserungen:

  • Der CorpusExplorer lädt jetzt eine Visualisierung on-demand. D. h. wenn Sie eine Analysemodul erstmalig (nach Programmstart) aufrufen, wird es erst dann geladen. Zuvor wurden alle Analysemodule direkt bei Programmstart geladen. Dies reduziert (A) den RAM-Verbrauch von ca. 450 MB auf 220 MB und (B) die Startzeit des CorpusExplorers sinkt merklich.
  • Die CorpusExplorer Console schreibt Analysedaten jetzt direkt in den Ausgabestream. Dies führt zu einem höheren Durchsatz – gerade bei sehr großen Daten.
  • Verbesserte Darstellung auf HighDPI Displays. Wer meine Arbeit verfolgt weiß: ich schlage mich schon lange mit HighDPI rum. Jetzt ist die Lösung endlich soweit, dass sie gut funktioniert. Gelegentlich gibt es noch kleinere Unterschiede. Aber bis zu einer Skalierung von 150% kann ich eine gute Darstellung garantieren.
  • Verbesserte Suche nach Belegstellen. Wurden die Belegstellen z. B. zur Frequenzanalyse ausgeklappt, wurden bisher alle Belege des jeweiligen Token angezeigt. Jetzt werden nur noch die Belege angezeigt, die mit allen Einträgen POS/Lemma/Wort übereinstimmen.
  • Die COSMAS II wurde verbessert. RTF-Exporte lassen sich jetzt direkt einlesen.
  • APAEK PDF wurde verbessert.
  • Verbesserte Python Schnittstelle (Python > CorpusExplorer > Python).
  • Das Teilprojekt „Furious-Index“ ist weitgehend abgeschlossen. Dadurch beschleunigt sich der Zugriff auf CEC6-Dateien im STREAM-Modus um Faktor 10.
  • Der Server für die Telemetrie wurde umgezogen. Entsprechend werden die Telemetriedaten ab jetzt an den neuen Server geschickt.
  • Es werden neue Telemetrie-Daten erhoben. Hierzu zählt, welche Dateiformate für die Annotation und den Import verwendet werden. Ebenso wie viele Dateien geladen werden und wie lange die initiale Verarbeitung benötigt. Dadurch kann in einigen Wochen/Monaten die Performance für Annotation/Import weiter verbessert werden.
  • Weitere kleinere Verbesserungen und Performance-Optimierungen.
Mehr

Neues Add-on: DTA::CAB

Neues Add-on: DTA::CAB

DTA::CAB ist ein orthographischer Normalisierer für historische Sprachstufen des Deutschen (entwickelt von Bryan Jurish, Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften). Mit diesem Add-on können Sie frühneuhochdeutsche und mittelhochdeutsche Texte automatisch normalisieren und annotieren. Nach der Installation wählen Sie dazu den Tagger „DTA::CAB + TreeTagger“ aus. Eine bestehende Internetverbindung während der Normalisierung/Annotation ist erforderlich, da die Daten an das „Zentrum für digitale Lexikographie, Berlin-Brandenburgische Akademie der Wissenschaften“ geschickt werden (es erfolgt keine Speicherung – die Texte werden direkt verarbeitet). Nach der Annotation stehen Ihnen vier Layer bereit (Wort = die normalisierte Wortform / Lemma = das Lemma der normalisierten Wortform / POS = Part-of-Speech bzw. Wortart / Original = der originale Rohtext). Wenn Sie dieses Add-on im Rahmen einer
wissenschaftlichen Arbeit nutzen, dann zitieren Sie bitte folgende Arbeit:

Jurish, B. Finite-state Canonicalization Techniques for Historical German.
PhD thesis, Universität Potsdam, 2012 (defended 2011). URN
urn:nbn:de:kobv:517-opus-55789

Weitere DTA::CAB relevante Arbeiten finden Sie unter:
http://odo.dwds.de/~jurish/software/dta-cab/#pubs

Das Add-on können Sie entweder direkt aus dem CorpusExplorer heraus installieren, oder über die Add-on-Seite herunterladen.

 

Mehr

CorpusExplorer (Update Q2 2019)

Das Mai Update des CorpusExplorers bringt einige Verbesserungen und Korrekturen.

Neu:

  • In Kooperation mit Bryan Jurish wird es ein Add-on für DTA::CAB geben. Dazu am Wochenende mehr.

Verbesserungen:

  • Die Performance des TreeTagger-Moduls wurde verbessert.
  • Das KWIT-Analysemodul erstellt nun keine 0-Kanten mehr.
  • Erste Verbesserungen des Ecosystems (System das im Hintergrund alle Teilkomponenten überwacht und ggf. nachinstalliert.). Weitere Verbesserungen, insbesondere was die Performance anbelangt, werden folgen.
  • Verbesserungen und Erweiterungen der Dateiformate.
Mehr

CorpusExplorer (Update Q1 2019 + März SP1)

Heute wurde ein kleines Zusatzupdate (SP) für den CorpusExplorer veröffentlicht. Folgendes wird dadurch verbessert:

  • Unterstützung für CoraXML 0.8 und CoraXML 1.0 – Damit können Dateien von https://www.linguistics.rub.de/comphist/resources/cora/index.html geöffnet werden. Zuvor war das Format nur über die Erweiterung Salt&Pepper verfügbar (hierbei wurde das Format zunächst nach Salt-XML, CoNLL und abschließend nach CEC6 konvertiert) – der jetzige Import-Prozess ist direkt CoraXML > CEC6.
  • Pandoc – hier wurde die Unterstützung für UTF-8 verbessert. Die Installationspakete wurden aktualisiert und die Installationsgröße konnte um 20 MB reduziert werden.
  • SDK: Layernamen müssen jetzt nicht mehr bereits bei der Instantiierung bekannt sein, sondern werden nachträglich (bei Gebrauch) automatisch erzeugt.
  • Der NexisLexis Import wurde verbessert – die Erkennung von Einsprungspunkten für den Formatparser ist jetzt flexibler.
Mehr

CorpusExplorer (Update Q1 2019)

CorpusExplorer (Update Q1 2019)

Es ist soweit – ein großes Update wartet auf alle Nutzer*innen des CorpusExplorers.

Hier eine Zusammenfassung der Neuerungen/Verbesserungen:

  • Eine persönliche Angelegenheit zuerst: Seit mehreren Versionen unterstützen mich viele Nutzer*innen bei der Entwicklung, indem Sie der Übermittlung anonymisierter Telemetrie-Daten zustimmen. Euch allen vielen Dank. Meine Erfahrungen die ich dadurch sammeln konnte, sind unersetzlich. Mich störte aber (A) das diese Daten an Dritte (Microsoft Azure) gehen – und – (B) das eigentlich mehr Daten gesammelt werden, als nötig (ich hatte das schon so restriktiv eingestellt wie möglich, aber Azure Application Insights ist sehr sammelfreudig). Als Verfechter von Datensparsamkeit habe ich jetzt eine eigenen Lösung gebaut – der Quellcode für den Server (der die Daten sammelt) findet ihr auf GitHub (https://github.com/notesjor/OpenSourceTelemetrie). Der CorpusExplorer nutzt jetzt also eine eigenen, OpenSource Infrastruktur, die außerdem sehr datensparsam ist. Es werden z. B. keine IP-Adresse mehr protokolliert.
  • Die neue Startseite / die neue Korpus Übersicht
    Für etwas mehr Komfort sorgen die neue Startseite und die neue „Korpus Übersicht“.
    Auf der Startseite gibt es jetzt die Sektion „Aktuelles und Neuigkeiten“ (vielleicht etwas doppelt gemoppelt). In diesem Bereich werden aktuell Meldungen zum CorpusExplorer angezeigt (ein per RSS synchronisierter Newsfeed). Dies Betrifft sowohl Programm-Updates als auch z. B. Workshops (Wer eigenen Workshops bewerben will, kann sich gerne melden – Kontakt). Darunter ist die Sektion „Verfügbar Add-ons“ zu finden. Hier werden alle offiziellen Add-ons des CorpusExplorers aufgelistet, die sich mit einem Klick installieren lassen (auch hier: wer eigene Entwicklung plant oder einstellen möchte – gerne melden).
    Auf der „Korpus Übersicht“ findet sich eine Sektion „Frei verfügbare Korpora“ – Auch diese lassen sich mit einem Klick installieren/abonnieren.
  • Neue Dateiformate:
    • Unterstützung für TEI-XML P5 des CAL²-Projekts
    • Unterstützung für OffeneGesetze.de
    • Export für das SQLite basierte Format von coquery.org (aktuell BETA) – setzt eine Installation des SQLite-Addons voraus.
  • Verbesserungen:
    • Cut-Off-Phrasen sind jetzt strenger (auf Begriff (A) muss Begriff (B) folgen). Die Spanne zwischen den Begriffe A+B wird jetzt ausgegeben und erlaubt ein nachträgliches Filtern.
  • Korrekturen:
    • Verbesserung des CEC6-Stream
    • Die RegEx-Suche in Tabellen wurde verbessert (Spalten wurden nicht korrekt angezeigt, Fehlermeldungen [Easteregg] wurde entfernt).
    • Schnappschuss Refresh wurde verbessert.
Mehr

Workshop 19.03./20.02.2019 – „Information Extraction aus frühneuhochdeutschen Texten“

Die automatisierte Erschließung historischer Texte, deren Sprache und Orthografie noch keiner Standardisierung unterliegt, ist schwierig. Am Zentrum für Informationsmodellierung laufen zur Zeit drei Projekte, die sprachlich im Frühneuhochdeutschen angesiedelt sind: die Erforschung frühneuzeitlicher Diplomatenkorrespondenz (fwf, P 30091), die Edition von Reichstagsakten von 1576 (fwf, I 3446) und die Erschließung und Auswertung spätmittelalterlicher Kochrezepte (fwf, I 3614). Um eine computergestützte Aufbereitung sprachlicher Inhalte bei der Texterschließung einsetzen zu können, richten die drei Projekte in Kooperation mit dem HRSM Projekt KONDE – Kompetenznetzwerk Digitale Edition einen Workshop aus, in dem NLP-Methoden und Werkzeuge zum Information Extraction auf frühneuhochdeutsche Texte angewandt werden sollen. Der Workshop umfasst folgende Einheiten:

 

Montag Nachmittag, 18.03.2019:

  • Einführung in die Varianz des Frühneuhochdeutschen (Erika Windberger-Heidenkummer, Universität Graz)

Dienstag, 19.03.2019:

Mittwoch Vormittag, 20.03.2019:

Der Workshop wird auf das Textmaterial der Projekte fokussieren, Interessierte sind aber prinzipiell willkommen! Die Teilnahme ist für zentrumsexterne Personen allerdings kostenpflichtig (€200.-/Person); Anmeldungen bitte bei ta.zarg-inunull@gulk.tumleh

Mehr

Folge mir auf Twitter