CorpusExplorer

CorpusExplorer (Update Q1 2021 – SP1)

Kleines zusätzliches Update – zusätzlich zum Update Q1 2021.

Neuerungen:

  • Neues Format für: FOLKER/OrthoNormal FLN (annotieren & Import).
  • Der Post-Analyse-Filter für korrespondierende Layer-Werte kann jetzt auch über die Konsole/Shell genutzt werden.

Verbseerungen:

  • Kleine Verbesserungen / Korrekturen
Mehr

CorpusExplorer (Update Q1 2021)

CorpusExplorer (Update Q1 2021)

Vielleicht irre ich mich – aber ich glaube, in 2021 werden einige große Dinge mit dem CorpusExplorer passieren. Zumindest haben sich viele Funktionen angesammelt, die darauf warten veröffentlicht zu werden. Also starten wir mir den Änderungen für Q1 2021:

  • DPXC-Editor „Der DPXC-Editor ist tot, lang lebe der DPXC-Editor“.
    Der DPXC-Editor ist ein Add-on, dass das Sammeln von Korpora per Copy&Paste erlaubt. Was als kleiner Nutzer*innen-Wunsch begann (bei dem ich gedacht hätte: nette Nischenfunktion) wird mittlerweile von einem halben Dutzend (mir bekannten) Projekten aktiv eingesetzt (Projektgrößen: Masterarbeiten bis hin zu DFG-Projekten). Daher habe ich etwas Zeit investiert um den Editor (A) besser zu machen und (B) ihn stärker in den CorpusExplorer zu integrieren.

    • Integration:
      Der Editor wird jetzt direkt mit dem CorpusExplorer installiert (er muss nicht mehr als Add-on nachinstalliert werden).
      Der Editor kann jetzt unter „Korpus Übersicht“ über die Option „Korpus manuell erstellen“ aufgerufen werden.
      Hinweis: Die Möglichkeit den DPXC-Editor als „Add-on“ zu installieren (siehe CorpusExplorer – Startseite) bleibt weiterhin bestehen. Wird der DPXC-Editor als Add-on installiert so wird ein Link zum direkten Aufruf auf dem Desktop platziert.
    • Verbesserungen:
      Der Editor hat eine ganze Reihe von Verbesserungen:

      • Suchen & Ersetzen – für Volltexte und Metadaten
      • AutoFix für Texte und Metadaten – z. B. das Entfernen von HTML-Fragmenten oder überzähligen Leerzeichen.
      • Import / Export für OpenRefine. Bei OpenRefine handelt es sich um eine freie, sichere und hoch Effiziente (reproduzierbar, schnell, raffiniert etc.) Lösung, um Metadaten zu bereinigen. Das Programm steht kostenfrei unter: https://openrefine.org/ zum Download zur Verfügung.
        • Hinweis 1: Was ich sehr oft als Frage in Trainings mit OpenRefine-Bezug zu hören bekomme: „Sind meine Daten in OpenRefine sicher? – OpenRefine ist doch von Google – und ich soll da Daten in den Browser hochladen…“ – Antwort: Ja, die Daten sind sicher. OpenRefine startet auf ihrem PC, auf dem Sie OpenRefine installieren, einen lokalen Webserver. Google hat die Lösung gewählt, um OpenRefine für alle Betriebssystem anbieten zu können (Windows, MacOS, Linux). Sie laden zwar die Daten mit Hilfe ihres Webbrowsers – aber: Die Daten verlassen ihren PC nicht.
        • Hinweis 2: Ein Student (Sinan Cosgun – Universität Siegen) hat in einem meiner Seminare (Uni Siegen) ein deutschsprachiges Tutorial zu OpenRefine erstellt – wer sich einarbeiten möchte: https://mooc.diskurslinguistik.net/course/view.php?id=8
  • WordBag v2
    Die neue erweiterte WordBag-Funktion erlaubt es schneller mehrere Begriffe für Suchabfragen zu ermitteln. Mussten früher Begriffe manuell eingegeben werden (unterstützt durch ein interaktives Wörterbuch) oder mit Hilfe zuvor definierter Listen. Kann jetzt eine Abfrageliste über das WordBag-Symbol erstellt werden – Beispiel:
    Danach erscheint die folgende Abfragemaske:
    Über die Suchoperatoren können gleich alle passenden Begriffe gesucht werden. Abwahl durch Klick auf das ‚X‘ des jeweiligen Begriffs.
  • VOC-D und MTLD
    Unter „Stilometrie“ können jetzt VOC-D und MTLD berechnet werden. Bitte beachten: Beide Verfahren nutzen ein Daten-Sampling. Dadurch kann die Berechnung längere Zeit (5-15 Minuten) in Anspruch nehmen.
  • Dispersion
    Über „Frequenzanalyse“ > „Dispersion“ kann jetzt die X-Term-Frequenz und die Inverse-X-Term-Frequenz berechnet werden. Als „X“ kann jede beliebe Metaangabe verwendet werden. So ist die Berechnung z. B. von Dokument-Term-Frequenz (durch Auswahl von GUID) oder die Berechnung von Inverse-Autoren-Term-Frequenz möglich.
  • Filter: Korrespondierende Layerwerte
    Ursprünglich (nur für POS-Werte) wurde diese Funktion auf Nutzer*innen-Wunsch für die Kookkurrenz-Analyse umgesetzt. Davon ausgehend wurde der Layer-Filter entwickelt (alle Layer können ausgewählt werden – z. B. POS oder Lemma). Dies ist ein Post-Analyse-Filter d. h. der Filter wird auf die Analyseergebnisse angewendet.
    Der Filter steht für N-Gramme, Kookkurrenzen, Links-/Rechts-Frequenz, Dispersion und Keywords zur Verfügung.
  • ImageBuilder v1
    Der ImageBuilder ist ein Konsolen-Programm, dass ein komplettes Installations-Image des CorpusExplorers erzeugt.
    Wofür ist das Tool nützlich? – Wenn Sie z. B.

    • Den CorpusExplorer auf einem Cluster, Linux oder MacOS (als Konsolen-Version) nutzen möchten, dann können Sie damit ein Image erstellen.
    • Falls sich der CorpusExplorer unter Windows nicht installieren lässt (z. B. aufgrund von restriktiven Richtlinien, Firewall oder Anti-Viren-Programmen).
    • Wenn Sie den CorpusExplorer auf einem USB-Stick nutzen möchten.

Was ist für die kommenden Versionen des ImageBuilders geplant:

    • Download von Korpora
    • Betriebssystemoptimierte Builds – aktuell müssten Sie (um automatisch zu annotieren) die Tagger-Dateien durch passende Betriebssystem-Builds ersetzen. Dies soll in Zukunft automatisiert passieren.
  • Neue Import/Export-Formate:
    • CATMA 6 (Import/Export)
      Hinweis: CATMA ist leider vom Format und den Möglichkeiten etwas ’speziell‘ – sprich: Sehr oft ist es so, dass man Daten zwar in CATMA einlesen kann, die Daten sich danach nicht mehr adäquat exportieren lassen. Ich empfehle folgendes Vorgehen:

      • Laden Sie ihr Rohkorpus in den CorpusExplorer (ggf. auch über den DPXC-Editor) – z. B. über „Dokumente annotieren“
      • Exportieren Sie dann das Korpus (Schnappschuss Übersicht > Exportieren) nach CATMA
      • Laden Sie den CATMA-Export in CATMA.
      • Wenn Sie in CATMA weitere Layer oder Werte hinzufügen, dann orientieren Sie sich bitte an der Struktur, die der CorpusExplorer vorgibt.
      • Speichern Sie die CATMA-Daten lokal ab und laden Sie die Daten erneut über „Korpus importieren“ in den CorpusExplorer.
      • Tipp: Wenn Sie eigene Layer oder Layerwerte in CATMA anlegen, dann sollten Sie diese in einem kleinen Pilot testen (nur wenige Sätze) und die Daten in den CorpusExplorer re-importieren. So vermeiden Sie böse Überraschungen.
    • IDS I5- und KorAP-XML
      Die I5- und KorAP-Daten stehen primär nur IDS-Mitarbeiter*innen zur Verfügung. Es gibt aber auch einige freie Korpora, die über folgende Seite bezogen werden können: https://www1.ids-mannheim.de/kl/projekte/korpora/verfuegbarkeit.html 

      • IDS I5-XML
        IDS I5-XML ist das Standardformat für Volltexte + Metadaten des „Leibniz-Institut für Deutsche Sprache“. Der CorpusExplorer unterstützt I5 bereits seit längerem. Neu ist der verbesserte Metadaten-Support.
      • KorAP-XML
        KorAP-XML ist das Standardformat für das die Korpusanalyseplattform des „Leibniz-Institut für Deutsche Sprache“.
Mehr

ZOOM-Vortrag 26.03.2021: vDHd2021

ZOOM-Vortrag 26.03.2021: vDHd2021

Der Diskursmonitor ist eine gemeinschaftlich erarbeitete Online-Plattform zur Aufklärung und Dokumentation strategischer Kommunikation. 2019 als offenes Lehrstuhlprojekt gestartet, umfasst der Diskursmonitor mittlerweile vier stetig wachsende Teilprojekte:

  • Glossar: Auf Basis aktueller Forschung bietet das Glossar kompakte und anschauliche Informationen zu Phänomenen diskursiver Kämpfe, wie wir sie in Medien, Politik, Recht und Zivilgesellschaft beobachten können. Das Glossar soll dazu beitragen, kommunikative Strategien in der öffentlichen Praxis besser zu erkennen, zu bezeichnen und zu kritisieren.
  • Review: Die Review dokumentiert und kommentiert aktuelle diskursive Ordnungen und strategische Praktiken unter Einbeziehung laufender und bisheriger Forschung. In kurzen, prägnanten Artikeln sowie in Video-Beiträgen beleuchten Diskursforscher*innen und Praktiker*innen die zeitgenössischen Debatten-Entwicklungen und Deutungskämpfe.
  • Barometer: Das Barometer bietet einen datengestützten, quantifizierenden Einblick in die aktuelle sprachliche und diskursive Großwetterlage. Für dieses automatische Monitoring werden seit 2019 täglich zehntausende Texte aus öffentlich zugänglichen Online-Quellen erfasst, computerlinguistisch aufbereitet und mithilfe von Text-Mining-Verfahren ausgewertet (Stand Januar 2021: täglich aktualisiertes LIVE-Korpus ca. 8 Mrd. Token / Kontrollierte Referenzkorpora 6,6 Mrd. Token). Langfristiges Ziel ist, Metriken zu entwickeln und bereitzustellen, die bestimmte Facetten diskursiver Dynamiken in Abhängigkeit von Zeitverlauf, Medien, AutorInnen u. a. abbilden.
  • Werkstatt (in Vorbereitung): Ziel der Werkstatt ist ein möglichst niederschwelliges Informationsangebot. Hier werden Materialien wie Handreichungen, Beispielanalysen und Leitfäden veröffentlich, die sich auch im Schulunterricht (Sek. I/II) einsetzen lassen. Die Materialien werden in Abstimmung mit Fachdidaktiker*innen erstellt und aus öffentlich verfügbaren Quellen (OpenAccess) zusammengestellt.

Im Panel werden die einzelnen Teilprojekte kurz vorgestellt. Schwierigkeiten aus der bisherigen Projekterfahrung werden thematisiert, ebenso wie bereits gefundene Lösungen. Interessierte Teilnehmende sind eingeladen, mit zu diskutieren und die Online-Plattform auszutesten.
ZOOM-Link kann per Anfrage schon vorab verschickt werden: Kontakt

Impressionen:

Mehr

ZOOM-Vortrag 16.12.2020 an der Friedrich-Alexander-Universität (Erlangen-Nürnberg)

ZOOM-Vortrag 16.12.2020 an der Friedrich-Alexander-Universität (Erlangen-Nürnberg)

Im Rahmen des „Oberseminars Computerlinguistik (WS 2020/21)“ – an der Friedrich-Alexander-Universität (Erlangen-Nürnberg) wird mit dem Vortrag „Einführung in den CorpusExplorer“ nicht nur in die Grundlagen des CorpusExplorers eingeführt – sondern auch die vertiefende Nutzung der Programmierschnittsellen gezeigt. Die Teilnahme für Externe ist kostenfrei möglich – Anmeldung per formloser E-Mail an: ed.negnalre-inu.kitsiugnilnull@ofni

Vorschau Kursinhalte (finale Folien werden nach dem Kurs bereitgestellt und sind dann unter ‚Über mich…‘ zu finden):

Mehr

‚Posterslam‘ – 2. DigitalHumanities-Tag der WWU Münster

‚Posterslam‘ – 2. DigitalHumanities-Tag der WWU Münster

Das Projekt „Sprache und Konfession im Radio“ stellt sich und den CorpusExplorer im Rahmen des Posterslams vor (2. DigitalHumanities-Tag der WWU Münster).

Zum Projekt: Das Christentum hat die deutsche Sprache Jahrhunderte lang stark beeinflusst. Die jüngste Frühe Neuzeitforschung konnte zeigen, dass sogar die Reformation und die anschließende Etablierung verschiedener Konfessionen zu Sprachgebrauchsdifferenzen zwischen Katholiken und Protestanten geführt haben. Für die Gegenwartssprache hingegen ist eine große Forschungslücke bezüglich des Zusammenhangs von Sprache und Konfession zu konstatieren: Untersuchungen zur Pluralität sprachlicher Ausdrucksformen haben Konfession als möglichen sprachlicher Variationsfaktor noch kaum berücksichtigt. Eine Umfrage in 2014 hat jedoch Hinweise darauf gefunden, dass Katholiken und Protestanten mit jeweils unterschiedlichem Wortgebrauch und Sprachstilen, ja sogar differierender Textstrukturierung verbunden werden. Linguistisch untersucht worden sind diese Zuordnungen bislang noch nicht. Ziel dieses Projekts ist es daher, Texte der heutigen öffentlichen Glaubensverkündigung im Radio auf verschiedenen sprachlichen Ebenen von der Themenwahl, der Textstruktur über die Syntax und Wortbildung bis hin zur Lexik zu analysieren und herauszufinden, ob auch heute noch – 500 Jahre nach der Reformation – konfessionelle Sprachgebrauchsdifferenzen festzustellen sind. Damit kann die deutsche Sprachgeschichte um ein wichtiges Kapitel erweitert werden. [Weitere Informationen zum Projekt]

Mehr

Summer School (RUB Bochum) – 24. bis 28. August 2020: „tl;dr“ Too long; didn’t read (?) Große Textmengen computergestützt analysieren

Die Summer School beschäftigt sich mit computergestützten Verfahren, um große Mengen digitaler Texte, wie z. B. Internet-Blogs, Social Media-Einträge oder twitter Posts,  zu extrahieren (Web Scraping), zu analysieren und für  empirischen Forschungsprojekte und Abschlussarbeiten zu nutzen. Von korpuslinguistischen Verfahren (Frequenz- und Kollokationsanalysen) bis zu Machine Learning-Algorithmen werden methodische Ansätze aus vielfältigen Disziplinen zusammengebracht und aus der jeweils fachwissenschaftlichen Sicht diskutiert und in Hands-on Sessions in kleinen Gruppen an konkreten Fragestellungen praktisch eingeübt. Die Ergebnisse werden abschließend im Plenum präsentiert und diskutiert. Zur Vorbereitung der Summer School werden den Studierenden 1-2 tägige Workshops angeboten, um sich mit den theoretischen Grundlagen (Lektüre) und den erforderlichen Software-Tools Vertraut zu machen.

Ankündigung: https://methodenzentrum.ruhr-uni-bochum.de/veranstaltungen/weitere-angebote/summer-school-tldr-grosse-textmengen-computergestuetzt-analysieren/
Weitere Infos: https://summerschool.blogs.ruhr-uni-bochum.de/tldr/

Mehr

CorpusExplorer (Update Q2 2020 – SP1)

CorpusExplorer (Update Q2 2020 – SP1)

Heute gibt es ein kleines Service Pack (SP) für den CorpusExplorer. Neben wichtigen Stabilitäts- und Performance-Korrekturen enthält das SP folgende neuen Funktionen:

  • Die Volltextanzeige für die Textlinsen-Funktion wurde überarbeitet. Dadurch verbessern sich folgende Aspekte:
    • Der Text wird schnelle angezeigt – auch bei größeren Textmengen.
    • Der Text springt automatisch zum ersten Fundstellensatz.
    • Der Text kann mit der Maus markiert werden und direkt in die Zwischenablage kopiert werden (inkl. Hervorhebung). Zuvor konnte nur der gesamte Text als Plaintext exportiert werden.
  • Der Quellcode-Editor im Modul HTML5Labor wurde überarbeitet. arbeitet jetzt effektiver und verfügt über einige Sonderfunktionen – wie z. B. Zoom.
  • Das Modul „NGramme Vergleichen“ gibt jetzt die absolute Frequenz aus und berechnet die Signifikanz zwischen den beiden Schnappschüssen. Zur Signifikanz (das Signifikanzmaß kann in den Projekteinstellungen gewählt werden): Ist eine -1 in der Spalte vermerkt, wurde die Signifikanz nicht berechnet, da das NGram nur in einer der beiden Schnappschüsse vorkommt (-1 bedeutet also: die Signifikanzberechnung wäre unsinnig). Eine liegende Acht (siehe Screenshot – ersten Spalten) bedeutet: Hier tendiert bzw. ist der Signifikanzwert UNENDLICH. Dies deutet auf extreme Unterschiede hin.
Mehr

CorpusExplorer (Update Q2 2020)

Lange ist es her. Das letzte Update erfolgte im Q3 2019. Was war passiert? War die Entwicklung eingeschlafen? – Nein, die Entwicklung ging weiter. Es gab nur keine neuen Updates, da der CorpusExplorer als Teil meines Dissertationsprojekts eingereicht wurde und eine Begutachtung erfolgte. Jetzt steht nur noch die Verteidigung für mich an (also bitte Daumen drücken). Traditionell (seit mehr als fünf Jahren) ist das Mai-Update (Q2) immer ein besonders großes Update.

Folgende Neuerungen gibt es:

  • Korpora werden beim Import automatisch auf Konsistenz und Fehler überprüft. Diese Überprüfung kann jetzt unter „Projekteinstellung“ >  „Feature Toggle & Einstellungen“ > „CEC6-Validation?“ deaktiviert werden. Empfehlung: Bitte aktiviert lassen. Falls Sie aber viele Korpora haben, die Fehler enthalten und Sie diese alle auf einmal laden möchten, dann deaktivieren Sie diese Option.
  • Korpora vereinen überarbeitet – Unter „Projekteinstellungen“ > „Werkzeuge“ > „Korpora vereinen“ war es zuvor nur möglich CorpusExplorer Korpora zu vereinen. Ab jetzt lassen sich alle importfähigen Korpora (wie z. B. CoNLL, TXM, TreeTagger-TXT) einlesen und in alle exportfähigen Formate (z. B. CoNLL, Weblicht, DTA-TCF) exportieren (vereinen).
    Tipp: Wer große Korpora hat, sollte eher den QuickMode nutzen. Dazu geht man wie folgt vor: CorpusExplorer sollte NICHT laufen. Drücken Sie die Tastenkombination STRG + R, um „Ausführen“ anzuzeigen. Geben Sie in das Eingabefeld folgendes ein und bestätigen Sie mit „Ok“: CorpusExplorer –conv
  • Der DPXC-Editor (Addon) wurde verbessert. In den kommenden Wochen wird es hier ein größeres Feature-Release geben, das einige oft nachgefragte Funktionen mit sich bringt.
  • CEC6-Dateien können jetzt erneut über „Dokumente annotieren“ erneut annotiert werden.
  • Alle Tabellen-Visualisierungen verfügen jetzt über einen Delay von 500ms bei der Suche. D. h. nicht jeder Tastendruck bei der Suche führt zum sofortigen Auslösung der Suchfunktion (wie bisher). Auch wenn es merkwürdig klingt, eine Verzögerung führt hier zu einer Beschleunigung (die GUI fühlt sich schneller an).
  • Arbeiten zum QuickIndex v3 wurden abgeschlossen. Die Resultate finden aktuell nur im Projekt diskursmonitor.de Anwendung, werden aber auch bald im CorpusExplorer verfügbar sein. QuickIndex ist ein auf linguistische Annotationen optimierter Suchindex, grob ähnlich zu Lucene (wobei Lucene andere Grundannahmen trifft), der wenige Daten im Arbeitsspeicher halten muss um effizient zu sein.
  • Verbesserung der Sentiment-Compiler (für komplexere Sentiment-Abfragen anstelle von Einzeltoken).
  • Neue Funktionen für die CEC (CorpusExplorer Console):
    • hash – Berechnet Hashwert für alle Dokumente. Erlaubt die Identifikation von absolut identischen Dokumenten.
    • hash-roll – Berechnet rollende Hashwerte für alle Dokumente. Erlaubt die Identifikation von teilweise identischen Dokumenten.
  • Verbesserungen bei folgenden Dateiformaten:
    • Tiger-XML (verbesserter Import)
    • IDS I5-Korpora (neu – Scraper)
    • TXM (neu – Import/Export/Scraper)
    • CorpusWorkbench (Exporter)
    • BAWE (neu Scraper)
    • BNC (neu Scraper)
  • Umstellung auf „.NET Framework“ 4.6.1
  • FeatureFox-Framework v1 – Dieses Projekt befasst sich mit der Frage, wie man die GUI und den gesamten CorpusExplorer so entschlanken kann, das nur die benötigten Module geladen werden. Hierzu wird es im Q3 2020 eine grundlegende Überarbeitung der Funktionen geben.
  • Allgemeine Verbesserungen, Aktualisierung von Drittkomponenten und kleiner Bug-Fixes.
Mehr

Vortrag am 25.11.2019: „Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer“ im Rahmen des „Digillu-Workshop: Zusammenstellung und Erschließung von Korpusdaten“ an der BBAW

Methoden zur Zusammenstellung und Erschließung von Texten werden nicht nur in der Linguistik, sondern allgemein in den Geisteswissenschaften und jenseits von fachlichen Grenzen vielseitig eingesetzt, nicht zuletzt seit dem empirical turn. Ohne maschinell gestützte Herangehensweisen sind manche Textsammlungen nicht mehr produktiv für die Forschung zu greifen, zu überprüfen oder zu durchleuchten. Es wird nicht mehr nur gelesen, es wird immer häufiger auch eingelesen, wobei diese Entwicklung und die damit einhergehenden Denkverfahren, Arbeitsschritte und Standards hinterfragt und eingeordnet werden sollten.

Der am 25.11. an der BBAW stattfindende Workshop bietet eine interdisziplinäre, mehrsprachige Bühne für einen wissenschaftlich fundierten Austausch. Im Blickpunkt stehen verschiedene Prozesse des Lesens, zum Beispiel die Erfassung von Keilschrift und Frakturschrift, bis hin zum tatsächlichen Einlesen mithilfe korpus- und computerlinguistischer Werkzeuge. Das breite fachliche Spektrum (u.a. Amerikanistik, Linguistik, Philosophie) und der Fokus auf junge, international aktive Forscher*innen werden dem Workshop ein besonderes Momentum verleihen.

Infos

Diese Veranstaltung wird von verschiedenen Projektpartnern ermöglicht, u.a. dem deutsch-französischen Forschungsverband CIERA. Tagungssprachen sind Deutsch, Englisch und Französisch.

25. November 2019 – 9.30 bis 17.30 Uhr
Raum 228
Berlin-Brandenburgische Akademie der Wissenschaften (BBAW)
Jägerstraße 22/23, 10117 Berlin

Es sind noch wenige Plätze verfügbar, um Anmeldung wird gebeten: ed.wabbnull@iserabrab

Verantwortlich für die Organisation sind Adrien Barbaresi (BBAW) und Maud Ehrmann (DHLAB – Eidgenössische Technische Hochschule Lausanne, EPFL).

Programm

Empfang ab 9.30 Uhr

  • 9.45-10.45 Uhr: Antoine Doucet (Univ. La Rochelle): Keynote
  • 10.45-11.15 Uhr: Marine Béranger (Collège de France): Assessing Literacy in Mesopotamia Using Digital Technologies: A Case Study Based On The Royal Secretary

Kaffeepause

  • 11.30-12 Uhr: Naomi Truan (Univ. Leipzig): Gesprochene Sprache und Transkription: die XML-TEI Annotation von Parlamentsdebatten
  • 12-12.30 Uhr: Susanne Haaf (BBAW): Auswertung von TEI-Korpora für die Ermittlung von Differenzierungskriterien historischer Textsorten

Lunch

  • 14-14.30 Uhr: Jan Oliver Rüdiger (Univ. Siegen): Erstellen und Erschließen von Korpusdaten mittels CorpusExplorer
  • 14.30-15 Uhr: Melanie Andresen (Univ. Hamburg): Data-Driven Corpus Exploration with Syntactic Annotations
  • 15-15.30 Uhr: Anatole Lucet (ENS Lyon – HFG Karlsruhe): Que peut le numérique en histoire de la philosophie ? L’exemple des œuvres de Gustav Landauer

Kaffeepause

  • 15.45-16.15 Uhr: Raphaël Barman (DHLAB, EPFL): Newspaper semantic segmentation using visual and textual features
  • 16.15-16.45 Uhr: Jana Keck (Univ. Stuttgart): Digging into America’s 19th-Century German-Language Newspapers with Text Reuse and Word Vector Models
  • 16.45-17.15 Uhr: Gaël Lejeune (STIH, Sorbonne Université): Preserving Linguistic Observables in an NLP pipeline : Virtues and Flaws of the reductionist approach

17.15 Uhr: Bilanz


Informationen auf Französisch über die Reihe von Veranstaltungen: https://digillu.hypotheses.org

Mehr

Folge mir auf Twitter