Artikel getaggt mit "Mai"

CorpusExplorer (Update Q2 2019)

Das Mai Update des CorpusExplorers bringt einige Verbesserungen und Korrekturen.

Neu:

  • In Kooperation mit Bryan Jurish wird es ein Add-on für DTA::CAB geben. Dazu am Wochenende mehr.

Verbesserungen:

  • Die Performance des TreeTagger-Moduls wurde verbessert.
  • Das KWIT-Analysemodul erstellt nun keine 0-Kanten mehr.
  • Erste Verbesserungen des Ecosystems (System das im Hintergrund alle Teilkomponenten überwacht und ggf. nachinstalliert.). Weitere Verbesserungen, insbesondere was die Performance anbelangt, werden folgen.
  • Verbesserungen und Erweiterungen der Dateiformate.
Mehr

CorpusExplorer (Update Mai 2018)

Folgende Funktionen wurden in der Mai 2018-Version des CorpusExplorers hinzugefügt/verbesser:

  • Neue annotierbare Dateiformate:
    • Deutscher Bundestag Plenarprotokolle OpenAccess
    • Deutscher Bundestag Drucksachen OpenAccess
    • Deutscher Wortschatz Universität Leipzig
    • PostgreSQL Dump der Seite kleineanfrage.de
  • Neue Clone-Detection: Mittels Clone-Detection können Text-Dubletten erkannt und aus einem Korpus entfernt werden. Bisher gab es nur zwei Alternativen. Entweder die sehr schnelle und SHA512 basierte Analyse, die leider nur 100% Dubletten erkennt. Oder die sehr langsame vektorbasierte Analyse, die auch ähnliche Texte erkennen kann. Neu ist der Ansatz auf Basis von so gennaten Fuzzy Hashes (genauer: context triggered piecewise hashes (kurz: CTPH)). Dieser Ansatz kommt z. B. bei der Erkennung von SPAM/JUNK-Mails zum Einsatz und eignet sich hervorragend für die Analyse von stark recyelten Texten (z. B. Zeitungsartikeln in denen nur wenige Wörter oder Satzzeichen getauscht werden). CTPH verfügt über eine gute Performance und über eine gute Erkennungsrate und damit einen guten Mittelweg zwischen SHA512 und Vektoranalyse.
  • Neue Filter für Metadaten – Beginnt mit … & Endet auf …
  • Verbesserungen für einige weitere annotierbare Dateiformate wie PDF, APAEK (http://www.apaek.uni-frankfurt.de), etc.
Mehr

Folge mir auf Twitter