Folgende Funktionen wurden in der Mai 2018-Version des CorpusExplorers hinzugefügt/verbesser:

  • Neue annotierbare Dateiformate:
    • Deutscher Bundestag Plenarprotokolle OpenAccess
    • Deutscher Bundestag Drucksachen OpenAccess
    • Deutscher Wortschatz Universität Leipzig
    • PostgreSQL Dump der Seite kleineanfrage.de
  • Neue Clone-Detection: Mittels Clone-Detection können Text-Dubletten erkannt und aus einem Korpus entfernt werden. Bisher gab es nur zwei Alternativen. Entweder die sehr schnelle und SHA512 basierte Analyse, die leider nur 100% Dubletten erkennt. Oder die sehr langsame vektorbasierte Analyse, die auch ähnliche Texte erkennen kann. Neu ist der Ansatz auf Basis von so gennaten Fuzzy Hashes (genauer: context triggered piecewise hashes (kurz: CTPH)). Dieser Ansatz kommt z. B. bei der Erkennung von SPAM/JUNK-Mails zum Einsatz und eignet sich hervorragend für die Analyse von stark recyelten Texten (z. B. Zeitungsartikeln in denen nur wenige Wörter oder Satzzeichen getauscht werden). CTPH verfügt über eine gute Performance und über eine gute Erkennungsrate und damit einen guten Mittelweg zwischen SHA512 und Vektoranalyse.
  • Neue Filter für Metadaten – Beginnt mit … & Endet auf …
  • Verbesserungen für einige weitere annotierbare Dateiformate wie PDF, APAEK (http://www.apaek.uni-frankfurt.de), etc.