Wie ähnlich sind sich zwei oder mehr Dokumente? – Eine Frage die nicht nur bei der Plagiatsforschung eine Rolle spielt. Zeitungskorpora sollten möglichst redundanzfrei sein. Doppelt Meldungen z. B. einfach abgedruckte Agenturmeldungen können das Analysebild verzerren. Das Modul zum auffinden von ähnlichen Dokumenten schafft Abhilfe.