Infos zum Update

Das Update 2013.07 bietet keine großen sichtbaren Veränderungen, dafür haben sich einige Dinge unter der „Haube“ getan.
Dieser Beitrag fasst alle Änderungen zusammen:

  • Der Parsingprozess wurde optimiert. Der CorpusExplorer vermeidet nun unnötige TreeTagger-Aufrufe durch eine intelligente Auftragsvergabe. Dadurch sinkt die Fehlerwahrscheinlichkeit bei gleichzeitigem Performancegewinn.
  • Die Suchleiste kann nun neben herkömmlichen Abfragen wie: =“Berg“ nun auch Platzhalter verarbeiten. Dabei wurden zwei Platzhalter definiert:
    • ? – Platzhalter für ein oder kein „Wort“:
      Bsp.: #Wort=“Ein ? sein“ findet z. B. „Ein Narr sein“
    • * – Platzhalter für mehrere oder kein „Wort“:
      Bsp.: =“NN $, * NN“ findet „NN $, NN KON NN“ aber auch „NN $, ADJA NE NN“
  • Sonstige Optimierungen (41) und Fehlerkorrekturen (12).

Aussicht:

Woran wird aktuell gearbeitet (GUI = Grafische Benutzeroberfläche):

  • Arbeitstitel (UglyDuck): Der CorpusExplorer setzt momentan auf WinForm als GUI-Plattform. Dies führt leider immer wieder zu Performanceproblemen, da die GUI über die Windows-API gerendert wird. Der CorpusEpxlorer könnte um ca. Faktor DREI schneller arbeiten. Daher ist ein GUI auf WPF-Basis aktuell in der Testphase. (Veröffentlichung: Ende 2013)
  • Arbeitstitel (LinguNet): Ein Projekt, das verteiltes Rechnen supereinfach ermöglicht und mit sozialen-/kollaborativen Funktionen wie Diskussionen, Teilen und Bewerten erweitert. LinguNet wird sich dann unsichtbar in die neue Programmoberfläche einpassen. Die Schnittstellen sowie der LinguNet-Server sind bereits vollständig umgesetzt (Veröffentlichung: Ende 2013/Anfang 2014).
  • Arbeitstitel (HungryBetty): Um „das Web als Korpus“ nutzen zu können ist viel Know-how nötig. Ziel des CorpusExplorers ist es aber gerade alle Arbeitsschritte so einfach und transparent zu gestalten wie nur irgend möglich. Daher soll ein Scraping-Framework sowie ein Scraping-Baukasten erstellt und in CorpusExplorer integriert werden. Damit soll es möglich werden Webseiten, Foren, Tweets, Feeds und alle erdenklichen Textdaten automatisch erfassen zu lassen und das mit wenigen Klicks (Veröffentlichung: Ende 2013/Anfang 2014).
  • Arbeitstitel (DoItYourself): Der CorpusExplorer soll im Verlaufe des Jahres 2014, wie bereits in der Magisterarbeit angekündigt, als OpenSource veröffentlicht werden. Ziel dieser Veröffentlichung ist es zum einen, externen Entwicklern die Möglichkeit zu geben sich daran zu beteiligen. Für Universitäten und Schulen soll zudem eine Art „Programmierkurs“ geschaffen werden der in die „Sprachverarbeitung“ einführt. (Veröffentlichung: 2014)