Artikel getaggt mit "Release"

CorpusExplorer v2.0 – Mai Update

Normalerweise ist der Mai einer der wichtigsten Update-Monate für den CorpusExplorer. Dieses Jahr fällt das Mai Update etwas kleiner aus. Das liegt daran, dass ich mich auf drei Dinge fokussieren muss. 1. Wollen einige Artikel geschrieben werden. 2. Dieses Update steht im Zeichen der Fehlerbeseitigung. 3. Es gibt da noch eine Promotionsschrift, die will auch noch geschrieben werden.

Was gibt es NEUES in diesem Update:

  • Der CorpusExplorer nutzt nun offiziell TagPies (http://www.tagpies.vizcovery.org/) zur Darstellung von Wortwolken. Danke an Stefan Jänicke und Team.
  • HTML5 Labor – Der CorpusExplorer verfügt über einen HTML5-, JavaScript-, CSS-Editor, mit dem Sie eigene HTML5-Visualisierungen mit Hilfe des CorpusExplorers erstellen können. Ein Video dazu  folgt in Kürze. Das Labor eignet sich z. B. auch für den Einsatz von D3.js oder Angular.
  • EuroParl kann jetzt als Korpusquelle genutzt werden. http://www.statmt.org/europarl/ – Bitte laden Sie das Paket: source release (text files)
  • Wird das Projekt gespeichert, werden alle Änderungen (Annotationen/Metadaten) an die jeweiligen Korpora durchgereicht.
  • Verbesserungen der CHAT-Ansicht
  • Verbesserungen im Query-Editor
  • Es besteht die Möglichkeit, Test-Korpora zu erstellen. Mit diesen lässt sich die Korrektheit des CorpusExplorers überprüfen.
  • Weniger Fehler / Bessere UI-Erfahrung
Mehr

Lisa Lena Opas-Hänninen Young Scholar Prize 2016

Lisa Lena Opas-Hänninen Young Scholar Prize 2016

Da fährt man nichtsahnend nach Leipzig zur DHd2016 und kommt völlig überrascht mit einem „Lisa Lena Opas-Hänninen Young Scholar Prize“ zurück. Den prämierten Vortrag kann man [hier herunterladen]. Das vorgestellte Programm ist, wie könnte es anders sein, der CorpusExplorer. Ein kleines Dankeschön an die gesamte DH-Community: Ich habe mich entschlossen, ein spezielles DHd2016-CorpusExplorer-Release anzufertigen. Es wird auf spezielle Probleme der DHd2016 eingehen und ich werde versuchen, einige Lösungen nachzubauen/nachzuvollziehen. Das Release wird voraussichtlich Ende März zur Verfügung stehen – also @notejor auf Twitter folgen und immer informiert sein.

Im Vortrag vertieft (Foto by A. Rockenberger @ARockenberger)

Im Vortrag vertieft (Foto by A. Rockenberger @ARockenberger)

Verleihung des Lisa Lena Opas-Hänninen Young Scholar Prize

Mehr

CorpusExplorer v2.0 – November Update

CorpusExplorer v2.0 – November Update

Das November Update ist unscheinbar. Eine wichtige aber für Nutzer*innen vorerst unsichtbare Änderung:

Der CorpusExplorer kann ab jetzt für viele verschiedene Datenformate genutzt werden (kein Import nötig). Dank Adapter-Pattern (Insider für OOP-Entwickler*innen). Die aktuelle Insider-Edition enthält bereits diese Funktion und wird zeitgleich mit dem neuen CEFS-Format ausgestattet.

Was ist CEFS?
CEFS ist das CorpusExplorer-FileSystem – ein neuartiges Korpusformat für (fast) unbegrenzt große Korpora.

Warum nur (fast)?
Das (fast) bezieht sich auf zwei Grenzen:

  1. Es können max. 2,1 Milliarden Layerwerte (Types) gespeichert werden.
  2. Es gibt eine Grenze an Token, diese ist definiert durch die Größe des verfügbaren Festplattenspeichers.

Wird CEFS das CEC5-Format ablösen?
Nein! – CEC5 ist eine In-Memory-Technik und beide Formate werden gleichberechtigt existieren.

Unterschiede CEFS / CEC5?

  • CEC5 eignet sich für kleine/mittlere Korpora – Regel Arbeitsspeicher in GB * 1 Mio. Token. Also auf aktuellen PCs (8 GB RAM) sind ca. 8 Mio. Token möglich.
  • CEFS für mittlere/große Korpora – Also für alle Korpora die über das CEC5-Limmit hinausgehen.

Wann wird CEFS für Standard-Nutzer verfügbar sein?
Der Insider-Test läuft noch bis 15.02.2016 – Das erste darauf folgende Release wird dann CEFS für alle verfügbar machen.

Wo finde ich CEFS?
Annotieren oder Importieren Sie Korpora und unterstützt der Tagger/Importer CEFS, dann wird Ihnen eine Auswahl zwischen CEC5 (Standardformat) und CEFS angezeigt – Aktueller Screenshot:

CEFS

Mehr

CorpusExplorer v2.0 – Oktober Release

Was ist neu im Oktober Release des CorpusExplorers?

  • Neue Scraper für EPUB, DSpin-XML & PDF.
  • Neuer Scraper „Auf gut Glück!“ – versucht aus allen Dateien den größtmöglichen Textinhalt zu extrahieren.
  • Mengenoperationen für Schnappschüsse (inner/outer join, diff).
  • Berechnung der Textähnlichkeit wurde verbessert und beschleunigt.
  • Exporter für DSpin-XML – erlaubt die Anbindung von Slash/A.
  • Serialisierung erfolgt nun ausschließlich mit dem .NET BinaryFormatter – Tests mit XML, JSON, ProtocolBuffer sowie MessagePack verliefen wenig erfolgreich.
  • Korpora und Projekte werden ab 2,5 Mio. Token nicht mehr komprimiert um die Daten schneller schreiben zu können. Komprimieren spart zwar Festplattenplatz, kostet aber Zeit. Wer möchte, kann die Dateien mit GZIP selbst nachträglich komprimieren – z.B. mit dem kostenfreien 7-ZIP.

Hinweis: Da es in diesem Release zu Änderungen an der Dateistruktur kommt, wurde größte Sorgfalt darauf verwendet, dass alle alten Dateien (Projekt/Korpora) weiterhin funktionieren. Der CorpusExplorer erkennt den Inhalt einer CEC5 bzw. PROJ5 Datei und schaltet dann in den entsprechenden Kompatibilitäts-Modus.

Mehr

Updates 2015-03

Folgende Neuerungen (+)/Änderungen(#) gibt es im März-Release des CorpusExplorers.

Für Version 1.9:
+ Eigenes Speichermanagement
# Performance- und Stabilitätsverbesserungen

Für Version 2.0 (BETA):
+ Eigenes Speichermanagement
+ Excel-Scraper
+ TalkbankXML-Scraper
+ Tools für Softwareentwickler
+ Slash/A-Exporter
+ TwitterJSON- und yourTwapperKeeperJSON-Scraper
# Verbesserungen bei der Erstellung von Schnappschüssen
# Performance- und Stabilitätsverbesserungen

Mehr

CorpusExplorer – Miniupdate 2014/07

CorpusExplorer – Miniupdate 2014/07

Die Juli Version des CorpusExplorers enthält folgende Änderungen / Korrekturen

  • Modulbezeichnungen wurden korrigiert.
  • Unter bestimmten Umständen konnte es vorkommen, dass der Korpusname nicht korrekt angezeigt wurde.
  • Unter bestimmten Umständen konnte es vorkommen, dass ein neu erstelltes Korpus nicht richtig angelegt wurde. Die Layer-Dateien befanden sich im Quellordner.
  • Das alte Layer-Format wird ab dieser Version unterdrückt und erscheinen daher nicht mehr in der Auswahl der bereits verfügbaren Korpora. Hintergrund: Diese Option wurde aktiviert um Nutzer des alten Layer-1.0-Formats auf die bevorstehende Umstellung des kommende Layer-5.0-Formats vorzubereiten. Workaround: Diese Einstellung kann über das Einstellungs-Zahnrad in der Korpus-Spalte geändert werden. Entfernen Sie den Haken bei „CE-Layerversion 2.0“ (siehe Screenshot). Ausblick: Sie werden auch in Zukunft die Layer-1.0-Versionen im CorpusExplorer nutzen können, die Konvertierung dauert nur sehr lange, daher werden ab jetzt alle Layer-1.0-Formate blockiert, eine Ausweitung auf Layer-2.0 bis Layer-4.0 ist Anfang 2015 geplant.

Mehr

Ankündigung: CorpusExplorer NEXTGEN-Release

Ankündigung: CorpusExplorer NEXTGEN-Release

Nach zwei Jahren intensiver Entwicklung wurde mit dem NEXTGEN-Release der CorpusExplorer vollständig neu gedacht.
Das offizielle Release ist für das Q3/Q4 2014 geplant. Aktuell laufen die ersten BETA-Tests an.

Was ist NEU?: Alles, sowohl der technische Unterbau als auch die neu entwickelte Oberfläche.

Hier ein kleiner Vorgeschmack:

splash

Der neue Splashscreen – Das Logo muss noch überarbeitet werden.

 

Ein neues Konzept wird die alten Module ablösen. Außerdem wird es eine Möglichkeit geben eigene Plugins zu entwickeln.

Ein neues Konzept wird die alten Module ablösen. Außerdem wird es eine Möglichkeit geben eigene Plugins zu entwickeln.

Oh! - Hier ist aber noch einige rot... Da gibt es noch was zu tun bis zur endgültigen Fassung. Was man aber schon erahnen kann, es gibt neue Möglichkeiten Textmaterial zu akquirieren. YEAH!

Oh! – Hier ist aber noch einige rot… Da gibt es noch was zu tun bis zur endgültigen Fassung. Was man aber schon erahnen kann, es gibt neue Möglichkeiten Textmaterial zu akquirieren. YEAH!

Es folgen drei Beispiele für die neue Auswertungs-Engine:

corpusExplorer5

Die klassische Tabellen-Variante. Inkl. Sortier-, Gruppier- und Filter-Funktionen.

Die speziell entwickelte Chart-Engine nimmt dem Nutzer die Entscheidung ab, welche Darstellungsfunktion die sinnvollste ist.

Die speziell entwickelte Chart-Engine nimmt dem Nutzer die Entscheidung ab, welche Darstellungsfunktion die sinnvollste ist.

Chart-Engine: Diesmal wurde der Donut automatisch gewählt.

Mehr

CorpusExplorer – Release 2014/06

Das Juni Release des CorpusExplorers ist eines der letzten Updates. Im Q3/Q4 wird es eine komplett neue CE-Version geben. Das aktuelle Update umfasst lediglich Sicherheits-, Performance- und Stabilitäts-Updates.

Mehr

CorpusExplorer – Release 2014/04 (Unwahrscheinlichkeitsantrieb)

Das April 2014 Release des CorpusExplorer ist KEIN Aprilscherz auch wenn es erst einmal so klingt. Der Parsing-Durchsatz durch den TreeTagger (von Helmut Schmid) wurde um 10-90% verbessert. Mal hat man also mehr Glück, manchmal auch weniger, daher ist der Begriff Unwahrscheinlichkeitsantrieb wohl am treffendsten (entlehnt „Per Anhalter durch die Galaxis“ von Adams, Douglas).

Mehr

CorpusExplorer – Release 2014/02

Folgende Neuerung/Änderungen gibt es in diesem Release:

Was ist -NEU-:

  • Die Korpusverteilung verfügt jetzt über einen Farbstrahl an dem sich ablesen lässt, wie das Modul die Farben den einzelnen Flächen zuordnet.
  • In den Projekteinstellungen wurde ein Button hinzugefügt der es erlaubt das Dokument-Metadatenfeld „Datum“ in „Datum.Jahr“ sowie „Datum.Jahr/Monat“ auzusplitten. Dies erlaubt eine bessere Metadaten-Aggregation.
  • In den Projekteinstellungen wurde die Möglichkeit aufgenommen, weitere TreeTagger-Sprachen zu installieren.
  • Der „Metadaten-Editor (massenhaft)“ verfügt nun über eine zusätzliche „Suchen&Ersetzen“-Funktion. Hiermit ist es möglich ein Freitextfeld z. B. „Rubrik“ zu bereinigen.

Was wurde -GEÄNDERT-:

  • Das Fundstellen-Modul wurde korrigiert. Es kam unter bestimmten Bedingungen zu einer falschen Darstellung in der Wort/Lemma/POS-Ansicht.

Was wurde -ENTFERNT-:

  • Aus den Projekteinstellungen wurde die Option „intelligente Bereinigung“ entfernt. Dies ist ab jetzt dauerhaft aktiv.
  • Aus dem „Metadaten-Editor (massenhaft)“ wurde die Spalte „DokumentIDXN“ entfernt. Diese Spalte wird nicht mehr benötigt.
Mehr

Folge mir auf Twitter