Magisterarbeit

Arithmetischer Mittelwert – Beispiel piwik-Daten

Arithmetischer Mittelwert – Beispiel piwik-Daten

Der folgende Artikel befasst sich mit dem arithmetischen Mittelwert (neben diesem gibt es weitere Mittelwerte, die aber im Rahmen dieser Arbeit nicht von interesse sind, z. B. der Median, u.a.).
Beispiel: Die Daten stammen von der Webseite piwik.org und wurden mit dem Programm piwik erfasst. Tabellenstruktur: Nr, Seite (URL) und Anzahl der Besuche

statistik_tabelle1

 

Mehr

Statistik: Idee für einen Grundsatz

Nach welchen Dingen suchen wir überhaupt? – Grundsätzlich gibt es zwei Dinge,
die interessieren, die Regel und die Ausnahme.

Regel: Wir möchten wissen wie ein Text (Oberflächen-/Tiefenstruktur) oder sogar ein ganzer Diskurs zusammenh ängt – hier interessiert die Regel.

Verstoß: Der Regelverstoß kann sowohl die Validität als auch die Invalidität einer solchen Regel beweisen. Zusätzlich ermöglicht uns der Nachweis/das Entdecken eines Verstoes einen interessanten Blick auf die Dinge und nicht zuletzt erkennt man darin oft weitere Regelhaftigkeiten, die das Gesamtsystem komplettiert.

Mehr

Idee: Erstellung einer vielseitig verwendbaren Datenbank zu linguistischen Zwecken

Idee: Erstellung einer vielseitig verwendbaren Datenbank zu linguistischen Zwecken

In der Literatur tauchen immer wieder Datenbanken (DB) und Datenformate (wie z.B. XML) auf, die in der Regel für spezielle Aufgaben zugeschnitten sind. Mach mehreren Versuchen diese Datenquellen zu vereinfachen, bin ich zu folgendem Vorschlag gekommen.

Anmerkung (25.07.2012): Das System funktioniert leider nicht so wie gewünscht.
Das es ein gigantisches Ausmaß annimt, Wort/Satz-Positionen zu speichern hätte ich anfangs nie gedacht. Beispiel: „Faust – I“ ist als Plaintext ca. 190 KB groß. Nach dem Parsing/Tagging mit TreeTagger fast die Datei ca. 780 KB. Werden die Daten mit meinem Lieblings OR-Mapper in eine Datenbank (nach folgendem Schema) eingetragen fasst die Datenbank ca. 9000 KB. Nach diversen Optimierungen konnte die DB-Größe auf ca. 5300 KB reduziert werden. Das ist immer noch zuviel. 5300 / 190 = Faktor 27,8.
Bei größeren Textmengen (z. B. Projekt-Gutenberg 4GB * 27,8 = 111,2GB) ist neben dem Datenvolumen auch die Verarbeitungszeit zu langwierig. Ich werde daher nach einer alternativen Lösung suchen müssen.

Mehr

Positionierung der Arbeitsweise im Rahmen von "corpus-driven" und "corpus-based"

In der Literatur gibt es immer wieder die polarisierenden Analyseansätze „corpus-driven“ (strikt induktiv) und „corpus-based“ (strikt deduktiv) – Bei [Bub09, S.99-102] werden diese Gegensätze detailiert analysiert und bewertet). Ich persönlich sehe keinen Grund, Daten nur auf eine Herangehensweise zu interpretieren. Es ist wie ein guter Krimi ich nenne diese Herangehensweise korpushermeneutisch – Man untersucht Dinge in Texten, findet Regeln, Abweichungen, stellt Thesen auf, bestätigt/verwirft sie und daraus ergeben sich neue Dinge, die in den Fokus der Untersuchung rücken.

Mehr

Folge mir auf Twitter