Lernziele

Das Seminar ist als Praxisseminar konzipiert. Das heißt, dass der Fokus darauf liegt, anhand praktischer Übungsaufgaben und Fragestellungen das Coden in R zu erlernen. Das heißt aber nicht, dass wir nur Sachen auswendig lernen und Inhalte von einem Zusammenhang auf den anderen übertragen. Die kritische Analyse und Evaluation nicht nur von Code sondern auch von konkreten Verfahren ist essentiell für die Arbeit mit geisteswissenschaftlichen Daten.

Nach diesem Seminar kennt ihr…

  1. Grundbegriffe und Konzepte der Programmierung mit R: Die Studierenden kennen den Unterschied zwischen verschiedenen Datentypen und Datenstrukturen und kennen die wichtigsten Operationen darauf. Sie haben ein Grundverständnis von der sinnvollen Strukturierung von R-Code und kennen wichtige Konventionen.
  2. Grundbegriffe und Verfahren der Textanalyse und -aufbereitung mit R: Die Studierenden kennen geeignete Verfahren zur Aufbereitung und Analyse von Plaintext-Dateien und XML-TEI-Dateien. Sie können mögliche Probleme, Vor- und Nachteile der verschiedenen Verfahren sowie ausgewählte Anwendungsgebiete der Verfahren benennen. Sie kennen relevante Richtwerte und Metriken zur Bewertung der Analyseergebnisse und haben ein elementares Verständnis der statistischen Grundlagen der angewandten Verfahren.
  3. Datenformate: Die Studierenden sind mit dem Aufbau von XML-TEI Dokumenten vertraut. Sie können zwischen verschiedenen Datenformaten unterscheiden.
  4. Suchtechniken für verschiedene Datenformate: Die Studierenden kennen die grundlegende Syntax von Regulären Ausdrücken und XPath.

Nach diesem Seminar könnt ihr …

  1. Verfahren des Preprocessing und der Textanalyse in R anwenden: Die Studierenden können R-Code lesen und (je nach Vorkenntnissen) einfache bis fortgeschrittene Skripte zum Preprocessing und Analyse von Textdaten in R selbst schreiben. Sie können Fehler mithilfe von Debugging-Strategien selbst identifizieren und können Online-Ressourcen nutzen, um sich selbst Hilfe zu beschaffen. Sie können komplexen Code auf dem eigenen Computer reproduzieren. Sie sind routiniert im Umgang mit RStudio. Sie können einfache Ausdrücke zur Suche in Plaintext- und XML-TEI-Dateien mithilfe von Regulären Ausdrücken und XPath schreiben und einsetzen.
  2. Auswirkungen der angewandten Verfahren evaluieren: Die Studierenden können evaluieren, wie sich verschiedene Entscheidungen und Verfahren des Preprocessing auf die Analyse eines Textkorpus’ auswirken. Sie können identifizieren, welche Preprocessing-Schritte die Analyseergebnisse verbessern können.
  3. Aussagekraft der Ergebnisse kritisch bewerten: Die Studierenden können die Ergebnisse der verschiedenen Analyse-, Such und Extraktionsverfahren im Hinblick auf die Preprocessingentscheidungen, die Qualität und Zusammensetzung des Korpus kritisch bewerten.