Seminarplan

Sitzung Nr. Datum Thema
1 17.10. Einstieg
2 24.10. R Basics I: Datentypen, Variablen und Operatoren
3, 4 31.10., 7.11. R Basics II: Datenstrukturen
5 14.11. R Basics III: Kontrollstrukturen
6 21.11. R Basics IV: Funktionen und Pakete
7 28.11. Ausgefallen
8 05.12. R Basics Wiederholung
9 12.12. Textanalyse mit Quanteda I: Korpus, Tokens, Daten und Dateien
10 19.12. Textanalyse mit Quanteda II: Preprocessing und Reguläre Ausdrücke
11 09.01. Textanalyse mit Quanteda III: Wortfrequenzanalysen
12 16.01. Part of Speech Tagging und Dependency Parsing mit UDPipe
13 23.01. Textanalyse Wiederholung
14 30.01. Named Entity Recognition
15 06.02. Arbeit mit XML-TEI Dateien: XML, TEI und XPath
16 13.02. Exkurs: Forschungsdaten beschaffen


Der Seminarplan ist erst einmal vorläufig. Je nach Lerntempo und Interessen werden wir das ein oder andere Thema mehr oder weniger vertiefen. Die Inhalte bauen grundsätzlich aufeinander auf: Zunächst beschäftigen wir uns mit sogenannten “unstrukturierten” Daten und später mit “(semi-)strukturierten” Daten. Nach einem Einstieg in R steigen wir in die Arbeit mit “rohem Text”, also Plaintext-Dateien, als Beispiel für unstrukturierte Daten ein und erarbeiten Grundkonzepte der quantitativen Textanalyse. Dabei werden wir auch diskutieren, was “geisteswissenschaftliche Daten” eigentlich sind. Danach behandeln wir zwei verschiedene Verfahren, wie Texte in R im Hinblick auf bestimmte Textinformationen strukturiert (man sagt auch “annotiert”) werden können: das automatisierte Erkennen von Wortarten (Part of Speech Tagging) und von “Entitäten” wie Personennamen und Ortsnamen (Named Entity Recognition). Zuletzt widmen wir uns XML-TEI-Dateien als Beispiel für die Analyse (semi-)strukturierter Textdaten. XML-TEI ist ein in den Digital Humanities weit verbreiteter Standard zur digitalen Darstellung von Texten, beispielsweise literarsichen Werken, archivalischen Quellen oder wissenschaftlichen Arbeiten. Mithilfe von XML-TEI können Textinformationen, zum Beispiel Metadaten und bestimmte Bestandteile des Textes, strukturiert dargestellt werden. Die vorgestellten Verfahren können wir natürlich in der kurzen Zeit nur sehr, sehr oberflächlich behandeln. Das Ziel ist es, dass ihr am Ende des Semesters Grundkonzepte des Programmierens in R und grundlegende Anwendungen der Programmiersprache im Bereich der Textanalyse kennt und euch die Fertigkeiten erarbeitet habt, fortgeschrittenere Themen eigenständig weiter zu vertiefen.

Da wir viele Themen besprechen werden, erfordert dieses Seminar ein hohes Maß an Motivation und Durchhaltevermögen. Jede Woche wird es Übungsaufgaben geben. Die Bearbeitung der Übungsaufgaben ist verpflichtend und insbesondere zur Vor- und Nachbereitung der Einstiegssitzungen essentiell, denn sonst wird es sehr schwierig sein, später mitzukommen. Die Lernkurve ist demenstprechend steil: