Über diesen Kurs
Warum R?
Was ist R überhaupt?
R Thirst Traps
Seminarplan
Lernziele
Organisatorisches
Hilfe!!
Installation und Setup
Orientierung im RStudio
1
R Basics I: Datentypen, Variablen und Operatoren
1.1
Grundlegende Begriffe
1.2
Style Guide
1.3
Kommentare
1.4
Datentypen
1.5
Operatoren
1.6
Variablen
1.7
Operatorpräzedenz
Quellen
2
R Basics II: Datenstrukturen
2.1
Grundlegende Begriffe
2.2
Vektoren
2.2.1
Vektoren erstellen
2.2.2
Sets (Mengen)
2.2.3
Named Vectors
2.2.4
Faktoren
2.2.5
Operationen auf Vektoren
2.2.6
Vektorisierung
2.3
Listen
2.3.1
Listen erstellen
2.3.2
Operationen auf Listen
2.4
Auf einen Blick: Vektoren vs benannte Vektoren vs Faktoren vs Listen
2.5
Matrizen
2.5.1
Matrizen erstellen
2.5.2
Operationen auf Matrizen
2.6
Arrays
2.6.1
Operationen auf Arrays
2.7
Dataframes
2.7.1
Dataframes erstellen
2.7.2
Operationen auf Dataframes
2.8
Auf einen Blick: Matrizen vs Arrays vs Dataframes
2.9
Datenstrukturen untersuchen
2.10
Fehlende und ungültige Werte in Datenstrukturen
2.11
Der Mitgliedschaftsoperator %in%
2.12
Unveränderbarkeit von Objekten in R
Quellen
3
R Basics III: Kontrollstrukturen
3.1
Grundlegende Begriffe
3.2
Bedingte Anweisungen
3.3
Verzweigungen
3.4
while-Schleifen
3.5
for-Schleifen
3.6
Schleifen abbrechen
Quellen
4
R Basics IV: Funktionen und Pakete
4.1
Grundlegende Begriffe
4.2
Was sind Funktionen?
4.3
Funktionen definieren
4.4
Funktionen aufrufen
4.5
Funktionen verstehen
4.6
Wozu werden Funktionen verwendet?
4.7
Schleifen ersetzen mithilfe von Funktionen
4.7.1
Die Apply-Funktionen
4.8
Gültigkeit der Funktionsargumente überprüfen
4.9
Funktionsumgebung und Sichtbarkeitsbereich von Variablen
4.10
Was sind Pakete?
4.11
Pakete installieren
4.12
Pakete laden
4.13
Wozu werden Pakete verwendet?
4.14
Welche Pakete gibt es denn alles?
Quellen
5
Textanalyse I: Korpus, Tokens, Daten und Dateien
5.1
Was sind eigentlich Daten?
5.2
Korpus, Tokens und Types
5.3
Vom Korpus zur Analyse
5.4
Überblick: Textanalyse mit Quanteda
5.5
Textdateien einlesen
5.6
Character Encodings
5.7
Quanteda corpus-Objekte
5.8
Quanteda tokens-Objekte
5.9
Quanteda DFM-Objekte
5.10
Daten schreiben
Quellen
6
Exkurs: Reguläre Ausdrücke
6.1
Was sind reguläre Ausdrücke?
6.2
Reguläre Ausdrücke in R
6.2.1
R Base Funktionen
6.2.2
Spezielle Pakete: stringr
6.3
Regex Syntax
6.3.1
Basics Syntax
6.3.2
Zeichenklassen
6.3.3
Lookarounds
6.4
Regex für nicht-lateinische Schriften
Weiterführende Links
7
Textanalyse II: Preprocessing
7.1
Tokenisieren und segmentieren
7.2
Reguläre Ausdrücke im Preprocessing
7.3
Satzzeichen, Zahlen und Sonderzeichen entfernen
7.4
Stoppwörter entfernen
7.5
Groß- und Kleinschreibung anpassen
7.6
Stemming
7.7
Lemmatisierung
7.7.1
Methode 1: Lemmatisierung mit Lexikon
7.7.2
Methode 2: Lemmatisierung mit UDPipe
Quellen
8
Textanalyse III: Wortfrequenzanalysen
8.1
Märchenkorpus einlesen und Pakete installieren
8.2
Corpus-Objekt erstellen und erste Preprocessingschritte
8.3
Worthäufigkeiten verstehen: absolute und relative Häufigkeiten
8.3.1
Absolute Häufigkeiten und das Zipf’sche Gesetz
8.3.2
Absolute Häufigkeiten und Lemmata
8.3.3
Relative Häufigkeiten und TF-IDF
8.4
Wörter im Kontext: gemeinsames Vorkommen von Wörtern
8.4.1
Keywords in Context (KWIC)
8.4.2
N-Gramme
8.4.3
Kookkurrenzen
8.4.4
Was bedeutet das gemeinsame Vorkommen zweier Wörter?
8.4.5
Zwischenfazit
Quellen
9
POS Tagging und Dependency Parsing
9.1
Recap UDPipe
9.2
Part of Speech Tagging mit UDpipe
9.3
Dependency Parsing mit UDPipe
9.4
Beispielanalyse: Märchen
9.4.1
Korpus einlesen und Preprocessing
9.4.2
Analyse mit POS Tags
9.4.3
Analyse mit Dependency Relations
9.5
Fazit
Quellen
10
Word Embeddings und NER
10.1
Word Embeddings
10.1.1
Count-Based Word Embeddings mit Quanteda und PMI-Werten
10.1.2
Prediction-Based Static Word Embeddings mit Quanteda und GloVe
10.2
Named Entity Recognition (NER)
10.3
Beispiel mit SpaCy / Spacyr
10.4
Beispiel mit Flair / FlaiR
10.5
Vergleich und Ausblick
Quellen
11
Exkurs: Web Scraping und APIs
11.1
Beispiel API: DraCor
11.2
Beispiel Web Scraping: Wikisource
12
Exkurs: XML, TEI und XPath
12.1
Was ist XML? Was ist TEI?
12.2
Aufbau von XML-TEI Dokumenten
12.3
Wohlgeformtheit und Validität
12.4
Wo findet man Korpora, die in XML-TEI ausgezeichnet sind?
12.5
Was ist XPath?
12.6
Basics XPath Syntax
Weiterführende Links und Literatur
Published with bookdown
Textanalyse mit R für die Geisteswissenschaften
Orientierung im RStudio