Inhaltsanalyse mit künstlicher Intelligenz: S02

Seminar #28535 im Modul Methoden: Wissenschaftstheoretische Grundlagen, Datenerhebung und Statistik, Sommersemester 2024

Marko Bachl

Freie Universität Berlin

20. 04. 2024

Herzlich Willkommen

Agenda

  1. Check-in

  2. Wiederholung: Forschungsprozess der Inhaltsanalyse

  3. Kurzer Überblick: Automatisierte Inhaltsanalyse, Maschinelles Lernen, Große Sprachmodelle und Zero-shot Klassifikation

  4. Aufgaben bis zur nächsten Woche

  5. Gruppenbildung und Organisation

Check-in

Folien der heutigen Sitzung

Wiederholung: Forschungsprozess der Inhaltsanalyse

Wiederholung

Vorlesung Wissenschaftstheoretische Grundlagen und Datenerhebung, Prof. Emmer

Aufgabe

  • Besprechen Sie sich mit Ihrer Sitznachbar:in.
    • Erklären Sie sich gegenseitig im Schnelldurchlauf den Forschungsprozess der Inhaltsanalyse auf der nächsten Folie. Wechseln Sie sich dabei Schritt für Schritt ab.
    • Wenn Ihnen etwas unklar ist, machen Sie eine kurze Notiz zum Nachfragen und gehen Sie dann zum nächsten Schritt.
  • Sie haben 7 Minuten Zeit.
07:00

Forschungsprozess der Inhaltsanalyse

Kurzer Überblick: Automatisierte Inhaltsanalyse, Maschinelles Lernen, Große Sprachmodelle und Zero-shot Klassifikation

Automatisierte Inhaltsanalyse?

Automatisierte Inhaltsanalyse

(Grimmer & Stewart, 2013, Ausschnitt aus Fig. 1)

Maschinelles Lernen?

Bag-of-Words Machine Learning

Abbildungen von Philipp K. Masur

Große Sprachmodelle (Large Language Models, LLMs)?

LLMs und Transfer Learning

Abbildungen von Philipp K. Masur

Zero-shot Klassifikation?

Zero-shot Klassifikation

Abbildungen von Philipp K. Masur

Zero-shot Klassifikation: Hype (?)

Zero-shot Klassifikation: Erste Befunde

(Gilardi et al., 2023, Fig. 1)

Zero-shot Klassifikation: Erste Befunde

(Heseltine & Clemm von Hohenberg, 2024, Fig. 1)

Fragen?

Aufgaben bis zur nächsten Woche

Aufgaben bis zur nächsten Woche

Aufgaben

  • Kennenlernen und Organisation in der Arbeitsgruppe
  • Thema finden
  • Abstract und Forschungsfragen und/oder Hypothesen formulieren (Rössler, 2017, Kapitel 2)

Organisation in der Arbeitsgruppe

Seminarplan

https://bachl.quarto.pub/inhaltsanalyse_mit_ki/#arbeitsgruppen

Organisation in der Arbeitsgruppe

Aufgaben zur Aktiven Teilnahme

Bitte tragen Sie die Aufteilung der Aufgaben ins Wiki auf Blackboard ein. Die Aufgabe umfasst jeweils Koordination und Präsentation des Arbeitsschritts. In Gruppen mit 6 Mitgliedern dürfen sich für eine Aufgabe zwei Studierende eintragen.

  1. Themenfindung, Abstract und Forschungsfragen und/oder Hypothesen

  2. Stichprobenplan und Beschaffung der Daten

  3. Kategoriensystem und Prompt (Erster Entwurf und erste Überarbeitung)

  4. Validierung des Klassifikators und ggf. Überarbeitung

  5. Datenanalyse und Ergebnispräsentation

Thema finden

Rahmenbedingungen

  • Social-Media-Kommentare
  • Thematisch offen: Wichtig ist, dass es Sie interessiert und motiviert
  • Keine inhaltliche Untersuchung von Bildern oder Videos
  • Keine längeren Texte, vor allem Ausgangsposts

Thema finden

Tipps für eine realistische Themenwahl: Explanandum

  • Beschränken Sie sich auf ein zentrales Konstrukt Y, dessen Vorkommen in Social-Media-Kommentaren untersucht werden soll.
    • \(Y\) sollte mit erkennbarer Häufigkeit vorkommen (kein sehr seltenes Phänomen).
    • \(Y\) sollte sich ohne allzu großes Kontextwissen klar definieren lassen.
    • \(Y\) sollte im Idealfall bereits (inhaltsanalytisch) erforscht sein.

Thema finden

Tipps für eine realistische Themenwahl: Explanans

  • Suchen Sie eine (oder wenige) gruppenbildende Variable(n) \(X\), nach der Sie das Vorkommen von \(Y\) vergleichen wollen.
    • FF: Unterscheidet sich \(Y\) zwischen \(X_1\) und \(X_2\)?
    • H: In \(X_1\) ist \(Y\) häufiger als in \(X_2\).
    • Beschränken Sie sich auf ein \(X\) mit wenigen (2-4) Ausprägungen.
    • \(X\) sollte einfach zu messen sein und sich im Idealfall schon bei der Stichprobenziehung berücksichtigen lassen.

Abstract und Forschungsfragen und/oder Hypothesen formulieren

  • Maximaler Umfang: 1 DIN A4-Seite (ca. ½ Seite Text + Forschungsfragen und/oder Hypothesen)
  • Fügen Sie das Abstract bitte unten auf der Wiki-Seite Ihrer Arbeitsgruppe ein. Frist: Montag, 9 Uhr.
  • Das Abstract umfasst eine kurze Relevanzbegründung, Nennen und kurze Erklärung der \(X\) und \(Y\), kurzer Bezug zu Theorien und Forschungsstand, erste Überlegungen zum Untersuchungsmaterial (welche Plattform, …) sowie die Forschungsfragen und/oder Hypothesen.
  • Bereiten Sie eine maximal 10-minütige Präsentation zum Abstract vor. Die Präsentation soll so gestaltet sein, dass sie Feedback aus dem Seminar ermöglicht.

Fragen?

Bilden der Arbeitsgruppen

Bilden der Arbeitsgruppen

  • 5 Arbeitsgruppen

  • 28 Studierende

  • 3 Gruppe mit 6 Studierenden, 2 Gruppen mit 5 Studierenden

Fragen?

Aufgaben bis zur nächsten Woche

  • Kennenlernen und Organisation in der Arbeitsgruppe
  • Thema finden
  • Abstract und Forschungsfragen und/oder Hypothesen formulieren

Fragen?

Vielen Dank — bis nächste Woche

Marko Bachl

Literatur

Gilardi, F., Alizadeh, M., & Kubli, M. (2023). ChatGPT outperforms crowd workers for text-annotation tasks. Proceedings of the National Academy of Sciences, 120(30), e2305016120. https://doi.org/gsqx5m
Grimmer, J., & Stewart, B. M. (2013). Text as data: The promise and pitfalls of automatic content analysis methods for political texts. Political Analysis, 21(3), 267–297. https://doi.org/f458q9
Heseltine, M., & Clemm von Hohenberg, B. (2024). Large language models as a substitute for human experts in annotating political text. Research & Politics, 11(1), 20531680241236239. https://doi.org/gtkhqr
Rössler, P. (2017). Inhaltsanalyse (3. Aufl.). UVK. https://doi.org/mqx8