Inhaltsanalyse mit künstlicher Intelligenz

Seminar #28535 im Modul Methoden: Wissenschaftstheoretische Grundlagen, Datenerhebung und Statistik, Sommersemester 2024

Dozent

Prof. Dr. Marko Bachl

Zeit

Montag, 14:15

Ort
Ihnestr.21/E Seminarraum 115

Zuletzt aktualisiert am 03. 05. 2024, 12:04 Uhr

DALL·E 3; Prompt

Überblick

In diesem Methodenseminar beschäftigen wir uns mit der durch Künstliche Intelligenz (KI) unterstützten standardisierten Inhaltsanalyse. Seit der Verbreitung von großen Sprachmodellen (bekanntes Beispiel: ChatGPT) gibt es Bemühungen, die arbeitsintensive Klassifikation von Medien- und Kommunikationsinhalten durch KI-Modelle erledigen zu lassen. Die Idee wirkt auf den ersten Blick bestechend einfach: Die Inhalte werden zusammen mit einer Beschreibung der Konstrukte an das KI-Modell übergeben, welches dann die Kategorisierung übernimmt. Dieses Einordnen der Inhalte in vorgegebene Kategorien ohne weiteres Trainingsmaterial wird Zero-shot-Klassifikation genannt. Wie gut das für welche Anwendungen funktioniert, werden wir im Seminar herausfinden.

Im Kurs lernen die Studierenden den gesamten Forschungsprozess einer KI-unterstützten Inhaltsanalyse praktisch kennen — von Themenfindung und Formulierung von Forschungsfragen oder Hypothesen über Ziehen einer Stichprobe von Medieninhalten, Operationalisierung von zentralen Konstrukten, Aufbereitung der Inhalte und Operationalisierungen für das KI-Modell, Kommunikation mit einem KI-Modell, Validierung der Klassifikation, Klassifikation des Untersuchungsmaterials bis hin zu Analyse und Ergebnispräsentation.

Im Laufe des Semesters führen die Studierenden in Arbeitsgruppen eine eigene KI-unterstützte Inhaltsanalyse durch. In etwa jeder zweiten Sitzung gibt es Präsentationen der Arbeitsgruppen zum Projektfortschritt und Feedback. In der jeweils anderen Sitzung werden die nächsten Projektschritte erklärt. So werden die Studierenden Schritt für Schritt durch den Forschungsprozess ihrer ersten empirischen Studie geführt.

Rahmenbedingungen für die Forschungsprojekte

  • Social-Media-Kommentare
  • Keine inhaltliche Untersuchung von Bildern oder Videos
  • Keine längeren Texte, vor allem Ausgangsposts
  • Thematisch offen: Wichtig ist, dass es Sie interessiert und motiviert
  • Auf einigen Plattformen (z.B. YouTube, Telegram) lassen sich Kommentare einfacher erheben als auf anderen (z.B. Instagram, X). Kein Ausschlusskriterium, aber informierte Entscheidung.
  • Pragmatische Eingrenzung:
    • Suchen Sie sich einfach messbare Vergleichsgruppen, z.B. zwischen Gender (binär), Parteien, Unternehmen, …
    • Fokussieren Sie inhaltlich auf wenige, klar definierte Konstrukte (vielleicht sogar nur eines).

Ablauf und Inhalte

[I] = Input: MB erklärt anstehenden Arbeitsschritt

[P & F] = Präsentation & Feedback: Studierende präsentieren Projektfortschritt (Teilleistung zur Aktiven Teilnahme), Kurs und MB geben Feedback

[AT] = Präsentation zur Aktiven Teilnahme


1) 15. 04. 2024: Hallo

  • Präsentation
  • Intro, Kennenlernen und Organisation
  • Vorstellen des thematischen Rahmens
  • Demo: Zero-shot-Klassifikation mit Künstlicher Intelligenz
  • Lehrtext(e) finden und Zugang sicherstellen

2) 22. 04. 2024: [I] Manuelle und automatisierte Inhaltsanalyse

  • Kennenlernen und Organisation in der Arbeitsgruppe
  • Thema finden
  • Abstract und Forschungsfragen und/oder Hypothesen formulieren (Rössler, 2017, Kapitel 2)

3) 29. 04. 2024: [P & F] Geplante Forschungsprojekte

  • Präsentation der Abstracts [AT], Diskussion und Feedback
  • Überarbeitung von Abstract, Forschungsfragen, Hypothesen

4) 06. 05. 2024: [I] Grundgesamtheit, Stichprobenziehung und Datenerhebung

  • Entwicklung eines Stichprobenplans für die geplante Studie
  • Überprüfung der Machbarkeit (noch nicht: Durchführung)
  • Festhalten des Ergebnisses im Wiki der Arbeitsgruppe bis Montag, 13. Mai, 9 Uhr.
  • Vorstellen des Stichprobenplans in max. 10-minütiger Präsentation

5) 13. 05. 2024: [P & F] Stichprobenpläne

  • Vorstellung der Stichprobenpläne [AT], Diskussion und Feedback
  • Überarbeitung der Stichprobenpläne (an MB senden zur Freigabe)

6) 20. 05. 2024: Keine Sitzung (Pfingstmontag)

  • Datenerhebung nach den entwickelten Stichprobenplänen (Nach Freigabe durch MB)

7) 27. 05. 2024: [I] Von theoretischen Konzepten zur Operationalisierung

  • Kategoriensystem und Prompts (1. Entwurf)

8) 03. 06. 2024: [P & F] Operationalsierung

  • Vorstellung der Kategoriensysteme und Prompts [AT], Diskussion und Feedback
  • Überarbeitung von Kategoriensystem und Prompts

9) 10. 06. 2024: [I] Qualitätskriterien in der (automatisierten) Inhaltsanalyse

  • Validierung des Zero-Shot-Klassifikators
    • Klassifikation durch AG-Mitglieder (Testdaten)
    • Klassifikation der Testdaten durch KI-Modell
    • Vergleich der Klassifikationen

10) 17. 06. 2024: [P & F] Validierung des Zero-Shot-Klassifikators

  • Präsentation der Validierungsergebnisse [AT], Diskussion und Feedback
  • Anpassung des Klassifikators, ggf. erneute Tests (wenn nötig und möglich)

11) 24. 06. 2024: Durchführung der Zero-Shot-Klassifikation

  • Finalisieren des Klassifikators (Prompts), Aufbereitung des Untersuchungsmaterials

Gruppentermine: Unterstützung bei der Durchführung

  • Durchführung der Klassifikation

12) 01. 07. 2024: [I] Datenanalyse

  • Datenanalyse

13) 08. 07. 2024: Puffer — ggf. Datenanalyse

  • Puffer-Sitzung, falls der Zeitplan nicht zu halten ist; Wenn alles bis hierhin gut läuft: Gruppentermine zur Datenanalyse
  • Ergebnispräsentation

14) 15. 07. 2024: Abschlusssitzung

  • Ergebnispräsentation [AT] und Diskussion
  • Forschungsbericht (Nur für Medieninformatik-Studierende)

Lehrtexte

Als deutschsprachiges Lehrbuch zur standardisierten Inhaltsanalyse empfehle ich Rössler (2017). Gute englischsprachige Lehrbücher sind Neuendorf (2017) und Krippendorff (2019). Allerdings sind die Inhalte zur automatisierten Inhaltsanalyse in diesen Büchern nicht aktuell und sollten ignoriert werden. Törnberg (2023, 2024) hat zwei gute Einführungstexte zur Nutzung von Large Language Models für die Zero-Shot-Klassifikation veröffentlicht. Gilardi et al. (2023) und Heseltine & Clemm von Hohenberg (2024) evaluieren die Leistungsfähigkeit von solchen Klassifikationen im Bereich der politischen Kommunikation. Alle genannten Texte sind entweder frei verfügbar oder über den FU-Account auf dem Campus bzw. per VPN-Client zugänglich.

Lernziele

Allgemeines Ziel der Seminare im Methoden-Modul ist die praktische Anwendung der in den Vorlesungen besprochenen Inhalte. Durch die praktische Auseinandersetzung mit den Forschungsmethoden können die Studierenden nach dem Semester Studienergebnisse aus der Literatur besser einordnen und zukünftige Studien eigenständiger durchführen. Im Detail sollen die Studierenden in diesem Seminar folgende Kompetenzen erwerben:

  • Die Studierenden verstehen den Forschungsprozess einer standardisierten Inhaltsanalyse und können diesen praktisch durchführen. Insbesondere können sie eine Forschungsfrage formulieren, die mit einer Inhaltsanalyse zu beantworten ist; eine Stichprobe von Kommunikations- oder Medieninhalten ziehen und das Material beschaffen; ein Kategoriensystem und ein Codebuch entwickeln; die Inhalte für die KI-Plattform aufbereiten; die Klassifikation durchführen und validieren; die erhobenen Daten analysieren; und die Ergebnisse präsentieren.
  • Die Studierenden verstehen die Kommunikation mit einer KI-Plattform mittels einer Programmierschnittstelle (API). Der Kurs ist allerdings kein Programmierkurs. Weder werden Programmierkenntnisse systematisch vermittelt, noch ist es notwendig, diese Kenntnisse bereits mitzubringen oder sich anzueignen.
  • Die Studierenden haben die Fähigkeit, ein komplexes Projekt über einen Zeitraum von mehreren Wochen in Teamarbeit durchzuführen. Dazu gehört das Organisieren der gemeinsamen Arbeit, das Aufteilen von Aufgaben, das Zusammenführen der Teilarbeiten und das Einhalten von Terminen und Abgabefristen.
  • Die Studierenden können den Prozess und die Ergebnisse einer empirischen Studie präsentieren.
  • Die Studierenden können anderen konstruktives Feedback zu einer empirischen Studie geben und selbst Feedback annehmen.

Lehr- und Lernform

Die Veranstaltung ist ein Seminar im Modul Methoden: Wissenschaftstheoretische Grundlagen, Datenerhebung und Statistik. Nachdem die Vorlesung Methoden I: Wissenschaftstheoretische Grundlagen und Datenerhebung die wichtigsten Grundlagen zu Studiendesign und Datenerhebung vermittelt hat und die Vorlesung Methoden II: Einführung in die Wahrscheinlichkeitstheorie und Statistik parallel in die Datenauswertung einführt, wollen wir in dieser Veranstaltung erste praktische Erfahrungen sammeln. Dazu werden wir in diesem Seminar eine oder mehrere empirische Studien durchführen. Die Arbeit der Studierenden steht dabei im Zentrum. Sie sollen, begleitet und unterstützt durch die Lehrenden, eine eigene Studie konzipieren und durchführen. Das erfordert aktive Beteiligung und Mitarbeit über die gesamte Vorlesungszeit hinweg. In den Sitzungen und darüber hinaus wollen wir eine kritische, konstruktive und wertschätzende Diskussionskultur pflegen. Während der Sitzungen sollen die Studierenden sich gegenseitig Feedback zu ihren Forschungsprojekten geben. Die Lehrenden stehen auch außerhalb der Seminarzeiten für Feedback und Unterstützung bereit.

Leistungen

Überblick

Alle Studierende

  • 5 Leistungspunkte ≈ 125-150 Stunden Arbeitsaufwand
  • Aktive Teilnahme
    • Durchführung einer Studie in Arbeitsgruppen
    • Beteiligung an Diskussionen in den Seminarsitzungen
    • Verantwortlichkeit für Koordination und Präsentation eines Arbeitsschritts

Studierende mit Kernfach Publizistik- und Kommunikationswissenschaft

  • Keine Note, nur bestanden / nicht bestanden nach aktiver Teilnahme

Studierende des Bachelor-Programms Medieninformatik

  • Zusätzlich benotete Hausarbeit

Mitarbeit an Forschungprojekt

  • Gruppenarbeit zur Durchführung eines Forschungsprojekts
  • Alle Mitglieder beteiligen sich an allen Arbeitsschritten;

Koordination und Präsentation eines Arbeitsschritts

  • Siehe [AT] in der Sitzungsübersicht zu Terminen und Themen
  • Alleine oder ggf. zu zweit (in Gruppen mit mehr als 5 Studierenden)
  • Verantwortlich für die Koordination der Gruppe für diesen Arbeitsschritt. Arbeit soll von allen Gruppenmitgliedern getragen werden.
  • Je nach Arbeitsschritt 10- bis 20-minütige Präsentation
  • Anleitung der Diskussion zum Einholen von Feedback
  • Material zur Präsentation bis spätestens 9 Uhr am Tag der Präsentation in Blackboard hochladen
  • Präsentation soll Kritik ermöglichen, nicht abwehren

Hausarbeit (nur Medieninformatik-Studierende)

  • Verschriftlichung des Forschungsprozesses und der Ergebnispräsentation
  • 10-12 Seiten Text
  • Abgabe bis zum 30. 09. 2024
  • Details in Blackboard; bei Bedarf Webex-Termin zur Hausarbeit

Kommunikation und Kursmaterial

  • Syllabus (dieses Dokument): Hier finden Sie alle wichtigen Informationen zu Ablauf und Inhalten des Seminars. Das Dokument wird regelmäßig aktualisiert. Bitte sehen Sie zuerst hier nach, wenn Sie eine Frage haben.
  • Blackboard: Hier finden Sie alle Materialien zum Kurs, die nicht öffentlich verfügbar sind. Außerdem können Sie hier Ihre Präsentationen hochladen und sich im Diskussionsforum austauschen.
  • Meine Kontaktdaten finden Sie am Ende dieses Dokuments. Die Antworten auf Fragen, die alle Studierenden betreffen, werde ich im Forum auf Blackboard veröffentlichen.

Arbeitsgruppen

Die Zusammenarbeit in den Arbeitsgruppen ist ein wesentlicher Bestandteil des Seminars. Teamarbeit ist zudem ein wichtiger Soft Skill, den Sie über dieses Seminar und Ihre akademische Ausbildung hinaus benötigen werden. Im Team macht die (Forschungs-) Arbeit mehr Spaß, ist kreativer und produktiver. Gruppenarbeiten können jedoch auch zu Konflikten führen. Wenn Sie Probleme in Ihrer Gruppe haben, sprechen Sie diese bitte frühzeitig innerhalb der Gruppe und/oder mir gegenüber an.

Hier einige Tipps, die Ihnen die Gruppenarbeit erleichtern können:

  • Aufgabenverteilung: Teilen Sie die Aufgaben und Verantwortlichkeiten frühzeitig und gleichmäßig auf. Legen Sie bereits während der ersten Treffen fest, wer welche Präsentation halten und damit welchen den Arbeitsschritt verantworten wird. Denken Sie aber auch daran, dass diese Person(en) nur die Koordination und Präsentation verantworten sollen. Die inhaltliche Arbeit soll von allen Gruppenmitgliedern getragen werden.
  • Kommunikation: Klären Sie frühzeitig, wie Sie miteinander kommunizieren wollen. Vereinbaren Sie feste Termine für Treffen und halten Sie diese ein. Planen Sie, wenn möglich, ein persönliches Arbeitstreffen für jeden Arbeitsschritt ein. Nutzen Sie darüber hinaus digitale Tools wie Messenger, E-Mail oder Videokonferenzen, um sich abzustimmen.
  • Infrastruktur:
    • Webex steht mit Ihrem FU-Account kostenlos zur Verfügung. Hier können Sie nicht nur Videokonferenzen abhalten, sondern auch Teamchats organisieren.
    • In der Universitätsbibliothek gibt es Gruppenarbeitsräume, die Sie für Gruppentreffen buchen und nutzen können.
    • Box.FU ist eine Cloud-Speicherlösung, die Ihnen zur Verfügung steht. Hier können Sie gemeinsam an Dokumenten arbeiten und diese für alle verfügbar speichern.
    • Hier finden Sie eine Liste von Software, die allen Studierenden kostenlos zur Verfügung steht.
    • Natürlich können und dürfen Sie auch andere Werkzeuge nutzen, die Ihnen die Zusammenarbeit erleichtern. Achten Sie bitte darauf, dass alle Gruppenmitglieder Zugriff auf die genutzten Werkzeuge haben. Die oben genannten Werkzeuge stehen über den FU-Account allen Studierenden zur Verfügung.

Nutzung von KI-Werkzeugen und Plagiate

Vermutlich kennen Sie die Möglichkeiten von KI-Werkzeugen wie ChatGPT, Ihnen bei verschiedenen Aufgaben im Studium zu helfen. Falls Sie es noch nicht getan haben, empfehle ich Ihnen, diese Werkzeuge auszuprobieren. Es ist wahrscheinlich, dass diese zukünftig in Studium und Berufsleben zum Einsatz kommen werden. Daher ist es wichtig, sich mit diesen Werkzeugen vertraut zu machen und ihre Stärken und Schwächen kennenzulernen. Für Ihren Studien- und Lernerfolg sind jedoch einige Arten der Verwendungen ratsamer als andere.

Bevor Sie eine Aufgabe direkt mit Hilfe eines KI-Werkzeugs angehen, bedenken Sie bitte zuerst, was Sie dadurch verlieren können. Die Aufgaben, die Ihnen im Studium gestellt werden, dienen dazu, dass Sie bestimmte Tätigkeiten (wiederholt) einüben. Das gibt Ihnen die Möglichkeit, sich im Laufe der Zeit zu verbessern und Ihre Fähigkeiten zu vertiefen. Das wird allerdings nur funktionieren, wenn Sie die Aufgabe tatsächlich selbst bearbeiten. Wenn Sie sich zu früh im Arbeitsprozess auf KI-Werkzeuge verlassen, werden Sie sich diese Fähigkeiten nicht oder zumindest weniger gut aneignen. Wenn Sie KI-Werkzeuge dagegen gar nicht nutzen, verzichten Sie auf das Kennenlernen eines Werkzeugs, das die Arbeitswelt in Zukunft prägen könnte.

Ich empfehle Ihnen daher, jeden Arbeitsschritt zuerst ohne KI-Unterstützung anzugehen, um die jeweils benötigten Fähigkeiten einzuüben. Danach können Sie Ihre Arbeit mit den Vorschlägen eines KI-Werkzeugs vergleichen. Diese können Sie nutzen, um Ihre Arbeit zu verbessern. Sie werden aber auch häufig feststellen, dass die Vorschläge des KI-Werkzeugs nicht korrekt oder weniger gut geeignet sind als Ihre eigenen Vorschläge. Durch den Vergleich verschiedener Werkzeuge und Verwendungsarten (z.B. Formulierung der Prompts) können Sie herausfinden, wie Sie das meiste aus den KI-Werkzeugen herausholen.

Bitte beachten Sie bei Erbringen von Studienleistungen, insbesondere bei der Einreichung von Hausarbeiten oder Abschlussarbeiten, die Hinweise zum Einsatz KI-basierter Werkzeuge und zu Plagiaten im Leitfaden zum wissenschaftlichen Arbeiten. Wichtig ist, den Einsatz von KI-Werkzeugen und die Quellen von Informationen zu dokumentieren und transparent kenntlich zu machen. Nur Sie alleine sind für die von Ihnen eingereichte Arbeit verantwortlich, einschließlich der Überprüfung, ob sie korrekt ist und den akademischen Integritätsstandards entspricht. Ein durch ein KI-Werkzeug erzeugtes Plagiat bleibt ein Plagiat, auch wenn Sie die KI-Nutzung dokumentieren oder die plagiierte Quelle nicht kennen.

Konkret ist die Verwendung von KI-Werkzeugen in diesem Seminar zu den folgenden Zwecken erlaubt:

  • Hilfe beim Verstehen von Konzepten oder Studien
  • Hilfe beim Sammeln von und Ideen oder beim Erstellen von Gliederungen
  • Hilfe bei einzelenen Schritten des Forschungsprozesses (z.B. bei der Formulierung von Fragen oder Kategorien oder der Auswahl geeigneter statistischer Tests)
  • Hilfe beim Identifizieren und Korrigieren von Grammatik-, Rechtschreib- und Zeichensetzungsfehlern
  • Hilfe bei der Arbeit mit Programmiersprachen (z.B. in R oder Python)

Die Verwendung für die folgenden Zwecke ist in diesem Seminar nicht erlaubt:

  • Verwenden von hauptsächlich KI-generiertem Text (wörtlich oder in bearbeiteter Form) in Präsentationen oder schriftlichen Aufgaben ohne Angabe der Quelle
  • Erledigen kompletter Arbeitsschritte, Aufgaben oder Hausarbeiten mit KI-Werkzeugen

Wenn Sie KI-Werkzeuge verwenden, um Text zu generieren, müssen Sie dies transparent machen. Bitte geben Sie eine Beschreibung an, wie Sie KI-Werkzeuge in einer Aufgabe verwendet haben. Denken Sie daran, dass KI-Werkzeuge oft falsche Antworten geben, die für Nicht-Expert:innen schwer zu erkennen sind. Für die Richtigkeit der Antworten sind aber Sie alleine verantwortlich.

Dieses Seminar ist (für die meisten Studierenden) nicht benotet. Sie haben die Chance, sich praktisch im empirischen Arbeiten auszuprobieren. Sie erhalten Kritik und Verbesserungsvorschläge. Es ergibt keinen Sinn, hier unredliche Mittel einzusetzen — also bitte einfach sein lassen.

Diversität, Gleichbehandlung und Inklusivität

Mein Ziel ist es, dass alle Studierenden sich in diesem Seminar willkommen fühlen und aktiv beteiligen können. Ich bemühe mich, durch die Kursplanung und meine Sprache niemanden zu diskriminieren oder auszuschließen. Ebenso erwarte ich von allen Teilnehmenden, dass sie sich respektvoll und wertschätzend verhalten und die Meinungen und Erfahrungen anderer Studierender achten. Gleichzeitig ist klar, dass es weder mir noch den Studierenden immer gelingen wird, diese Erwartung vollständig zu erfüllen. Daher bitte ich Sie, mich oder Ihre Kommilitoninnen und Kommilitonen darauf hinzuweisen, wenn Sie sich unwohl fühlen oder diskriminierende Verhaltensweisen beobachten. Wenn Sie das nicht selbst tun möchten, können Sie auch eine Vertrauensperson damit beauftragen.

Mentale Gesundheit

Ein Studium ist anspruchsvoll und die Studienzeit als eine Umbruchsphase bringt viele Herausforderungen mit sich, innerhalb und außerhalb der Universität. Wenn Sie sich überfordert fühlen, nutzen Sie Unterstützungsangebote wie den Mental Wellbeing support.point am Fachbereich Politik- und Sozialwissenschaften oder die Psychologische Beratung der Freien Universität Berlin. Sprechen Sie mich direkt oder über eine Vertrauensperson an, wenn Ihre Situation und die Anforderungen der Lehrveranstaltung in einen Konflikt kommen.

Kontakt

Prof. Dr. Marko Bachl

Arbeitsstelle Digitale Forschungsmethoden

E-Mail: marko.bachl@fu-berlin.de

Telefon: +49-30-838-61565

Webex: Persönlicher Raum

Büro: Garystr. 55, Raum 274

Sprechstunde: Dienstag, 9-11 Uhr, Anmeldung per E-Mail.

Dokumentation der Verwendung von KI-Werkzeugen

  • Dieses Dokument habe ich in RStudio mit aktiviertem Github Copilot erstellt. Copilot nutzt proprietäre KI-Modelle, um Vorschläge für die nächsten Eingaben zu machen. Obwohl das Werkzeug zur Hilfe bei der Programmierung optimiert ist, kann es auch Vorschläge zu Texten machen. Einige dieser Vorschläge habe ich übernommen und angepasst.
  • Das Bild am Anfang des Dokuments wurde mit dem Modell DALL·E 3 erstellt, der Prompt und der verwendete Dienst sind oben verlinkt.

Literatur

Gilardi, F., Alizadeh, M., & Kubli, M. (2023). ChatGPT outperforms crowd workers for text-annotation tasks. Proceedings of the National Academy of Sciences, 120(30), e2305016120. https://doi.org/gsqx5m
Heseltine, M., & Clemm von Hohenberg, B. (2024). Large language models as a substitute for human experts in annotating political text. Research & Politics, 11(1), 20531680241236239. https://doi.org/gtkhqr
Krippendorff, K. (2019). Content analysis: An introduction to its methodology (4. Aufl.). SAGE. https://doi.org/mmsp
Neuendorf, K. A. (2017). The content analysis guidebook (2. Aufl.). SAGE. https://doi.org/dz7p
Rössler, P. (2017). Inhaltsanalyse (3. Aufl.). UVK. https://doi.org/mqx8
Törnberg, P. (2023). How to use LLMs for text analysis. arXiv. https://doi.org/mqx9
Törnberg, P. (2024). Best Practices for Text Annotation with Large Language Models. arXiv. https://doi.org/gtn9qf