Wiederholung: Frequentistische Inferenzstatistik

Methoden II: Methoden der empirischen Kommunikations- und Medienforschung

Marko Bachl

Freie Universität Berlin

05. 05. 2025

Fragen zur Übung?

Heute: Wiederholungssitzung

  • Wir besprechen in dieser Sitzung ein halbes Semester der Bachelor-Vorlesung: Sehr viele Inhalte, sehr viele Folien. Wir werden manche Folien überhaupt nicht besprechen, manche nur sehr kurz. Diese Folien dienen zum Nachschlagen wichtiger Grundlagen.

  • Sitzungen mit neuen Inhalten werden weniger dicht.

Agenda

  1. Was ist (frequentistische) Inferenzstatistik?
  2. Univariate Schätzung von Populationsparametern
  3. Was sind Hypothesentests (Null-Hypothesen-Signifikanz-Tests, NHST)?
  4. Wie funktioniert NHST und was bedeutet “statistisch signifikant”?
  5. Bekannte (bivariate) NHST-Verfahren: TT-Test, χ2\chi^2-Test, FF-Test
  6. Warum sind NHST problematisch und wie können wir mit den Problemen umgehen?
  7. Übungsaufgaben

Daten der heutigen Sitzung

(Van Erkel, 2020; Van Erkel & Van Aelst, 2021)

Was ist (frequentistische) Inferenzstatistik?

Was ist (frequentistische) Inferenzstatistik?

Inferenzstatistik: Statistik, die auf der Basis von Stichprobenergebnissen induktiv allgemeingültige Aussagen formuliert. Zur Inferenzstatistik zählen die Schätzung von Populationsparametern (Schließen) und die Überprüfung von Hypothesen (Testen) (Bortz & Schuster, 2010, S. 581).

  • Schätzung von Populationsparametern (Schließen):
    • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?


  • Überprüfung von Hypothesen (Testen):
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.

Frequentistische Inferenzstatistik

  • Aussagen über Ergebnisse in (unendlich) vielen Wiederholungen der Studie
  • Langfristige Irrtumswahrscheinlichkeiten
  • Wenn wir viele Inferenzschlüsse machen, wollen wir uns insgesamt nur in einem vorher als akzeptabel festgelegtem Anteil aller Aussagen irren.


  • Wenn wir frequentistische Verfahren korrekt durchführen, dann wissen wir, dass wir uns nur selten irren…
  • … aber wir wissen nicht, wann wir uns irren.


  • In den Sozialwissenschaften am weitesten verbreitet
  • Alternative: Bayesianische Inferenzstatistik (zunehmend populärer; allgemein: McElreath (2020); für die Kommunikationswissenschaft: Chan & Rauchfleisch (2023))

Univariate Intervallschätzung von Populationsparametern

Was ist (frequentistische) Inferenzstatistik?

Inferenzstatistik: Statistik, die auf der Basis von Stichprobenergebnissen induktiv allgemeingültige Aussagen formuliert. Zur Inferenzstatistik zählen die Schätzung von Populationsparametern (Schließen) und die Überprüfung von Hypothesen (Testen) (Bortz & Schuster, 2010, S. 581).

  • Schätzung von Populationsparametern (Schließen):
    • Wie viele der sechs Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?


  • Überprüfung von Hypothesen (Testen):
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.

Univariate Intervallschätzung

  • Frage: Wo liegt der Wert eines Parameters in der Grundgesamtheit?


  • Allgemeines Vorgehen:
    • Berechnen des Punktschätzers (Mittelwert, Anteil in der Stichprobe)
    • Berechnen des Standardfehlers (Präzision des Punktschätzers; meist SE für eng. standard error)
    • Berechnen des Konfidenzintervalls aus Standardfehler, gewünschter Irrtumswahrscheinlichkeit und angenommener Verteilung des Schätzers


Standardfehler eines Mittelwerts

SEx=sn \text{SE}_{\bar x} = \frac{ s } { \sqrt{n}}

Standardabweichung durch Wurzel der Fallzahl

Standardfehler eines Anteils

SEp=p*(1p)n \text{SE}_{p} = \sqrt{ \frac {p * (1 - p)} {n} }

Wurzel aus (Anteil mal (1 - Anteil) durch Fallzahl)

Frequentistische Konfidenzintervalle

Univariate Intervallschätzung

  • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
d |>
  summarize(
    M = mean(Political_knowledge),
    SD = sd(Political_knowledge),
    n = n(),
    SE = SD / sqrt(n),
    t_critical = qt(0.975, df = n-1),  # t-value for 95% CI
    lower_ci = M - t_critical * SE,
    upper_ci = M + t_critical * SE
  ) |> 
  display()
M SD n SE t_critical lower_ci upper_ci
3.04 1.36 993 0.04 1.96 2.96 3.13

Die Menschen in Flandern beantworten durchschnittlich 3.04 (95%-Konfidenzintervall [2.96, 3.13]) Fragen korrekt.

Univariate Intervallschätzung

  • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
Variable Summary
Facebook [Never], % 49.5 [46.4, 52.7]
Facebook [Less than once a week], % 8.1 [6.5, 9.9]
Facebook [1 to 2 times a week], % 7.2 [5.7, 8.9]
Facebook [3 to 4 times a week], % 6.8 [5.4, 8.6]
Facebook [(Almost) daily], % 16.1 [14.0, 18.5]
Facebook [More than once a day], % 12.3 [10.4, 14.5]

49.5% (95%-Konfidenzintervall [46.4%, 52.7%]) der Flamen nutzen nie Facebook zur politischen Information.

Fragen?

Was sind Hypothesentests (Null-Hypothesen-Signifikanz-Tests, NHST)?

Was ist (frequentistische) Inferenzstatistik?

Inferenzstatistik: Statistik, die auf der Basis von Stichprobenergebnissen induktiv allgemeingültige Aussagen formuliert. Zur Inferenzstatistik zählen die Schätzung von Populationsparametern (Schließen) und die Überprüfung von Hypothesen (Testen) (Bortz & Schuster, 2010, S. 581).

  • Schätzung von Populationsparametern (Schließen):
    • Wie viele der sechs Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?


  • Überprüfung von Hypothesen (Testen):
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.

Idealtypischer Ablauf einer Studie mit NHST

(Field, 2024, S. 85)

Alternativhypothese und Nullhypothese

  • Die Alternativhypothese (H1H_1) bezeichnet die Hypothese, die wir auf Basis unserer theoretischen Überlegungen aufstellen.

  • Die Nullhypothese (H0H_0) besagt, dass der Sachverhalt, der in der Alternativhypothese formuliert wurde, nicht zutrifft.

  • In der praktischen wissenschaftlichen Arbeit formulieren und begründen wir in der Regel nur die Alternativhypothese. Die Nullhypothese ist implizit gegeben als die Menge aller Befunde, die unserer Alternativhypothese widersprechen. Sie wird aber nicht explizit formuliert.

Alternativhypothese und Nullhypothese

xkcd

Inhaltliche und statistische Hypothesen

  • Die inhaltliche Hypothese ist die Aussage, die wir aus der Theorie ableiten können, in sprachlicher Form ausgedrückt. Um sie mit Hilfe der quantitativen Datenanalyse überprüfen zu können, müssen wir sie möglichst präzise in einer (oder mehreren) statistische(n) Hypothese(n) formulieren.

Beispiel

  • Inhaltliche H1H_1: Männer wissen mehr über Politik als Frauen.
  • Operationalisierung:
    • aV: Antworten auf 5 Wissensfragen.
    • uV: Gender laut Selbstauskunft
  • Statistische H1H_1: MPolitical_knowledgeMänner>MPolitical_knowledgeFrauenM_{\text{Political_knowledge}_{\text{Männer}}} > M_{\text{Political_knowledge}_{\text{Frauen}}}
  • Statistische H0H_0: MPolitical_knowledgeMännerMPolitical_knowledgeFrauenM_{\text{Political_knowledge}_{\text{Männer}}} \leq M_{\text{Political_knowledge}_{\text{Frauen}}}
  • Alternative Formulierung für statistische H0H_0: MPolitical_knowledgeMännerMPolitical_knowledgeFrauen0M_{\text{Political_knowledge}_{\text{Männer}}} - M_{\text{Political_knowledge}_{\text{Frauen}}} \leq 0
  • Wir schätzen MPolitical_knowledgeMännerMPolitical_knowledgeFrauenM_{\text{Political_knowledge}_{\text{Männer}}} - M_{\text{Political_knowledge}_{\text{Frauen}}} und machen eine inferenzstatistische Aussage über diese Quantität in der Grundgesamtheit.

Fragen?

Wie funktioniert NHST und was bedeutet “statistisch signifikant”?

Signifikanz-Test-Test

Ein Forschungsteam will die Hypothese testen, dass die Rezeption eines Gewaltfilms die Aggressivität steigert. Dazu führt es ein perfekt randomisiertes Experiment mit zwei perfekt zufällig ausgewählten Gruppen (beide n = 50) durch.

Beide Gruppen sehen einen perfekt identischen Film, der sich nur in der Gewalthaltigkeit unterscheidet (Kontrollgruppe: Keine Gewalt; Experimentalgruppe: Sehr viel Gewalt).

Nach dem Film füllen die Teilnehmer:innen eine perfekte Skala zur Messung der Aggressivität aus (1 = überhaupt nicht aggressiv; 10 sehr aggressiv).

Signifikanz-Test-Test

Ein Mittelwervergleich mit T-Test ergibt das folgende Ergebniss:

  • Kontrollgruppe: M=5.2M = 5.2 (SD=2.1)(SD = 2.1); Experimentalgruppe: M=6.1M = 6.1 (SD=2.8)(SD = 2.8)
  • T-Test der Differenz: t(91)=1.82t(91) = 1.82, p=.079p = .079

Welche der folgenden Aussagen beschreiben das Ergebnis der Studie angemessen?

  1. Wenn das Team das Experiment genau so wiederholt, wird es in 921 von 1000 Studien einen mindestens genauso großen Unterschied in dieser Richtung beobachten wie in dieser Studie.
  2. Mit einer Wahrscheinlichkeit von 7,9% haben die Filmversionen denselben Einfluss auf die Aggressivität.
  3. Der Gewaltfilm hat keine Wirkung auf die Aggressivität.
  4. Wenn eine Person den Gewaltfilm sieht, wird sie mit einer Wahrscheinlichkeit von 92,1% aggressiver.
  5. Wenn der Gewaltfilm keinen Effekt auf die Aggressivität hat, dann wird das Team in 79 von 1000 Studien einen mindestens genauso großen Unterschied in dieser Richtung beobachten wie in dieser Studie.
  6. Mit einer Wahrscheinlichkeit von 92,1% steigert das Sehen des Gewaltfilms die Aggressivität.
  7. Der Unterschied ist mit einer Wahrscheinlichkeit von 7,9% zufällig zustande gekommen.

Idealtypischer Ablauf einer Studie mit NHST

(Field, 2024, S. 85)

Mögliche Fehler beim Hypothesen-Test

(Bortz & Schuster, 2010, S. 100)

  • Wir beachten meistens nur den Fehler 1. Art (auch α\alpha-Fehler):
    • α\alpha-Fehlerrate = Rate, mit der wir bei wiederholten Tests H0H_0 fälschlicherweise ablehnen
    • “Signifikanz-Test”
  • Wir sollten aber auch Fehler 2. Art (β\beta-Fehler) berücksichtigen:
    • β\beta-Fehlerrate = Rate, mit der wir bei wiederholten Tests H0H_0 fälschlicherweise nicht ablehnen
    • Power-Berechnung: Power = P(H0Ablehnen|H1wahr)=1βP(H_0 \text{Ablehnen} | H_1 \text{wahr}) = 1 – \beta
    • Erfordert spezifische Hypothese (angenommene Effektstärke)
  • Frequentistische Fehlerraten: Anteil der Fehler, die wir langfristig bei vielen Tests machen

Idealtypischer Ablauf einer Studie mit NHST

(Field, 2024, S. 85)

Was bedeutet der pp-Wert?

  • Der p-Wert ist eine mathematische Kenngröße, um die Sicherheit eines Ergebnisses in einer einzelnen Studie zu beziffern. Der p-Wert ist die Wahrscheinlichkeit, einen gleichen oder stärkeren Unterschied bzw. Zusammenhang (z.B. eine Mittelwertdifferenz und deren Standardfehler) zu beobachten, wenn der wahre Wert der H0H_0 entspricht. Je kleiner der p-Wert, desto weniger lässt sich dieses Ergebnis mit H0H_0 vereinbaren.
  • p=P(Ergebnis|H0)p = P(\text{Ergebnis}|H_0): Die Wahrscheinlichkeit, unser Ergebnis zu beobachten, wenn in Wahrheit H0H_0 stimmt.

Was bedeutet der pp-Wert nicht?

  • (1p)P(Ergebnis|H1)(1 – p) \neq P(\text{Ergebnis}|H_1): Die Wahrscheinlichkeit, unser Ergebnis zu beobachten, wenn die Alternativhypothese gilt.
    • Mit 95%iger Wahrscheinlichkeit würden wir in wiederholten Studien diesen oder einen größeren Unterschied finden, wenn H1H_1 wahr ist.
  • pP(H0|Ergebnis)p \neq P(H_0|\text{Ergebnis}): Die Wahrscheinlichkeit für die Richtigkeit der Nullhypothese gegeben des beobachteten Ergebnisses
    • In der Grundgesamtheit gibt es mit 5%iger Wahrscheinlichkeit keinen Unterschied.
  • (1p)P(H1|Ergebnis)(1 – p) \neq P(H_1|\text{Ergebnis}): Die Wahrscheinlichkeit für die Richtigkeit der Alternativhypothese gegeben des beobachteten Ergebnisses
    • In der Grundgesamtheit gibt es mit 95%iger Wahrscheinlichkeit einen Unterschied.

Idealtypischer Ablauf einer Studie mit NHST

(Field, 2024, S. 85)

Was bedeutet “statistisch signifikant”?

  • Der Signifikanz-Test ist der Vergleich des p-Werts mit dem zuvor festgelegten Signifikanzniveau.

  • Wir nennen ein Ergebnis statistisch signifikant, wenn p<αp < \alpha, wobei α\alpha das zuvor festgelegte Signifikanzniveau ist.

  • Wenn wir z.B. vor der Studie 5% als eine angemessene langfristige Irrtumswahrscheinlichkeit festgesetzt haben und wir p=.023p = .023 finden, sind wir zuversichtlich, dass unsere Stichprobe nicht zu den 5% Abweichungen in der H0H_0-Welt gehört. Wir gehen stattdessen davon aus, dass H0H_0 nicht stimmt.

  • Wir verwerfen H0H_0 zugunsten von H1H_1.

  • Eine korrekte Verwendung des idealtypischen NHST-Rahmens würde dafür sorgen, dass wir (persönlich und als Wissenschaftssystem) uns langfristig nur selten irren.

    • Zumindest Kontrolle der α\alpha-Fehlerrate
    • Mit ausreichend statistischer Power auch Kontrolle der β\beta-Fehlerrate

Signifikanz-Test-Test

Ein Mittelwervergleich mit T-Test ergibt das folgende Ergebniss:

  • Kontrollgruppe: M=5.2M = 5.2 (SD=2.1)(SD = 2.1); Experimentalgruppe: M=6.1M = 6.1 (SD=2.8)(SD = 2.8)
  • T-Test der Differenz: t(91)=1.82t(91) = 1.82, p=.079p = .079

Welche der folgenden Aussagen beschreiben das Ergebnis der Studie angemessen?

  1. Wenn das Team das Experiment genau so wiederholt, wird es in 921 von 1000 Studien einen mindestens genauso großen Unterschied in dieser Richtung beobachten wie in dieser Studie.
  2. Mit einer Wahrscheinlichkeit von 7,9% haben die Filmversionen denselben Einfluss auf die Aggressivität.
  3. Der Gewaltfilm hat keine Wirkung auf die Aggressivität.
  4. Wenn eine Person den Gewaltfilm sieht, wird sie mit einer Wahrscheinlichkeit von 92,1% aggressiver.
  5. Wenn der Gewaltfilm keinen Effekt auf die Aggressivität hat, dann wird das Team in 79 von 1000 Studien einen mindestens genauso großen Unterschied in dieser Richtung beobachten wie in dieser Studie.
  6. Mit einer Wahrscheinlichkeit von 92,1% steigert das Sehen des Gewaltfilms die Aggressivität.
  7. Der Unterschied ist mit einer Wahrscheinlichkeit von 7,9% zufällig zustande gekommen.

Zusammenfassung

  • Allgemeiner Ablauf eines NHST:

    • Wir formulieren H1H_1 und damit implizit H0H_0. Wir legen α\alpha fest.
    • Wir berechnen, wie gut unser Ergebnis mit H0H_0 zu vereinbaren ist (p-Wert).
    • Wenn p<αp < \alpha: Wir verwerfen H0H_0 zugunsten von H1H_1. H1H_1 wird gestützt.
    • Wenn pαp \geq \alpha: Wir können H0H_0 nicht verwerfen. H1H_1 wird nicht gestützt.
  • p=P(Ergebnis|H0)p = P(\text{Ergebnis}|H_0): Die Wahrscheinlichkeit, unser Ergebnis zu beobachten, wenn in Wahrheit H0H_0 stimmt.

  • Wir nennen ein Ergebnis statistisch signifikant, wenn p<αp < \alpha, wobei α\alpha das zuvor festgelegte Signifikanzniveau ist.

  • Langfristig irren wir uns dadurch nur in einem akzeptablen Anteil aller Test-Entscheidungen (frequentistische Irrtumswahrscheinlichkeit).

Fragen?

Bekannte (bivariate) NHST-Verfahren: TT-Test, χ2\chi^2-Test(, FF-Test)

Bekannte (bivariate) NHST-Verfahren

  • TT-Test: z.B. Mittelwert-Unterschiede, Regressions- und Korrelationskoeffizienten
  • χ2\chi^2-Test: z.B. Kreuztabelle, Modell-Fit von Strukturgleichungsmodellen
  • (FF-Test: z.B. Varianzanalyse, Modell-Fit von Regressionsmodellen)


  • Unter bestimmten Annahmen (ausreichend große Fallzahlen; Verteilungsannahmen) folgen die Test-Statistiken unter H0H_0 bekannten Verteilungen. Wir können die empirisch ermittelten Test-Statistiken mit diesen Verteilungen vergleichen, um p-Werte zu ermitteln.
  • Alternativen: Simulationsbasierte Tests wie z.B. Bootstrapping, Monte Carlo, Permutationstests

TT-Test: Gruppenmittelwerte

Hypothese: Männer wissen mehr über Politik als Frauen.

Variable male (n=519) female (n=474) Total (n=993)
Mean Political_knowledge (SD) 3.44 (1.32) 2.61 (1.28) 3.04 (1.36)


difference = 0.84, 95% CI [0.67, 1.00], t(987.31) = 10.15, p < .001; Cohen’s d = 0.65, 95% CI [0.52, 0.77]

TT-Test: Regressions- und Korrelationskoeff.

Hypothese: Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.

Koeffizient für Alter aus linearer Regression:

beta = 0.03, 95% CI [0.02, 0.04], t(991) = 10.02, p < .001; Std. beta = 0.30, 95% CI [0.24, 0.36]

Pearsons Korrelationskoeffizient:

r = 0.30, 95% CI [0.25, 0.36], t(991) = 10.02, p < .001

χ2\chi^2-Test: Kreuztabelle

Hypothese: Die Zahl der richtig beantworteten Wissensfragen unterscheidet sich nach Gender.

Variable male (n=519) female (n=474) Total (n=993)
Political_knowledge [0], % 3.7 7.0 5.2
Political_knowledge [1], % 4.8 12.0 8.3
Political_knowledge [2], % 13.1 24.5 18.5
Political_knowledge [3], % 24.9 32.7 28.6
Political_knowledge [4], % 29.1 17.5 23.6
Political_knowledge [5], % 24.5 6.3 15.8

chi2 = 109.03, p < .001; Adjusted Cramer’s v = 0.32, 95% CI [0.26, 1.00]

Fragen?

Warum sind NHST problematisch und wie können wir mit den Problemen umgehen?

*** Aus Zeitmangel nicht besprochen — nicht klausurrelevant ***

Ein kurzer Problem-Aufriss


[the] near-universal misinterpretation of p as the probability that H0H_0 is false, the misinterpretation that its complement [1 – p] is the probability of successful replication, and the mistaken assumption that if one rejects H0H_0 one thereby affirms the theory that led to the test.

Ein kurzer Problem-Aufriss


Data are presented for 4 time-reversed effects: precognitive approach to erotic stimuli and precognitive avoidance of negative stimuli; retroactive priming; retroactive habituation; and retroactive facilitation of recall. The mean effect size (d) in psi performance across all 9 experiments was 0.22, and all but one of the experiments yielded statistically significant results.

Ein kurzer Problem-Aufriss




[…] despite empirical psychologists’ nominal endorsement of a low rate of false-positive findings (≤ .05), flexibility in data collection, analysis, and reporting dramatically increases actual false-positive rates. In many cases, a researcher is more likely to falsely find evidence that an effect exists than to correctly find evidence that it does not.

Ein kurzer Problem-Aufriss



We conducted replications of 100 experimental and correlational studies published in three psychology journals using high-powered designs and original materials when available. Replication effects were half the magnitude of original effects, representing a substantial decline. Ninety-seven percent of original studies had statistically significant results. Thirty-six percent of replications had statistically significant results.

Ein kurzer Problem-Aufriss



American Statistical Association: Underpinning many published scientific conclusions is the concept of “statistical significance,” typically assessed with an index called the p-value. While the p-value can be a useful statistical measure, it is commonly misused and misinterpreted. […] By itself, a p-value does not provide a good measure of evidence regarding a model or hypothesis.

Probleme mit NHST und Fokus auf p<.05p < .05

  • Konzeptionelle Probleme
    • Test einer Hypothese, die eigentlich nie wahr ist
    • Schwierigkeit der Interpretation von Null-Ergebnissen
  • Fähigkeiten und Sozialisation der Forscher:innen
    • Fehlendes Verständnis für inferenzstatistische Grundlagen von NHST
    • Interpretation von p<.05p < .05 als “Effekt” und p>.05p > .05 als “kein Effekt” weit verbreitet
  • Belohnungs-Strukturen: Ergebnisse mit p<.05p < .05 gelten als “publikationswürdiger”
    • “HARKing”: Hypothesizing after the results are known
    • “p-hacking”, “fishing expedition”, “garden of forking paths”, “researcher degrees of freedom”, etc.: Suche nach p<.05p < .05 mit unterschiedlichen oder transformierten Variablen, Auswahl von Fällen, Vergleich von Subgruppen, …
    • “Selective reporting”: Nur die Ergebnisse berichten, die p<.05p < .05 erreicht haben, p>.05p > .05 Teilergebnisse oder Studien verschwinden im “File Drawer”

Probleme mit NHST und Fokus auf p<.05p < .05

Alternativen und Lösungen

  • Konzeptionelles Problem des indirekten Zugangs über Testen von H0H_0: Bayesianische Statistik oder frequentistische Äquivalenztests
    • Beide Ansätze erfordern Informationen über die vermutete Effektstärke
  • Dokumentation der Hypothesen, Operationalisierung, Datenanalyse-Entscheidungen und Power- bzw. Fallzahl-Ermittlung vor der Datenerhebung (“pre-registration”, “pre-registered/-accepted research reports”)
    • Vor allem geeignet für deduktive Forschung, meist experimentelle Studien
  • Größerer Fokus auf Modelle, Effektstärken und Unsicherheit der Schätzer
    • Offene Dokumentation von Material, Daten und Analyseskripten (“open science”)
    • Grundsätzlich für jede Art von Forschung wünschenswert

(K)eine Lösung?

(Benjamin et al., 2017)

(K)eine Lösung?

(Lakens et al., 2018)

(K)eine Lösung?

(McShane et al., 2019)

(K)eine Lösung?

(Lakens, 2021)

Und nun?

  • Wir sind gefangen zwischen Anschlussfähigkeit (an NHST, p<.05p < .05, …) und neueren Entwicklungen

  • Sensibilität für die Problematik: p-Werte sind keine “Wahrheitsindikatoren”

  • Was wir hier versuchen wollen

    • Korrekte Interpretation von p-Werten und NHST
    • Kein p<.05p < .05 Fetischismus
    • Fokus auf Effektstärken und Konfidenzintervalle der Effekt-Schätzer

Fragen?

Übungsaufgaben

Übungsaufgaben

[Beschreibung für R und RStudio auf eigenem Computer oder Pool-Computer]

  1. Laden Sie die Datei 03_mame.R aus Blackboard herunter. Speichern Sie die Datei in Ihren Arbeitsordner für die Vorlesung (in denselben Ordner, in dem 02_mame.R aus der letzten Übung liegt).
  2. Öffnen Sie das Projekt uebung.Rproj.
  3. Öffnen Sie innerhalb des Projekts die Datei 03_mame.R.
  4. Vollziehen Sie die Analysen nach, deren Ausgaben wir in der Vorlesung besprochen haben.
  • Schreiben Sie kurze Ergebnistexte zur Beantwortung der Fragen bzw. zum Test der Hypothesen:
    • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.
    • Die Zahl der richtig beantworteten Wissensfragen unterscheidet sich nach Gender.
  • Wenn etwas unklar ist (technisch oder statistisch): Stellen Sie Ihre Fragen im Blackboard-Forum.

Übungsaufgaben

[Beschreibung für WebR]

  1. Laden Sie die Datei 03_mame.R aus Blackboard herunter.
  2. Laden Sie die Dateien 03_mame.R und Vanerkel_Vanaelst_2021.dta (aus der ersten Übung) in den Ordner home/web_user hoch.
  3. Öffnen Sie die Datei 03_mame.R.
  4. Ändern Sie Zeile 13: Löschen Sie daten/.
  5. Vollziehen Sie die Analysen nach, deren Ausgaben wir in der Vorlesung besprochen haben.
  • Schreiben Sie kurze Ergebnistexte zur Beantwortung der Fragen bzw. zum Test der Hypothesen:
    • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.
    • Die Zahl der richtig beantworteten Wissensfragen unterscheidet sich nach Gender.
  • Wenn etwas unklar ist (technisch oder statistisch): Stellen Sie Ihre Fragen im Blackboard-Forum.

Übungsaufgaben

[Beschreibung für Posit.Cloud]

  1. Laden Sie die Datei 03_mame.R aus Blackboard herunter.
  2. Öffnen Sie das RStudio-Projekt, das Sie zur ersten Übung erstellt haben, in Posit-Cloud.
  3. Laden Sie die Datei 03_mame.R in den Ordner uebung hoch.
  4. Öffnen Sie das Projekt uebung.Rproj und innerhalb des Projekts die Datei 03_mame.R.
  5. Ändern Sie Zeile 13: Fügen Sie uebung/ vor daten/ ein.
  6. Vollziehen Sie die Analysen nach, deren Ausgaben wir in der Vorlesung besprochen haben.
  • Schreiben Sie kurze Ergebnistexte zur Beantwortung der Fragen bzw. zum Test der Hypothesen:
    • Wie viele der fünf Wissensfragen beantworten Menschen in Flandern durchschnittlich korrekt?
    • Welcher Anteil der Flamen nutzt nie Facebook zur politischen Information?
    • Wie groß ist der Wissensunterschied zwischen Männern und Frauen in Flandern?
    • Männer wissen mehr über Politik als Frauen.
    • Es besteht ein Zusammenhang zwischen dem Alter und dem politischen Wissen.
    • Die Zahl der richtig beantworteten Wissensfragen unterscheidet sich nach Gender.
  • Wenn etwas unklar ist (technisch oder statistisch): Stellen Sie Ihre Fragen im Blackboard-Forum.

Fragen?

Nächste Woche

Multiple lineare Regression

Danke — bis zur nächsten Sitzung.

Marko Bachl

Literatur

Bem, D. J. (2011). Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect. Journal of Personality and Social Psychology, 100(3), 407–425. https://doi.org/bn9nn6
Benjamin, D. J., Berger, J. O., Johannesson, M., Nosek, B. A., Wagenmakers, E. J., Berk, R., Bollen, K. A., Brembs, B., Brown, L., Camerer, C., Cesarini, D., Chambers, C. D., Clyde, M., Cook, T. D., De Boeck, P., Dienes, Z., Dreber, A., Easwaran, K., Efferson, C., … Johnson, V. E. (2017). Redefine statistical significance. Nature Human Behaviour, 2, 6–10. https://doi.org/cff2
Bortz, J., & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer. https://doi.org/10.1007/978-3-642-12770-0
Chan, C.-H., & Rauchfleisch, A. (2023). Bayesian multilevel modeling and its application in comparative journalism studies. International Journal of Communication, 17, 22. https://ijoc.org/index.php/ijoc/article/view/19570
Cohen, J. (1994). The earth is round (p < .05). American Psychologist, 49(12), 997–1003. https://doi.org/bm96wk
Field, A. (2024). Discovering statistics using IBM SPSS statistics (6. Aufl.). Sage Publishing.
Lakens, D. (2021). The practical alternative to the p value Is the correctly used p value. Perspectives on Psychological Science, 16(3), 639–648. https://doi.org/gh48db
Lakens, D., Adolfi, F. G., Albers, C. J., Anvari, F., Apps, M. A. J., Argamon, S. E., Baguley, T., Becker, R. B., Benning, S. D., Bradford, D. E., Buchanan, E. M., Caldwell, A. R., Van Calster, B., Carlsson, R., Chen, S.-C., Chung, B., Colling, L. J., Collins, G. S., Crook, Z., … Zwaan, R. A. (2018). Justify your alpha. Nature Human Behaviour, 2(3), 168–171. https://doi.org/gcz8f3
McElreath, R. (2020). Statistical rethinking: a Bayesian course with examples in R and Stan (2. Aufl.). Taylor & Francis, CRC Press.
McShane, B. B., Gal, D., Gelman, A., Robert, C., & Tackett, J. L. (2019). Abandon statistical significance. The American Statistician, 73(sup1), 235–245. https://doi.org/gfw9b9
Open Science Collaboration. (2015). Estimating the reproducibility of psychological science. Science, 349(6251). https://doi.org/68c
Simmons, J. P., Nelson, L. D., & Simonsohn, U. (2011). False-positive psychology: Undisclosed flexibility in data collection and analysis allows presenting anything as significant. Psychological Science, 22(11), 1359–1366. https://doi.org/bxbw3c
Van Erkel, P. F. A. (2020). „Replication data for “Why don’t we learn from social media?" (Version V2) [Dataset]. Harvard Dataverse. https://doi.org/10.7910/DVN/D0COF1
Van Erkel, P. F. A., & Van Aelst, P. (2021). Why don’t we learn from social media? Studying effects of and mechanisms behind social media news use on general surveillance political knowledge. Political Communication, 38(4), 407–425. https://doi.org/ghk94s
Wasserstein, R. L., & Lazar, N. A. (2016). The ASA’s statement on p-values: Context, process, and purpose. The American Statistician, 70(2), 129–133. https://doi.org/bc4d