Multiple lineare Regression

Methoden II: Methoden der empirischen Kommunikations- und Medienforschung

Marko Bachl

Freie Universität Berlin

12. 05. 2025

SHK-Stelle am Weizenbaum-Institut

Fragen zur Übung?

Agenda

  1. Grundlagen der multiplen Regression
  2. Kategorielle Prädiktoren
  3. “Große” Regressionsmodelle
  4. Annahmen und ihre Überprüfung
  5. Übungen

Lernziele

  • Laut Befragung zu Vorkenntnissen für die allermeisten neue Inhalte.
  • Noch immer relativ viele Inhalte, aber fokussiert auf ein Verfahren.


  • Lernziel der Vorlesungssitzung: Ergebnisse einer multiplen Regression lesen, verstehen, formulieren, kritisieren können
  • Lernziel der Übungsaufgabe: R-Code zur multiplen Regression nachvollziehen, ausführen und bearbeiten können

Daten der heutigen Sitzung

(Van Erkel, 2020; Van Erkel & Van Aelst, 2021)

Modelle der heutigen Sitzung (hier: M1 & M4)

(Van Erkel & Van Aelst, 2021)

Grundlagen der multiplen Regression

Grundgedanke der multiplen Regression

Die Berücksichtigung mehrerer Prädiktoren in einer Analyse ermöglicht

  • Eine Verbesserung der Erklärungsleistung des gesamten Modells
  • Eine Verbesserung der Vorhersagequalität des gesamten Modells
  • Den Vergleich der Bedeutung von Zusammenhängen
  • Die Berücksichtigung von Drittvariablen bei Vergleichen
  • Mit zusätzlichen Annahmen: Schätzen von kausalen Effekten mit nicht-experimentellen Daten
  • In komplexeren Modellen: Modellierung von Wechselwirkungen mehrerer Einflüsse (Moderation)
  • In komplexeren Modellvergleichen: Modellierung von mehrstufigen Zusammenhängen (X → M → Y, Mediation)

Grundgedanke der multiplen Regression

  • Schätzung der aV durch die Linearkombination mehrerer uV
  • Die Regressionskoeffizienten werden nach der Methode der kleinsten Quadrate (OLS) so geschätzt, dass die Quadratsumme der Residuen minimiert wird: β=(XTX)1XTY\beta = (X^TX)^{-1}X^TY
  • Im einfachen, linearen Fall wird ein additives Modell angenommen, d.h., wir gehen davon aus, dass sich die Einflüsse der Prädiktoren auf die aV aufsummieren
  • Die Koeffizienten bib_i werden als partielle Regressionskoeffizienten bezeichnet.

G Radio Radio PoliticalKnowledge Political Knowledge Radio->PoliticalKnowledge TV TV TV->PoliticalKnowledge Newspapers Newspapers Newspapers->PoliticalKnowledge Dots1 ... Dots1->PoliticalKnowledge Age Age Age->PoliticalKnowledge Dots2 ... Dots2->PoliticalKnowledge

  • Regressionsgerade: Political Knowledge=b0+b1×Radio+b2×TV+b3×Newspapers+b4×Age++ε\text{Political Knowledge} = b_0 + b_1 \times \text{Radio} + b_2 \times \text{TV} + b_3 \times \text{Newspapers} + b_4 \times \text{Age} + \ldots + \varepsilon

Intuition der multiplen Regression

  • Multiple Regression mit 2 Prädiktoren \neq zwei bivariate Regressionen;
    Stattdessen: Zusammenhang einer uV mit der aV über die andere uV hinaus.
  • Wir können uns die multiple Regression aber als eine aufeinander aufbauende Kombination mehrerer bivariater Regressionen vorstellen.
  • Beispiel: Zusammenhang von Alter und Zeitungsnutzung mit politischem Wissen


Bivariate Korrelationen
Parameter Age Newspapers Political_knowledge
Age 0.21*** 0.30***
Newspapers 0.21*** 0.33***
Political_knowledge 0.30*** 0.33***

p-value adjustment method: Holm (1979)

Bivariate lineare Regression: Residuen

Beispiel für vier Befragte:

Age y yhat e e2
23 1 2.2 -1.2 1.3
37 4 2.6 1.4 2.0
55 2 3.1 -1.1 1.2
62 5 3.3 1.7 2.9
  • yy: Beobachteter Wert
  • ŷ\hat y: Vorhergesagter Wert
  • ee: Residuum, Vorhersagefehler

  • Residuen sind die Werte der aV, die nicht durch die uV erklärt werden konnten.
  • Sie können möglicherweise durch andere Prädiktoren erkärt werden.

Vier Regressionsmodelle und deren Residuen

  1. Politisches Wissen ~ Alter
residuals_pk_age <- lm(Political_knowledge ~ Age, data = d) |> residuals()
  1. Politisches Wissen ~ Zeitungsnutzung
residuals_pk_newspapers <- lm(Political_knowledge ~ Newspapers, data = d) |> residuals()
  1. Zeitungsnutzung ~ Alter
residuals_age_newspapers <- lm(Age ~ Newspapers, data = d) |> residuals()
  1. Alter ~ Zeitungsnutzung
residuals_newspapers_age <- lm(Newspapers ~ Age, data = d) |> residuals()

Zwei Regressionsmodelle aus Residuen

  1. Zusammenhang von Alter und Wissen über Zeitungsnutzung hinaus
lm(residuals_pk_newspapers ~ residuals_age_newspapers) |> coef() |> round(3)
             (Intercept) residuals_age_newspapers 
                   0.000                    0.024 
  1. Zusammenhang von Zeitungsnutzung und Wissen über Alter hinaus
lm(residuals_pk_age ~ residuals_newspapers_age) |> coef() |> round(3)
             (Intercept) residuals_newspapers_age 
                   0.000                    0.223 

= Ergebnis der multiplen Regression

lm(Political_knowledge ~ Age + Newspapers, data = d) |> coef() |> round(3)
(Intercept)         Age  Newspapers 
      0.993       0.024       0.223 

Interpretation: Vergleich

Parameter Coefficient 95% CI t(990) p Std. Coef. Std. Coef. 95% CI Fit
(Intercept) 0.99 (0.67, 1.31) 6.07 < .001 3.99e-16 (-0.06, 0.06)
Age 0.02 (0.02, 0.03) 8.24 < .001 0.24 (0.19, 0.30)
Newspapers 0.22 (0.18, 0.27) 9.31 < .001 0.28 (0.22, 0.33)
R2 (adj.) 0.16
  • Zwei Personen, die in allen xkx_k dieselbe Ausprägung haben und sich in x1x_1 um einen Skalenpunkt unterscheiden, unterscheiden sich in yy um b1b_1 Punkte.
  • Wir vergleichen zwei Personen, die sich im Alter um ein Jahr unterscheiden und die gleich häufig Zeitungen nutzen. Die ältere Person beantwortet 0.02 Fragen mehr korrekt als die jüngere Person.
  • Wir vergleichen zwei gleich alte Personen, deren Zeitungsnutzung sich um einen Skalenpunkt unterscheidet. Die Person, die sich häufiger über Zeitungen informiert, beantwortet 0.22 Fragen mehr korrekt.
  • Entsprechende Interpretation mit standardisierten partiellen Regressionskoeffizienten: Standardabweichungen statt Punkte / Jahre / Fragen

Interpretation: Veränderung, Intervention

Parameter Coefficient 95% CI t(990) p Std. Coef. Std. Coef. 95% CI Fit
(Intercept) 0.99 (0.67, 1.31) 6.07 < .001 3.99e-16 (-0.06, 0.06)
Age 0.02 (0.02, 0.03) 8.24 < .001 0.24 (0.19, 0.30)
Newspapers 0.22 (0.18, 0.27) 9.31 < .001 0.28 (0.22, 0.33)
R2 (adj.) 0.16
  • Wenn x1x_1 um einen Punkt steigt und alle anderen xkx_k konstant gehalten werden, steigt yy um b1b_1 Punkte.
  • Wenn eine Person um ein Jahr älter wird und ihr Zeitungsnutzungsverhalten nicht verändert, beantwortet sie 0.02 Fragen mehr korrekt (Annahme: Kontrolle von Zeitungsnutzung deckt alle alternativen Ursachen von politischem Wissen ab).
  • Wenn eine Person ihre Zeitungsnutzung um einen Skalenpunkt steigert, dann beantwortet sie unmittelbar (im Sinne von: nichts durch weiteres Lebensalter gelernt) 0.22 Fragen mehr korrekt (Annahme: Kontrolle von Alter deckt alle alternativen Ursachen von politischem Wissen ab).
  • Entsprechende Interpretation mit standardisierten partiellen Regressionskoeffizienten: Standardabweichungen statt Punkte / Jahre / Fragen

Lineare Regression: R2R^2

Beispiel für vier Befragte:

Age y yhat e e2 e_M e_M2
23 1 2.2 -1.2 1.3 -2 4.2
37 4 2.6 1.4 2.0 1 0.9
55 2 3.1 -1.1 1.2 -1 1.1
62 5 3.3 1.7 2.9 2 3.8
  • yy: Beobachteter Wert
  • ŷ\hat y: Vorhergesagter Wert
  • ee: Residuum, Vorhersagefehler
  • y\bar y: Mittelwert
  • eme_m: Abweichung vom Mittelwert

R2=(yiy)2(yiŷ)2(yiy)2R^2 = \frac{\sum(y_i - \bar{y})^2 - \sum(y_i - \hat y)^2}{\sum(y_i - \bar{y})^2}

  • R2=.09R^2 = .09: Anteil der Varianz, die das Regressionsmodell erklärt; 0 (Modell erklärt keine Varianz) bis 1 (perfekter linearer Zusammenhang). Vergleich mit Mittelwert als einfachstem Modell von yy.

Interpretation: Korrigiertes (adjusted) R2R^2

Parameter Coefficient 95% CI t(990) p Std. Coef. Std. Coef. 95% CI Fit
(Intercept) 0.99 (0.67, 1.31) 6.07 < .001 3.99e-16 (-0.06, 0.06)
Age 0.02 (0.02, 0.03) 8.24 < .001 0.24 (0.19, 0.30)
Newspapers 0.22 (0.18, 0.27) 9.31 < .001 0.28 (0.22, 0.33)
R2 (adj.) 0.16
  • korr. | adj. R2=R2n×(1R2)nk1\text{korr. | adj. } R^2 = R^2 - \frac{n \times (1 - R^2)}{n - k - 1}, mit Fallzahl nn und Zahl der Prädiktoren kk
  • Maß für die Varianzerklärung des gesamten Regressionsmodells (aller Prädiktoren gemeinsam)
  • 0 (Modell erklärt keine Varianz) bis 1 (aV ist perfekte Linearkombination der Prädikoren)
  • Korrektur für den Umstand, dass die Linearekombination von vielen Prädiktoren Varianz in der unabhängigen Variable alleine dadurch erklärt, dass sie typisch für die Fälle in der Stichprobe ist.

Fragen?

Kategorielle Prädiktoren

Modelle der heutigen Sitzung (hier: M1 & M4)

(Van Erkel & Van Aelst, 2021)

Kategorielle Prädiktoren

  • Die lineare Regressionsanalyse (bzw. das allgemeine lineare Modell) ist ein sehr flexibles Werkzeug.
  • Bekannte Verfahren zum Vergleich von Gruppenmittelwerten können als Spezialfälle der linearen Regression betrachtet werden. Sie sind statistisch äquivalent, für spezifische Anwendungen teils einfacher zu verwenden.
    • T-Test: Vergleich von 2 Gruppenmittelwerten
    • Varianzanalyse: Traditionelle mehrfaktorielle Experimentaldesigns
  • Für alle weitergehenden Analysen sind die lineare Regression und ihre Erweiterungen zu empfehlen, da sie flexibel angepasst werden können.


  • Erweiterung des bisherigen Modells zur Erklärung von politischem Wissen um zwei kategorielle Prädiktoren:
    • Gender (zweistufig, dichotom)
    • Education (dreistufig, ordinal)

Dichotome Prädiktoren (allgemein)

  • Gruppierungsvariable XX wird in eine Dummy-Variable recodiert (0 = Merkmal nicht vorhanden; Referenzgruppe, 1 = Merkmal vorhanden)
  • Regressionsgerade: Y=b0+b1×X+εY = b_0 + b_1 \times X + \varepsilon
    • Wenn X=0X = 0: Y=b0+εY = b_0 + \varepsilon
    • b0b_0 ist Mittelwert der Referenzgruppe
    • b1b_1 ist Differenz zwischen Referenzgruppe und Gruppe mit Merkmal

Dichotome Prädiktoren (Beispiel)

  • Gender\text{Gender} wird in eine Dummy-Variable female\text{female} recodiert (0 = not female [hier: male], 1 = female)
  • Regressionsgerade: Y=b0+b1×female+εY = b_0 + b_1 \times \text{female} + \varepsilon
    • Wenn female=0\text{female} = 0: Y=b0+εY = b_0 + \varepsilon
    • b0b_0 ist Mittelwert der Männer
    • b1b_1 ist Differenz zwischen Männern und Frauen
Regression
Parameter Coefficient 95% CI t(991) p
(Intercept) 3.44 (3.33, 3.55) 60.48 < .001
Gender (female) -0.84 (-1.00, -0.67) -10.14 < .001
T-Test
Group Mean_Group1 Mean_Group2 Difference 95% CI t p
Gender 3.44 2.61 0.84 (0.67, 1.00) 10.15 < .001

Fragen?

Prädiktoren mit kk Ausprägungen

  • um kk Gruppen zu vergleichen, werden k1k-1 Prädiktor-Variablen erstellt
  • die k1k-1 Variablen werden in das Modell aufgenommen: Y=b0+b1×X1+b2×X2+...+bk1×Xk1+εY = b_0 + b_1 \times X_1 + b_2 \times X_2 + ... + b_{k-1} \times X_{k-1} + \varepsilon.
  • Bei Dummy-Codierung:
    • in der Referenzgruppe (alle X1=X2=...=0X_1 = X_2 = ... = 0) ergibt sich Y=b0Y = b_0
    • b1b_1 ist die Differenz zwischen der Gruppe 1 und der Referenzgruppe, b2b_2 die Differenz zwischen der Gruppe 2 und der Referenzgruppe, …
  • k1k-1 paarweise Vergleiche in einem Modell gleichzeitig
  • Mehr Vergleiche: Modell mehrmals schätzen oder Post-Hoc-Tests

Dummy-Codierung mit kk Ausprägungen (Beispiel)

Niedrige Bildung als Referenz

Dummy-Variablen
Zugehörigkeit Middle High
Lower 0 0
Middle 1 0
High 0 1
Mittelwerte
Lower Middle High
2.58 2.97 3.25
Regression
Parameter Coefficient 95% CI
(Intercept) 2.58 (2.35, 2.81)
Education (Middle) 0.39 (0.13, 0.65)
Education (High) 0.67 (0.41, 0.93)

Mittlere Bildung als Referenz

Dummy-Variablen
Zugehörigkeit Lower High
Middle 0 0
Lower 1 0
High 0 1
Mittelwerte
Lower Middle High
2.58 2.97 3.25
Regression
Parameter Coefficient 95% CI
(Intercept) 2.97 (2.84, 3.10)
Education (Lower) -0.39 (-0.65, -0.13)
Education (High) 0.28 (0.10, 0.46)

Alternative: Post-Hoc-Vergleiche

Term Contrast Estimate Std. Error z Pr(>|z|)
Education mean(High) - mean(Lower) 0.669 0.131 5.09 < 0.001
Education mean(High) - mean(Middle) 0.279 0.092 3.03 0.00724
Education mean(Middle) - mean(Lower) 0.389 0.133 2.92 0.01045


  • Erst Modell schätzen, dann relevante (oder alle) Vergleiche betrachten
  • Korrektur der p-Werte für Mehrfach-Vergleiche (hier: nach Bonferroni) wird empfohlen, um α\alpha-Fehler durch viele Vergleiche unwahrscheinlicher zu machen.
  • Details zu Korrekturverfahren z.B. Bortz & Schuster (2010), S. 232 (nicht klausurrelevant)

Fragen?

“Große” Regressionsmodelle

Zu reproduzierende Modelle (hier: M1 & M4)

(Van Erkel & Van Aelst, 2021)

Modelle schätzen

m1 <- lm(Political_knowledge ~ Radio + Television + Newspapers + Online_news_sites + Twitter + 
    Facebook + Gender + Age + Education + Political_interest, data = d)

m4 <- lm(Political_knowledge ~ Radio + Television + Newspapers + Online_news_sites + Twitter + 
    Facebook + Gender + Age + Education + Political_interest + Information_overload, data = d)

Models 1 & 4

Model 1 Model 4
(Intercept) 0.46 (0.22)* 0.67 (0.23)**
Radio -0.01 (0.02) -0.01 (0.02)
Television 0.08 (0.03)** 0.09 (0.03)**
Newspapers 0.08 (0.02)*** 0.08 (0.02)***
Online_news_sites 0.06 (0.02)** 0.06 (0.02)**
Twitter -0.06 (0.04) -0.05 (0.04)
Facebook -0.07 (0.02)*** -0.07 (0.02)***
Genderfemale -0.48 (0.07)*** -0.46 (0.07)***
Age 0.02 (0.00)*** 0.02 (0.00)***
EducationMiddle 0.28 (0.11)* 0.27 (0.11)*
EducationHigh 0.48 (0.11)*** 0.48 (0.11)***
Political_interest 0.18 (0.01)*** 0.17 (0.01)***
Information_overload -0.03 (0.01)**
Num.Obs. 993 993
R2 Adj. 0.371 0.376

Model 4: Standardisierte Koeffizienten

Parameter Coefficient 95% CI t(980) p Std. Coef. Std. Coef. 95% CI Fit
(Intercept) 0.67 (0.21, 1.12) 2.90 0.004 -0.08 (-0.22, 0.06)
Radio -7.45e-03 (-0.05, 0.04) -0.34 0.736 -9.45e-03 (-0.06, 0.05)
Television 0.09 (0.03, 0.15) 2.80 0.005 0.08 (0.03, 0.14)
Newspapers 0.08 (0.04, 0.13) 3.46 < .001 0.10 (0.04, 0.16)
Online news sites 0.06 (0.02, 0.11) 2.73 0.006 0.08 (0.02, 0.14)
Twitter -0.05 (-0.13, 0.02) -1.37 0.171 -0.04 (-0.09, 0.02)
Facebook -0.07 (-0.11, -0.03) -3.38 < .001 -0.10 (-0.16, -0.04)
Gender (female) -0.46 (-0.60, -0.32) -6.34 < .001 -0.34 (-0.44, -0.23)
Age 0.02 (0.01, 0.02) 6.03 < .001 0.17 (0.12, 0.23)
Education (Middle) 0.27 (0.06, 0.48) 2.48 0.013 0.20 (0.04, 0.35)
Education (High) 0.48 (0.26, 0.69) 4.27 < .001 0.35 (0.19, 0.51)
Political interest 0.17 (0.14, 0.20) 11.79 < .001 0.34 (0.28, 0.39)
Information overload -0.03 (-0.05, -0.01) -3.03 0.003 -0.08 (-0.13, -0.03)
R2 (adj.) 0.38

Model 4: Koeffizientenplot nicht standardisiert

Model 4: Koeffizientenplot standardisiert

Fragen?

Annahmen und ihre Überprüfung

NOCH NICHT BEHANDELT — ZUSAMMENFASSUNG FOLGT

Annahmen und ihre Überprüfung

Statistische Annahmen

  • Linearität und Additivität der Zusammenhänge
  • Normalverteilung und Homoskedastizität der Residuen
  • Unabhängigkeit der Residuen
  • keine einflussreichen Ausreißer
  • keine Multikollinearität

Kausalannahmen

  • korrekt spezifiziertes Modell; keine fehlenden oder überflüssigen Variablen
  • Besprechen wir in Sitzung 6: Pfadmodelle & Mediation

Model 4 aus Van Erkel & Van Aelst (2021)

Parameter Coefficient 95% CI t(980) p Std. Coef. Std. Coef. CI
(Intercept) 0.67 (0.21, 1.12) 2.90 0.004 -0.08 (-0.22, 0.06)
Radio -7.45e-03 (-0.05, 0.04) -0.34 0.736 -9.45e-03 (-0.06, 0.05)
Television 0.09 (0.03, 0.15) 2.80 0.005 0.08 (0.03, 0.14)
Newspapers 0.08 (0.04, 0.13) 3.46 < .001 0.10 (0.04, 0.16)
Online news sites 0.06 (0.02, 0.11) 2.73 0.006 0.08 (0.02, 0.14)
Twitter -0.05 (-0.13, 0.02) -1.37 0.171 -0.04 (-0.09, 0.02)
Facebook -0.07 (-0.11, -0.03) -3.38 < .001 -0.10 (-0.16, -0.04)
Gender (female) -0.46 (-0.60, -0.32) -6.34 < .001 -0.34 (-0.44, -0.23)
Age 0.02 (0.01, 0.02) 6.03 < .001 0.17 (0.12, 0.23)
Education (Middle) 0.27 (0.06, 0.48) 2.48 0.013 0.20 (0.04, 0.35)
Education (High) 0.48 (0.26, 0.69) 4.27 < .001 0.35 (0.19, 0.51)
Political interest 0.17 (0.14, 0.20) 11.79 < .001 0.34 (0.28, 0.39)
Information overload -0.03 (-0.05, -0.01) -3.03 0.003 -0.08 (-0.13, -0.03)

Model 4 aus Van Erkel & Van Aelst (2021)

Linearität & Additivität

  • Annahme: der Zusammenhang zwischen XX und YY ist linear und unabhängig von ZZ
  • Diagnose: Inspektion des Scatterplots bzw. des Fitted/Residual-Plots
  • Verletzung: nichtlineare Zusammenhänge (quadratisch, exponentiell, etc.)
  • Konsequenz der Verletzung: verzerrte Regressionskoeffizienten
  • Lösung: Transformation von XX oder YY, nichtlineares Regressionsmodell, Moderationsanalyse mit ZZ

Linearität

$NCV

Normalverteilung der Residuen

  • Annahme: Residuen sind normalverteilt
  • Diagnose: Plot der Verteilung der Residuen
  • Verletzung: Residuen sind nicht normalverteilt
  • Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
  • Lösung: alternative Standardfehler, Datentransformationen, alternatives Modell

Homoskedastizizät der Residuen

  • Annahme: Residualvarianz ist für alle Werte von XX gleich
  • Diagnose: Fitted/Residual-Plots
  • Verletzung: Residuen streuen in Abhängigkeit von XX
  • Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
  • Lösung: alternative Standardfehler, Datentransformationen, alternatives Modell

Normalverteilung und Homoskedastizität der Residuen

Unabhängigkeit der Residuen

  • Annahme: Residuen korrelieren weder miteinander noch mit den Prädiktoren
  • Diagnose: Nachdenken über datengenerierenden Prozess, Tests auf Zusammenhänge in Residuen
  • Verletzung: Residuen (und oft Variablen) sind geclustert (zeitlich, Stichprobe)
  • Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
  • Lösung: Mehrebenen-Modell, Modell mit Autokorrelationen, alternative Standardfehler

Unabhängigkeit der Residuen

keine einflussreichen Ausreißer

  • Annahme: alle Fälle tragen gleich zur Schätzung bei
  • Diagnose: Scatterplot, Leverage-Plot
  • Verletzung: einzelne Fälle beeinflussen die Höhe der Regressionsgeraden
  • Konsequenz der Verletzung: verzerrte Regressionskoeffizienten
  • Lösung: Ausschluss von Ausreißern (mit klar definierten Regeln!)

keine einflussreichen Ausreißer

keine Multikollinearität

  • Annahme: Prädiktorvariablen XX korrelieren nicht zu stark miteinander
  • Diagnose: Korrelationsmatrix der Prädiktoren, VIF-Analyse (Variance Inflation Factor)
  • Verletzung: Prädiktorvariablen korrelieren stark miteinander
  • Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
  • Lösung: Ggf. Ausschluss von Prädiktorvariablen, falls uns Koeffizient der betroffenen Prädiktoren überhaupt interessiert.

Multikollinearität I

Correlation Matrix (pearson-method)
Parameter Political_knowledge Radio Television Newspapers Online_news_sites Twitter Facebook Age Political_interest Information_overload
Political_knowledge 0.14*** 0.26*** 0.33*** 0.22*** -0.04 -0.13*** 0.30*** 0.49*** -0.09*
Radio 0.14*** 0.39*** 0.28*** 0.22*** 0.09 0.18*** 0.05 0.20*** 0.05
Television 0.26*** 0.39*** 0.31*** 0.28*** 0.04 0.19*** 0.24*** 0.30*** 0.08
Newspapers 0.33*** 0.28*** 0.31*** 0.33*** 0.09 0.06 0.21*** 0.33*** 0.02
Online_news_sites 0.22*** 0.22*** 0.28*** 0.33*** 0.23*** 0.27*** -0.08 0.32*** 0.04
Twitter -0.04 0.09 0.04 0.09 0.23*** 0.33*** -0.15*** 0.05 0.09
Facebook -0.13*** 0.18*** 0.19*** 0.06 0.27*** 0.33*** -0.25*** 0.06 0.12**
Age 0.30*** 0.05 0.24*** 0.21*** -0.08 -0.15*** -0.25*** 0.14*** 0.05
Political_interest 0.49*** 0.20*** 0.30*** 0.33*** 0.32*** 0.05 0.06 0.14*** -0.02
Information_overload -0.09* 0.05 0.08 0.02 0.04 0.09 0.12** 0.05 -0.02

p-value adjustment method: Holm (1979)

Multikollinearität II

$VIF

Verletzung der statistischen Modellannahmen - und nun?

  • Keine Panik! Einige Modellannahmen sind praktisch immer verletzt (z.B. Normalverteilung der Residuen)
  • Viele Annahmen beziehen sich auf die Residuen, nicht auf XX oder YY
  • Wichtig ist, einschätzen zu können, welche Konsequenzen eine Verletzung der Modellannahme haben kann
    • verzerrte Schätzer (zu hoch, zu niedrig)
    • falsche Standardfehler (α\alpha- und β\beta-Fehler)
  • Vorsichtig formulieren, Robustheit der Ergebnisse prüfen
  • Bei stärkeren Verletzungen Korrekturen möglich (robuste Schätzer, robuste Standardfehler; nicht in dieser Vorlesung)
  • Problematischer sind Verletzungen der kausalen Annahmen (→ Sitzung 6)

Fragen?

Übungsaufgaben

Übungsaufgaben

  1. Reproduzieren Sie die Analysen aus der Vorlesung.
  2. Reproduzieren Sie die Regressionsmodelle in Tabellen 5 und 6. Passen Sie dafür den Code aus den Regressionsmodellen zu Tabelle 4 an. Die Variablennamen können Sie dem R-Skript entnehmen.

Interpretieren Sie die Regressionsergebnisse und vergleichen Sie Ihre Interpretation mit der Darstellung von Van Erkel & Van Aelst (2021). Stimmen Sie mit deren Interpretation überein?

Tabellen 5 und 6

Übungsaufgaben: Technische Anleitung

[Beschreibung für R und RStudio auf eigenem Computer oder Pool-Computer]

  1. Laden Sie die Datei 04_mame.R aus Blackboard herunter. Speichern Sie die Datei in Ihren Arbeitsordner für die Vorlesung (in denselben Ordner, in dem die .R-Dateien aus den letzten Übungen liegen).
  2. Öffnen Sie das Projekt uebung.Rproj.
  3. Öffnen Sie innerhalb des Projekts die Datei 04_mame.R.
  • Wenn etwas unklar ist (technisch oder statistisch): Stellen Sie Ihre Fragen im Blackboard-Forum.

Übungsaufgaben: Technische Anleitung

[Beschreibung für WebR]

  1. Laden Sie die Datei 04_mame.R aus Blackboard herunter.
  2. Laden Sie die Dateien 04_mame.R und Vanerkel_Vanaelst_2021.dta (aus der ersten Übung) in den Ordner home/web_user hoch.
  3. Öffnen Sie die Datei 04_mame.R.
  4. Ändern Sie Zeile 25: Löschen Sie daten/.
  5. Vollziehen Sie die Analysen nach, deren Ausgaben wir in der Vorlesung besprochen haben.
  • Wenn etwas unklar ist (technisch oder statistisch): Stellen Sie Ihre Fragen im Blackboard-Forum.

Übungsaufgaben: Technische Anleitung

[Beschreibung für Posit.Cloud]

  1. Laden Sie die Datei 04_mame.R aus Blackboard herunter.
  2. Öffnen Sie das RStudio-Projekt, das Sie zur ersten Übung erstellt haben, in Posit-Cloud.
  3. Laden Sie die Datei 04_mame.R in den Ordner uebung hoch.
  4. Öffnen Sie das Projekt uebung.Rproj und innerhalb des Projekts die Datei 04_mame.R.
  5. Ändern Sie Zeile 25: Fügen Sie uebung/ vor daten/ ein.
  • Wenn etwas unklar ist (technisch oder statistisch): Stellen Sie Ihre Fragen im Blackboard-Forum.

Fragen?

Nächste Woche

Transformation von Variablen im Regressionsmodell; Interaktion & Moderation

Danke — bis zur nächsten Sitzung.

Marko Bachl

Literatur

Bortz, J., & Schuster, C. (2010). Statistik für Human- und Sozialwissenschaftler (7. Aufl.). Springer. https://doi.org/10.1007/978-3-642-12770-0
Van Erkel, P. F. A. (2020). „Replication data for “Why don’t we learn from social media?" (Version V2) [Dataset]. Harvard Dataverse. https://doi.org/10.7910/DVN/D0COF1
Van Erkel, P. F. A., & Van Aelst, P. (2021). Why don’t we learn from social media? Studying effects of and mechanisms behind social media news use on general surveillance political knowledge. Political Communication, 38(4), 407–425. https://doi.org/ghk94s