Anwendungsorientierte Analyseverfahren

Regressionsannahmen

Prof. Dr. Michael Scharkow

Sommersemester 2024

Annahmen des GLM

Statistische Annahmen

  • Linearität und Additivität der Zusammenhänge
  • Normalverteilung und Homoskedastizität der Residuen
  • Unabhängigkeit der Residuen
  • keine einflussreichen Ausreißer
  • keine Multikollinearität

Kausalannahmen

  • korrekt spezifiziertes Modell, d.h. keine fehlenden oder überflüssigen Kovariaten

Linearität & Additivität

  • Annahme: der Zusammenhang zwischen \(X\) und \(Y\) ist linear und unabhängig von \(Z\)
  • Diagnose: Inspektion des Scatterplots bzw. des Fitted/Residual-Plots
  • Verletzung: nichtlineare Zusammenhänge (quadratisch, exponentiell, etc.)
  • Konsequenz der Verletzung: verzerrte Regressionskoeffizienten
  • Lösung: Transformation von \(X\) oder \(Y\), nichtlineares Regressionsmodell, Moderationsanalyse mit \(Z\)

Homoskedastizizät der Residuen

  • Annahme: Residualvarianz ist für alle Werte von \(X\) gleich
  • Diagnose: Fitted/Residual-Plots
  • Verletzung: Residuen streuen in Abhängigkeit von \(X\)
  • Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
  • Lösung: alternative Standardfehler, Datentransformationen, alternatives Modell

Unabhängigkeit der Residuen

  • Annahme: Residuen korrelieren weder miteinander noch mit den Prädiktoren
  • Diagnose: Nachdenken über datengenerierenden Prozess, Test auf serielle Korrelation
  • Verletzung: Residuen (und oft Variablen) sind geclustert (zeitlich, Stichprobe)
  • Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
  • Lösung: Multilevel-Modell, Modell mit Autokorrelationen

keine einflussreichen Ausreißer

  • Annahme: alle Fälle tragen gleich zur Schätzung bei
  • Diagnose: Scatterplot, Leverage-Plot
  • Verletzung: einzelne Fälle beeinflussen die Höhe der Regressionsgeraden
  • Konsequenz der Verletzung: verzerrte Regressionskoeffizienten
  • Lösung: Ausschluss von Ausreißern (mit klar definierten Regeln!)

keine Multikollinearität

  • Annahme: Prädiktorvariablen \(X\) korrelieren nicht zu stark miteinander
  • Diagnose: Korrelationsmatrix der Prädiktoren, VIF-Analyse (Variance Inflation Factor)
  • Verletzung: Prädiktorvariablen korrelieren stark miteinander
  • Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
  • Lösung: Ausschluss von Prädiktorvariablen

Beispiel: van Erkel & van Aelst, 2021

Linearität und Homoskedastizität

Multikollinearität

Parameter Political_interest Age Gender
PK 0.49 0.3 -0.31
Gender -0.21 -0.2 NA
Age 0.14 NA NA
$VIF

Kausalannahmen, Confounders, Colliders

Quelle: https://catalogofbias.org

Confounder- oder Ommitted-Variable-Bias

Nicht-Berücksichtigung einer relevanten Kovariate, die \(X\) und \(Y\) beeinflusst, verzerrt den geschätzen Zusammenhang zwischen \(X\) und \(Y\).

Collider-Bias

Berücksichtigung einer Kovariate, die von \(X\) und \(Y\) beeinflusst wird, verzerrt den geschätzen Zusammenhang zwischen \(X\) und \(Y\).

(Kausale) Pfadmodelle

Quelle: https://www.andrewheiss.com/blog/2020/02/25/closing-backdoors-dags/

Verletzung der Modellannahmen - und nun?

  • Keine Panik! Modellannahmen sind praktisch immer verletzt (z.B. Normalverteilung der Residuen)
  • viele Annahmen beziehen sich auf die Residuen, nicht auf \(X\) oder \(Y\)
  • wichtig ist, einschätzen zu können, welche Konsequenzen eine Verletzung der Modellannahme haben kann
    • verzerrte Schätzer (zu hoch, zu niedrig)
    • falsche Standardfehler (Alpha- und Beta-Fehler)
    • falsche Kausalschlüsse (Rohrer, 2018; Coenen, 2022)
  • vorsichtig formulieren, Robustheit der Ergebnisse prüfen

Literatur

Coenen, L. (2022). The indirect effect is omitted variable bias. A cautionary note on the theoretical interpretation of products-of-coefficients in mediation analyses. European Journal of Communication, 37(6), 679-688.

van Erkel, P. F., & Van Aelst, P. (2021). Why don’t we learn from social media? Studying effects of and mechanisms behind social media news use on general surveillance political knowledge. Political Communication, 38(4), 407-425.

Rohrer, J. M. (2018). Thinking clearly about correlations and causation: Graphical causal models for observational data. Advances in methods and practices in psychological science, 1(1), 27-42.