Anwendungsorientierte Analyseverfahren
Regressionsannahmen
Prof. Dr. Michael Scharkow
Sommersemester 2024
Annahmen des GLM
Statistische Annahmen
- Linearität und Additivität der Zusammenhänge
- Normalverteilung und Homoskedastizität der Residuen
- Unabhängigkeit der Residuen
- keine einflussreichen Ausreißer
- keine Multikollinearität
Kausalannahmen
- korrekt spezifiziertes Modell, d.h. keine fehlenden oder überflüssigen Kovariaten
Linearität & Additivität
- Annahme: der Zusammenhang zwischen \(X\) und \(Y\) ist linear und unabhängig von \(Z\)
- Diagnose: Inspektion des Scatterplots bzw. des Fitted/Residual-Plots
- Verletzung: nichtlineare Zusammenhänge (quadratisch, exponentiell, etc.)
- Konsequenz der Verletzung: verzerrte Regressionskoeffizienten
- Lösung: Transformation von \(X\) oder \(Y\), nichtlineares Regressionsmodell, Moderationsanalyse mit \(Z\)
Homoskedastizizät der Residuen
- Annahme: Residualvarianz ist für alle Werte von \(X\) gleich
- Diagnose: Fitted/Residual-Plots
- Verletzung: Residuen streuen in Abhängigkeit von \(X\)
- Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
- Lösung: alternative Standardfehler, Datentransformationen, alternatives Modell
Unabhängigkeit der Residuen
- Annahme: Residuen korrelieren weder miteinander noch mit den Prädiktoren
- Diagnose: Nachdenken über datengenerierenden Prozess, Test auf serielle Korrelation
- Verletzung: Residuen (und oft Variablen) sind geclustert (zeitlich, Stichprobe)
- Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
- Lösung: Multilevel-Modell, Modell mit Autokorrelationen
keine einflussreichen Ausreißer
- Annahme: alle Fälle tragen gleich zur Schätzung bei
- Diagnose: Scatterplot, Leverage-Plot
- Verletzung: einzelne Fälle beeinflussen die Höhe der Regressionsgeraden
- Konsequenz der Verletzung: verzerrte Regressionskoeffizienten
- Lösung: Ausschluss von Ausreißern (mit klar definierten Regeln!)
keine Multikollinearität
- Annahme: Prädiktorvariablen \(X\) korrelieren nicht zu stark miteinander
- Diagnose: Korrelationsmatrix der Prädiktoren, VIF-Analyse (Variance Inflation Factor)
- Verletzung: Prädiktorvariablen korrelieren stark miteinander
- Konsequenz der Verletzung: falsche Standardfehler, ineffiziente Schätzung
- Lösung: Ausschluss von Prädiktorvariablen
Beispiel: van Erkel & van Aelst, 2021
Linearität und Homoskedastizität
Multikollinearität
Parameter
|
Political_interest
|
Age
|
Gender
|
PK
|
0.49
|
0.3
|
-0.31
|
Gender
|
-0.21
|
-0.2
|
NA
|
Age
|
0.14
|
NA
|
NA
|
Kausalannahmen, Confounders, Colliders
Quelle: https://catalogofbias.org
Confounder- oder Ommitted-Variable-Bias
Nicht-Berücksichtigung einer relevanten Kovariate, die \(X\) und \(Y\) beeinflusst, verzerrt den geschätzen Zusammenhang zwischen \(X\) und \(Y\).
Collider-Bias
Berücksichtigung einer Kovariate, die von \(X\) und \(Y\) beeinflusst wird, verzerrt den geschätzen Zusammenhang zwischen \(X\) und \(Y\).
(Kausale) Pfadmodelle
Quelle: https://www.andrewheiss.com/blog/2020/02/25/closing-backdoors-dags/
Verletzung der Modellannahmen - und nun?
- Keine Panik! Modellannahmen sind praktisch immer verletzt (z.B. Normalverteilung der Residuen)
- viele Annahmen beziehen sich auf die Residuen, nicht auf \(X\) oder \(Y\)
- wichtig ist, einschätzen zu können, welche Konsequenzen eine Verletzung der Modellannahme haben kann
- verzerrte Schätzer (zu hoch, zu niedrig)
- falsche Standardfehler (Alpha- und Beta-Fehler)
- falsche Kausalschlüsse (Rohrer, 2018; Coenen, 2022)
- vorsichtig formulieren, Robustheit der Ergebnisse prüfen
Literatur
Coenen, L. (2022). The indirect effect is omitted variable bias. A cautionary note on the theoretical interpretation of products-of-coefficients in mediation analyses. European Journal of Communication, 37(6), 679-688.
van Erkel, P. F., & Van Aelst, P. (2021). Why don’t we learn from social media? Studying effects of and mechanisms behind social media news use on general surveillance political knowledge. Political Communication, 38(4), 407-425.
Rohrer, J. M. (2018). Thinking clearly about correlations and causation: Graphical causal models for observational data. Advances in methods and practices in psychological science, 1(1), 27-42.