Módszeresen 5.

Minden, amit tudni akartál a logisztikus regresszióról, de nem merted megkérdezni

Az előadás diái

Kisfalusi Dorottya és Koltai Júlia

Társadalomtudományi kutatások során gyakran szeretnénk választ kapni olyan kérdésekre, hogy többváltozós regresszióelemzésben hogyan változik egy-egy magyarázó változó hatása, ha más változókat is bevonunk a modellbe, illetve hogyan különbözik egy-egy változó hatása a megfigyelési egységek különböző csoportjaiban. Az első esetnél tehát arra lennénk kíváncsiak, hogy vajon a már bent lévő változó hatása az újonnan bevont változó kontrollálásának köszönhetően változott-e (van-e interferencia); a másodiknál pedig arra, hogy vajon a minta különböző alcsoportjaiban (például nemzetközi kutatások során különböző országokban) másképp működik-e a modellünk. Míg lineáris regressziós modellekben ilyen összehasonlításokat könnyen tehetünk, addig a logisztikus (és más nem lineáris) regressziós modellek paraméterbecslései egy fontos vonatkozásban másképp viselkednek: befolyásolják őket a modellből kihagyott változók, abban az esetben is, ha a kihagyott változók függetlenek a modellbe bevont magyarázó változóktól, tehát nagyságukra hatással van a modell meg nem magyarázott része. Ennek következtében a logisztikus regresszióelemzés során gyakran használt esélyhányadost, illetve az esély logaritmusát nem értelmezhetjük egyértelműen a hatás nagyságát mutató mérőszámként, mert ezek a nem megfigyelt heterogenitás mértékétől is függnek.

Emiatt a logisztikus regresszió esetében a következő nehézségekkel szembesülünk:
(1) problémás az esély logaritmusát és az esélyhányadost szubsztantív hatásként értelmezni, mert a nem megfigyelt heterogenitást is tükrözik;
(2) problémás az esély logaritmusát és az esélyhányadost különböző magyarázó változókat tartalmazó modelleknél összehasonlítani, mert a nem megfigyelt heterogenitás a modellekben eltérő lehet;
(3) problémás az esély logaritmusát és az esélyhányadost különböző mintákon, időpontokban és csoportokban összehasonlítani, mert a nem megfigyelt heterogenitás eltérő lehet.

1999 óta több tanulmány is rávilágított a logisztikus (és más nem lineáris modellek) során felmerülő problémák egy-egy szeletére (a csoportok közötti összehasonlítás és interakciós hatás problémájával kapcsolatban lásd: Allison 1999, Keel and Park 2006, Long 2009, Williams 2009, 2010 és 2016; modellen belüli hatáserősségről és a marginális hatásokról lásd Bartus 2003a és 2003b). 2010-ben jelent meg Carina Mood sokat idézett „Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It?” című cikke, mely a logisztikus regresszióelemzéssel kapcsolatban felmerült problémák összefoglalása mellett a problémák megoldására tett javaslatokról is összefoglalót nyújt. Azóta a felmerült problémákkal kapcsolatban további megoldási javaslatok születtek: az együtthatók különböző modellek közötti összehasonlításáról például lásd Kohler et al. 2011 és Karlson et al. 2012, illetve egy másik nézőpontból az esélyhányados védelmében is készült tanulmány (Buis 2016).

Az előadás és az azt követő vita során áttekintjük a logisztikus regresszióelemzéssel kapcsolatos leggyakoribb problémákat és foglalkozunk a különböző megoldási javaslatok (marginális hatások, lineáris valószínűségi modell, y-standardizálás, KHB-módszer) előnyeivel és hátrányaival is, melyek egy részének alkalmazásával kapcsolatban még mindig nem tapasztalhatunk teljes mértékű tudományos konszenzust.

 

Hozzászólók: Bartus Tamás és Németh Renáta

Vitavezető: Janky Béla

2017. május 4-e, 16 óra
ELTE  Lágymányosi Campus, Pázmány Péter sétány 1/A
Társadalomtudományi Kari Tanácsterem 0.100C

 

Irodalom

Allison, Paul D. (1999): Comparing Logit and Probit Coefficients Across Groups. Sociological Methods and Research, 28(2): 186-208.

Bartus, Tamás (2003a): Oksági Kapcsolatok Erejének Mérése Kontingenciatáblákban: az Esélyhányados Problémái és a Hatásnagyság. Szociológiai Szemle, 13(2): 42-58.

Bartus, Tamás (2003b): Logisztikus Regressziós Eredmények Értelmezése. Statisztikai Szemle, 81(4): 328-347.

Buis, Maarten L. (2016): Logistic regression: When can we do what we think we can do? Working Paper, September 5, 2016.

Cramer, J. S. (2005). Omitted variables and misspecified disturbances in the logit model (No. 05-084/4). Tinbergen Institute Discussion Paper.

Karlson, Kristian Bernt - Holm, Anders - Green, Richard (2012): Comparing Regression Coefficients Between Same-sample Nested Models Using Logit and Probit. A New Method. Sociological Methodology, 42(1): 286-313.

Keele, Luke - Park, David K. (2006): Difficult Choices: An Evaluation of Heterogeneous Choice Models. Working Paper, March 3, 2006. Prepared for the 2004 Meeting of the American Political Science Association, Chicago, IL Sept, 2-5.

Kohler, Ulrich - Karlson, Kristian Bernt - Holm, Anders (2011): Comparing coefficients of nested nonlinear probability models. The Stata Journal, 11(3): 420-438.

Long, J. Scott (2009): Group comparisons in logit and probit using predicted probabilities. Working Paper, June 25, 2009.

Mood, Carina (2010): Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It. European Sociological Review, 26(1): 67-82.

Williams, Richard (2009): Using Heterogeneous Choice Models to Compare Logit and Probit Coefficients Across Groups. Sociological Methods and Research, 37(4): 531-559.

Williams, Richard (2010): Fitting heterogeneous choice models with oglm. The Stata Journal, 10(4): 540-567.

Williams, Richard (2016): Comparing Logit & Probit Coefficients Between Nested Models. Working Paper, March 1, 2016.

 

Write comment (1 Comment)