logisztikus regresszió

: Megjelent: 2017. április 19.

Minden, amit tudni akartál a logisztikus regresszióról, de nem merted megkérdezni

Kisfalusi Dorottya és Koltai Júlia

Társadalomtudományi kutatások során gyakran szeretnénk választ kapni olyan kérdésekre, hogy többváltozós regresszióelemzésben hogyan változik egy-egy magyarázó változó hatása, ha más változókat is bevonunk a modellbe, illetve hogyan különbözik egy-egy változó hatása a megfigyelési egységek különböző csoportjaiban. Az első esetnél tehát arra lennénk kíváncsiak, hogy vajon a már bent lévő változó hatása az újonnan bevont változó kontrollálásának köszönhetően változott-e (van-e interferencia); a másodiknál pedig arra, hogy vajon a minta különböző alcsoportjaiban (például nemzetközi kutatások során különböző országokban) másképp működik-e a modellünk. Míg lineáris regressziós modellekben ilyen összehasonlításokat könnyen tehetünk, addig a logisztikus (és más nem lineáris) regressziós modellek paraméterbecslései egy fontos vonatkozásban másképp viselkednek: befolyásolják őket a modellből kihagyott változók, abban az esetben is, ha a kihagyott változók függetlenek a modellbe bevont magyarázó változóktól, tehát nagyságukra hatással van a modell meg nem magyarázott része. Ennek következtében a logisztikus regresszióelemzés során gyakran használt esélyhányadost, illetve az esély logaritmusát nem értelmezhetjük egyértelműen a hatás nagyságát mutató mérőszámként, mert ezek a nem megfigyelt heterogenitás mértékétől is függnek.

Emiatt a logisztikus regresszió esetében a következő nehézségekkel szembesülünk:
(1) problémás az esély logaritmusát és az esélyhányadost szubsztantív hatásként értelmezni, mert a nem megfigyelt heterogenitást is tükrözik;
(2) problémás az esély logaritmusát és az esélyhányadost különböző magyarázó változókat tartalmazó modelleknél összehasonlítani, mert a nem megfigyelt heterogenitás a modellekben eltérő lehet;
(3) problémás az esély logaritmusát és az esélyhányadost különböző mintákon, időpontokban és csoportokban összehasonlítani, mert a nem megfigyelt heterogenitás eltérő lehet.

1999 óta több tanulmány is rávilágított a logisztikus (és más nem lineáris modellek) során felmerülő problémák egy-egy szeletére (a csoportok közötti összehasonlítás és interakciós hatás problémájával kapcsolatban lásd: Allison 1999, Keel and Park 2006, Long 2009, Williams 2009, 2010 és 2016; modellen belüli hatáserősségről és a marginális hatásokról lásd Bartus 2003a és 2003b). 2010-ben jelent meg Carina Mood sokat idézett „Logistic Regression: Why We Cannot Do What We Think We Can Do, and What We Can Do About It?” című cikke, mely a logisztikus regresszióelemzéssel kapcsolatban felmerült problémák összefoglalása mellett a problémák megoldására tett javaslatokról is összefoglalót nyújt. Azóta a felmerült problémákkal kapcsolatban további megoldási javaslatok születtek: az együtthatók különböző modellek közötti összehasonlításáról például lásd Kohler et al. 2011 és Karlson et al. 2012, illetve egy másik nézőpontból az esélyhányados védelmében is készült tanulmány (Buis 2016).

Az előadás és az azt követő vita során áttekintjük a logisztikus regresszióelemzéssel kapcsolatos leggyakoribb problémákat és foglalkozunk a különböző megoldási javaslatok (marginális hatások, lineáris valószínűségi modell, y-standardizálás, KHB-módszer) előnyeivel és hátrányaival is, melyek egy részének alkalmazásával kapcsolatban még mindig nem tapasztalhatunk teljes mértékű tudományos konszenzust.