Kapitel 4 Zensierte (censored ) und gestutzte (truncated ) abh¨ angige Variablen, Sample Selection In den vorhergehenden Abschnitten haben wir uns mit F¨allen besch¨aftigt, in denen die abh¨angige Variable y entweder bin¨aren und ordinalen Charakter hatte. In diesem Abschnitt befassen wir uns mit F¨allen, in denen die abh¨angige Variable u ¨ ber einen bestimmten Bereich intervallskaliert ist, aber in anderen Bereichen wesentlichen Restriktionen unterliegt (z.B. nicht beobachtbar ist oder nur einen bestimmten Wert annehmen kann). Man spricht in diesen F¨allen von ‘limited dependent variables’. Zwei F¨alle sind zu unterscheiden: • Zensierte Variablen (‘censored variables’ ): Die erkl¨arenden Variablen werden u ¨ ber den gesamten Bereich beobachtet, aber die abh¨angige Variable ist nur u ¨ ber einen beschr¨ankten Bereich bekannt. Alle Werte der abh¨angigen Variablen u ¨ ber oder unter einem Schwellenwert werden in einen einzigen Wert transformiert (→ ‘limited dependent variable’ ). Als Merkhilfe kann man sich einen Zensor vorstellen, der aus Geheimhaltungsgr¨ unden bestimmte Stellen schwarz u ¨ bermalt (Werte der abh¨angigen Variable, die eine bestimmte Gr¨oße unter- oder u ¨ berschreiten, einen fixen Wert zuordnet, aber die Werte der erkl¨arenden Variable nicht manipuliert). Beispiele: – Einkommen u ¨ ber einer bestimmten Grenze werden in der Statistik aus Datenschutzgr¨ unden h¨aufig nur aggregiert ausgewiesen, Daten u ¨ ber Alter etc. der befragten Personen sind aber bekannt. – Ausgaben f¨ ur dauerhafte Konsumg¨ uter, Urlaub, . . . – Anzahl von Seitenspr¨ ungen (Fair 1978). – Anzahl der Stunden, die berufst¨atige Frauen arbeiten. – Anzahl von Wiederverhaftungen von entlassenen H¨aftlingen. In all diesen Beispielen nehmen wir an, dass wir die erkl¨arenden Variablen auch f¨ ur Personen beobachten, dir ein Gut nicht kaufen, bzw. nicht Urlaub 1 2 Empirische Wirtschaftsforschung fahren, sich auf keinen Seitensprung einlassen, nicht arbeiten, oder nicht wiederverhaftet werden. • Gestutzte Variablen (truncated variables): Weder die abh¨angige Variable noch die unabh¨angigen Variablen sind u ¨ ber den gesamten Bereich bekannt. Zum Beispiel, wenn alle Datens¨atze f¨ ur Personen u ¨ ber einem bestimmten Schwellenwert verworfen werden (‘Truncation’ ¨andert die Gr¨oße des Datensatzes!). Das Problem bei OLS-Sch¨atzungen von zensierten (censored ) oder gestutzten (truncated ) abh¨angigen Variablen wird in Abbildung 4.1 verdeutlicht. y∗ OLS auf latente Variable 5 b 4 b b b b b b b b b b b b b 3 b b b b 2 τ 1 b b b b b b b b b b b b 0 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 x 14 x y OLS auf zensierte Daten (Censored Data) OLS auf gestutzte Daten (Truncated Sample) Tobit 5 b b b b 4 b b b b b b b b b b 3 b b b b b 2 τ 1 b b b b b 0 bc 0 bc 1 bc 2 3 bc bc 4 5 6 7 8 bc 9 10 11 12 13 Abbildung 4.1: OLS auf latente Variable sowie auf zensierte (‘censored’ ) und gestutzte (‘truncated’ ) Variable. Bei der zensierten Variable wird jeder Beobachtung mit y ∗ < τ der Wert Null zugewiesen (Kreise auf der x Achse, bei der gestutzten Variable werden alle Beobachtungen mit y ∗ < τ verworfen. 4.1 Die Verteilung von zensierten und gestutzten Variablen Die Verteilung von censored und truncated Variablen wird in 4.2 verdeutlicht. 3 Empirische Wirtschaftsforschung Dichte Normal Censored Truncated 1 − F (τ ) F (τ ) τ µ τ y∗ µ τ y µ y|y > τ Abbildung 4.2: Zensierte (‘censored’ ) & gestutzte (‘truncated’ ) Variablen • Die linke Grafik in Abbildung 4.2 zeigt die Verteilung (Dichte) einer latenten Variable y ∗ ∼ N(µ, σ 2 ). Die Dichtefunktion der latenten Variablen ist " ∗ 2 # 1 1 y −µ √ exp − f (y ∗| µ, σ) = 2 σ σ 2π ∗ 1 y −µ = φ σ σ 1 µ − y∗ = φ σ σ f¨ ur φ(z) = √ 1 ∼ N(0, 1) 2πe−0.5z 2 Die Wahrscheinlichkeit, dass eine Beobachtungen in den linken schraffierten Bereich f¨allt, ist ∗ Pr(y ≤ τ ) = Φ sodass y∗ − µ σ y∗ − µ Pr(y > τ ) = 1 − Φ σ ∗ wobei wir uns zunutze gemacht haben, dass aufgrund der Symmetrie der Normalverteilung um Null gilt φ(z) = φ(−z) Φ(z) = 1 − Φ(−z) • Die rechte Grafik Abbildung 4.2 zeigt die Verteilung einer gestutzten (truncated ) Variable y| y > τ . Da die schraffierte Fl¨ache links von τ nicht ber¨ ucksichtigt werden darf muß die Fl¨ache ‘angepaßt’ werden, damit die Fl¨ache unter der Dichte Eins bleibt. Dies geschieht, indem die urspr¨ ungliche Verteilung durch die Fl¨ache rechts von τ dividiert wird. f (y| y > τ, µ, σ) = f (y ∗| µ, σ) Pr(y ∗ > τ ) 4 Empirische Wirtschaftsforschung (die urspr¨ ungliche Verteilung ist zu Vergleichszwecken punktiert eingezeichnet). Unter Verwendung der fr¨ uheren Ergebnisse y ∗ −µ 1 φ σ f (y| y > τ, µ, σ) = σ 1 − Φ τ −µ σ Da die Verteilung links abgeschnitten ist liegt der Erwartungswert der gestutzten Variable E(y| y > τ ) rechts vom Erwartungswert der latenten Variable E(y ∗ ) = µ, oder konkret (siehe Long 1997, S. 194) φ µ−τ µ−τ σ E(y| y > τ ) = µ + σ = µ + σλ (4.1) σ Φ µ−τ σ wobei λ(·) = φ(·)/Φ(·) inverse Mills ratio genannt wird. Das gestutzte (truncated ) Modell kann mittel Maximum Likelihood gesch¨atzt werden. Die Log-Likelihood Funktion f¨ ur das gestutzte Modell ist n n X n n 1 X ln L = − ln(2π) − ln(σ 2 ) − 2 (y − x′i β) − ln(Φ(x′i β/σ)) 2 2 2σ i=1 i=1 Die Koeffizienten des gestutzten Modells geben die marginalen Auswirkungen einer erkl¨arenden Variable xk auf E(y) in der (nicht gestutzten!) Grundgesamtheit an. Die marginalen Effekte f¨ ur die gestutzte Stichprobe (d.h. f¨ ur y ∗ > 0) k¨onnen folgendermaßen berechnet werden (siehe Long 1997, S 208f) ∂ E(y| y ∗ > τ = βk [1 − δλ(δ) − λ(δ)2 ] ∂xk wobei λ den inverse Mills ratio bezeichnet und δi = x′i β − τ σ • Die mittlere Grafik in Abbildung 4.2 zeigt die Verteilung einer zensierten Variable y ( y ∗ wenn yi∗ > τ, yi = 0 wenn yi∗ ≤ τ. mit εi ∼ N(0, σ 2 ). Dies kann auch f¨ ur das Regressionsmodell geschrieben werden als yi = max(τ, x′i β + εi ) wobei in der Literatur h¨aufig τ = 0 angenommen wird (dies ist keine wesentliche Einschr¨ankung, da dies einfach erreicht werden kann, indem man y in Abweichungen vom bekannten Schwellenwert τ misst). F¨ ur Abbildung 4.2 bedeutet dies, dass alle Punkte, die im linken Panel im schraffierten Bereich links von τ liegen, im mittleren Panel genau auf τ liegen. 5 Empirische Wirtschaftsforschung Die Beobachtungen in der schraffierten Region der linken Grafik liegen alle bei τ. Die Wahrscheinlichkeit, dass eine Beobachtung im zensierten Bereich liegt, ist τ −µ ∗ Pr(Censored) = Pr(y < τ ) = Φ σ und die Wahrscheinlichkeit einer Beobachtung im nicht zensierten Bereich ist µ−τ τ −µ Pr(Uncensored) = 1 − Φ =Φ σ σ Deshalb ist der Erwartungswert einer zensierten Variable y E(y) = [Pr(Uncensored) × E(y| y > τ )] + [Pr(Censored) × E(y| y = τy )] µ−τ µ−τ τ −µ = Φ µ + σλ +Φ τy σ σ σ wobei τ der Schwellenwert ist, ab dem y ∗ zensiert ist, und τy der Wert ist, der y ∗ zugewiesen wird im Falle der Zensierung. Meist wird τ = τy = 0 angenommen. 4.2 Das Tobit Modell f¨ ur zensierte Variablen Das einfachste Tobit Modell bezieht sich auf den Fall einer von unten zensierten abh¨angigen Variablen yi , wobei die latente Variable yi∗ linear in den x ist mit einem normalverteilten St¨orterm εi , also yi∗ = x′i β + εi mit εi ∼ N(0, σ 2 ) Die beobachtete abh¨angige Variable y nimmt riable den Schwellenwert τ u ¨ berschreitet, und ( yi∗ = x′i β + εi yi = τy den Wert y an, wenn die latente Vaden Wert τy , wenn yi∗ ≤ τ , also wenn yi∗ > τ, wenn yi∗ ≤ τ Dieses Modell wurde im Laufe der Zeit in die verschiedensten Richtungen erweitert. Generell wird f¨ ur eine Tobit Sch¨atzung die Log-Likelihood Funktion einer zensierten (oder gestutzten) Variable maximiert. yi = max(τy , x′i β + εi ), εi ∼ N(0, σ 2 ) Die Wahrscheinlichkeit f¨ ur eine zensierte Beobachtung ist Pr(zensiert|x′i ) = Pr(yi∗ ≤ τ |x′i ) = Pr(εi ≤ τ − x′i β|x′i ) 6 Empirische Wirtschaftsforschung Da εi ∼ N(0, σ 2 ) ist εi /σ ∼ N(0, 1), deshalb ist τ − x′i β ′ τ − x′i β εi ′ ≤ := Φ(−δi ) Pr(Censored|xi ) = Pr xi = Φ σ σ σ und f¨ ur nicht zensierte Beobachtungen ′ xi β − τ τ − x′i β ′ Pr(Uncensored|xi ) = 1 − Φ =Φ := Φ(δi ) σ σ f¨ ur δi := x′i β − τ σ Erwartungswert Erinnern wir uns, yi = ( yi∗ = x′i β + εi τy wenn yi∗ > τ, wenn yi∗ ≤ τ F¨ ur den Erwartungswert m¨ ussen wir beide Teil ber¨ ucksichtigen E(yi |x′i = [Pr(Uncensored|x′i ) × E(yi |yi > τ, x′i )] + [Pr(Censored|x′i ) × τy ] Unter Ber¨ ucksichtigung der vorher berechneten Wahrscheinlichkeiten E(yi |x′i = [Φ(δi ) × E(yi |yi > τ, x′i )] + [Φ(−δi ) × τy ] Sehen wir uns E(yi |yi > τ, x′i ) etwas genauer an E(yi |yi > τ, x′i ) = E(x′i β + εi |yi > τ, x′i ) = x′i β + E(εi |yi > τ, x′i ) Aus Gleichung (4.1) folgt, dass E(εi |yi > τ, x′i ) = σλ(δi ), wobei σ die Standardabweichung von εi ist, δ := (x′i β − τ )/σ, und λ(z) = φ(z)/Φ(z) wieder der ‘inverse Mills ratio’ ist. Daraus folgt nach einigen weiteren Vereinfachungen E(yi |x′i ) = Φ(δi )x′i β + σφ(δi ) + Φ(−δi )τy Sch¨ atzung F¨ ur nicht zensierte Beobachtungen ist die log-Likelihood Funktion X yi − x′i β 1 2 ln Lu (β, σ ) = ln φ σ σ Uncensored F¨ ur zensierte Beobachtungen ist X bekannt und wir wissen, dass y ∗ ≤ τ . Die entsprechende Wahrscheinlichkeit ist τ − x′i β ∗ ′ Pr(yi ≤ τ | xi ) = Φ σ 7 Empirische Wirtschaftsforschung Die Likelihood Funktion f¨ ur zensierte Beobachtungen ist also Y τ − x′i β 2 Lc (β, σ ) = Φ σ Censored bzw. die Log-Likelihood Funktion τ − x′i β ln Lc (β, σ ) = ln Φ σ Censored X 2 Die Likelihood Funktion f¨ ur zensierte Beobachtungen und nichtzensierte Beobachtungen ist deshalb 2 ln L(β, σ | y, X) = X ln Φ Censored τ − x′i β σ 1 yi − x′i β + ln φ σ σ Uncensored X Man beachte, dass in diesem Modell β und σ einzeln identifiziert sind. Das Tobit Modell reagiert sehr empfindlich auf die Verletzung der zugrundeliegenden Annahmen, wie z.B. auf Heteroskedastizit¨at (siehe z.B. Johnston/DiNardo 1997, S. 440f)! Interpretation der Parameter • In Bezug auf die latente Variable y ∗ : wie OLS ∂ E(yi∗| x′i ) = βk ∂xk • In Bezug auf die zensierte Variable y: Wir haben bereits gesehen, dass E(yi |x′i ) = Φ(δi )x′i β + σφ(δi ) + Φ(−δi )τy Daraus folgt der marginale Effekt (siehe Long 1997, S. 209) ∂ E(yi | x′i ) βh = Φ (deltai ) βh + (τ − τy )φ(δi ) ∂xh σ H¨aufig ist τ = τy , in diesem Fall vereinfacht sich der Ausdruck zu ∂ E(yi | x′i ) = Φ (δi ) βh ∂xh • In Bezug auf die gestutzte Variable y > τ : Der Erwartungswert ist E(y|y > τ, x′i ) = x′i β + σλ(δ) Die partielle Ableitung nach xh ist ∂ E(yi | y > τ, x′i ) = 1 − δλ(δ) − [λ(δ)]2 βh ∂xh wobei δ = (x′i β − τ )/σ und λ(·) = φ(·)/Φ(·) wieder der inverse Mills ratio ist. 8 Empirische Wirtschaftsforschung 4.3 Sample Selection Truncation f¨ uhrt zu einer ‘Selektion’ der Stichprobe (f¨ ur eine ausf¨ uhrliche Diskussion siehe Wooldridge 2000, Chapter 17, p. 557ff). Faustregel: • Erfolgt die Auswahl in Abh¨angigkeit von exogenen Variablen (x) ist die Selektion weitgehend problemlos. • Erfolgt die Auswahl in Abh¨angigkeit von endogenen Variablen (y) ist OLS weder erwartungstreu noch konsistent! cov(xi , εi ) 6= 0, sehr ¨ahnlich wie ommitted variables. Das einfachste Selektionsmodell ist das bivariate Selektionsmodell (auch Tobit 2 genannt), wobei eine eigene Selektionsgleichung gesch¨atzt wird ( 1 wenn zi∗ > 0, zi = 0 wenn zi∗ ≤ 0. und ( yi∗ yi = − wenn zi∗ > 0, wenn zi∗ ≤ 0. mit zi∗ = wi γ + vi yi∗ = xi β + εi Meistens wird angenommen v 0 1 ρ ∼N , u 0 ρ σu2 4.3.1 Zweistufige Sample Selection nach Heckman (1976) Bei der sogenannten Heckit Methode wird der Mechanismus, demzufolge eine Beobachtung zensiert oder nicht zensiert ist, explizit modelliert. Das eigentliche Modell ist wieder yi∗ = x′i β + εi aber die Selektion, ob yi∗ beobachtet wird oder nicht h¨angt nicht von einem τ ab, sondern von einer zweiten latenten Variable z ∗ mit zi∗ = wi′ α + vi 9 Empirische Wirtschaftsforschung mit zi = 1 wenn zi∗ > 0 und Null sonst. Pr(zi = 1|wi ) = Φ(wi′ α) Pr(zi = 0|wi ) = 1 − Φ(wi′ α) y ∗ wird nur beobachtet, wenn z ∗ > 0. Die Matrizen X und W k¨onnen auch gleiche Variablen enthalten. Wenn X und W v¨ollig gleich sind (d.h. wenn die Selektionsgleichung und Regression f¨ ur y die gleichen Variablen enthalten) treten allerdings h¨aufig große Probleme mit der Multikollinearit¨at auf, da der inverse Mills ratio u ¨ ber weite Bereiche ann¨ahernd linear ist. Das Grundprinzip bei Heckman’s zweistufigem Vorgehen ist einfach: zuerst wird ˆ i f¨ auf Grundlage eines Probit Modells der inverse Mills ratio λ ur jede Beobachtung berechnet. Auf der zweiten Stufe wird eine OLS-Regression von yi auf alle x′i und den ˆ i f¨ inverse Mills ratio λ ur alle selektierten Beobachtungen (d.h. f¨ ur Beobachtungen mit zi = 1) gerechnet, d.h. ˆi y i = x′ β + γ λ i wobei nur die Beobachtungen der gestutzten Stichprobe verwendet werden. Die so berechneten b sind konsistent und ann¨ahernd normalverteilt, aber nicht effizient. Die Standardfehler der zweiten Stufe sind bei dieser einfachen Vorgangsweise verzerrt und deshalb nicht anwendbar, da dabei die erste Stufe nicht ber¨ ucksichtigt wird. Die folgende Vorgangsweise erlaubt die Sch¨atzung konsistenter Standardfehler. Theorem Momente der gestutzte bivariaten Normalverteilung, siehe Greene (2003), S. 781: Wenn y und z bivariat normalverteilt sind mit Erwartungswerten µy und µz , Standardabweichungen σy und σz sowie Korrelation ρ, dan gilt mit ωz = a−µz ; σz E(y|z > a) = µy + ρσy λ (ωz ) var(y|z > a) = σy2 1 − ρ2 δ (ωz ) λ = φ(ωz )/[1 − Φ(ωz )] und δ (ωz ) = λ (ωz ) [λ (ωz ) − ωz ]. Deshalb gilt (siehe z.B. Greene 2003, 784) E(yi | zi = 1, xi , zi ) = xi β + ρσu λ(wi′ α) Sch¨ atzung der Parameter Die Sch¨atzung kann entweder mit Maximum Likelihood oder zweistufig erfolgen. Nach Greene (2003, S. 784f) kann man folgendermaßen vorgehen: 1. Sch¨atze mit einem Probit die Parameter α der Selektionsgleichung. Berechne f¨ ur jede Beobachtung den inverse Mills ratio ′ ˆ ˆ i = φ(wi α) λ ′ˆ Φ(wi α) sowie ˆ i (λ ˆ i − w ′ α) δˆi = λ iˆ 10 Empirische Wirtschaftsforschung 2. Berechne eine Sch¨atzung f¨ ur den Koeffizientenvektor β und βλˆ = ρσu mittels ˆ OLS, indem y auf x und λ regressiert wird. Man kann zeigen, dass σ ˆu = εˆ′ εˆ ˆ¯ 2 − δbλ n ein konsistenten Sch¨atzer f¨ ur σu2 ist. Daraus kann schließlich ein Sch¨atzer f¨ ur ρ berechnet werden ρˆ = bλ σ ˆu
© Copyright 2025