Regresión lineal múltiple - estimación

Regresión lineal múltiple - estimación

Regresin Lineal Mltiple yi = 0 + 1x1i + 2x2i + . . . kxki + ui Javier Aparicio Divisin de Estudios Polticos, CIDE [email protected] A. Estimacin Curso de Verano ENCUP http://publiceconomics.wordpress.com/verano2009 Julio 2009 1 Similitudes con regresin simple 0 es el intercepto

1 a k son k parmetros de pendiente u es el trmino de error o residual El supuesto de media condicional cero se mantiene: E(u|x1,x2, ,xk) = 0 Igual que antes, minimizamos la suma de residuales cuadrados, de modo que tenemos k+1 condiciones de primer orden (o k+1 parmetros a estimar) 2 Interpretacin de la regresin mltiple y 0 1 x1 2 x2 ... k xk , de modo que y x x ... x , 1 1 2 2 k k

y si mantenemos x2 ,..., xk constantes, implica que y x , es decir, cada tiene 1 1 una interpretacin ceteris paribus 3 interpretada como una derivada parcial Considere el caso donde k 2, i.e. y x x , entonces 0 1 1 2 2 1 ri1 yi 2 i1

r , donde ri1 son son los residuales de una regresin auxiliar : x1 0 2 x2 4 derivada parcial La ecuacin anterior implica que regresar y en x1 y x2 tiene el mismo estimador para x1 que regresar y en los residuales de una regresin de x1 en x2 Es decir, al relacionar x1 con y, solamente capturamos la informacin de xi1 que no est relacionada con xi2.

Estimamos el efecto de x1 en y despus de controlar o aislar el efecto de x2 5 Estimacin simple vs. mltiple ~ ~ ~ Compare la regresin simple y 0 1 x1 con la regresin multiple y 0 1 x1 2 x2 ~ En general, 1 1 a menos que : 0 (i.e. x no tenga un efecto parcial significativo) 2 2 o bien x1 y x2 no tengan correlacin alguna en la muestra. 6 Suma de cuadrados: Terminologa

Podemos separar cada observacin en un componente explicado (sistemtico) y un componente no explicado : yi y i ui De modo que podemos definir lo siguiente : 2 y y es la Suma Total de cuadrados : SST y y es la Suma Explicada de cuadrados : SSE u es la Suma Residual de cuadrados : SSR i 2 i 2 i Lo cual implica que SST SSE SSR SST es la suma de desviaciones al cuadrado de las observaciones de la muestra: es proporcional, ms no igual, a VAR(y). 7 Bondad de ajuste: R2

Cmo saber qu tan bueno es el ajuste entre la regresin y los datos de la muestra? Podemos calcular la proporcin de la Suma de cuadrados totales (SST) que es explicada por el modelo. Esto es la llamada R-cuadrada de una regresin: R2 = SSE/SST = 1 SSR/SST 8 Bondad de ajuste: R2 2 R tambin puede definirse como el cuadrado del coeficiente de correlacin entre los valores observados, yi , y los valores predichos, y i :

y y y y y y y y 2 R 2 i i 2 2 i i 9

R-cuadrada: discusin R2 nunca decrecer conforme incluyamos ms variables explicativas a la regresin, y por lo general aumentar (as sea marginalmente). Por qu? Incluir variables adicionales aumenta la SSE aunque no sean significativas. Dado que R2 tpicamente aumenta con el nmero de variables independientes, no es por s sola un buen criterio para comparar modelos. 10 no sesgadas: supuestos Gauss-Markov 1. Modelo poblacional es lineal en sus parmetros: y = 0 + 1x1 + 2x2 ++ kxk + u 2. Muestra aleatoria de tamao n,

{(xi1, xi2,, xik, yi): i=1, 2, , n}, representativa de la poblacin, de modo que el modelo muestral es: yi = 0 + 1xi1 + 2xi2 ++ kxik + ui 3. E(u|x1, x2, xk) = 0, lo cual implica que todas las variables explicativas son exgenas (no endogeneidad). 4. Ninguna variable x es constante ni tiene una correlacin lineal exacta con otra (no multicolinealidad). 11 Demasiadas vs. pocas variables Si incluimos variables que no pertenecen al modelo poblacional en nuestra especificacin o modelo?

No tiene impacto en el resto de las estimadas: MCO permanece sin sesgo. Si excluimos variables que s pertenecen al modelo? En general, los estimadores MCO tendrn un sesgo de variable omitida. 12 Sesgo de variable omitida Supongamos que el " verdadero" modelo es : y 0 1 x1 2 x2 u , pero ~ ~ ~ estimamos y x u, entonces 0 ~ xi1 x1 yi 1 2 xi1 x1 1 1 (*)

...ie, la estimacin del modelo incorrecto. Comparmoslo con la del modelo correcto 13 Sesgo de variable omitida (continuacin) Retomando el modelo " verdadero": yi 0 1 xi1 2 xi 2 ui , de modo que el numerador de (*) es : x x x x u x x x x x x i1 1 0 1 i1 2 i2 i

2 1 i1 1 2 i1 1 i2 i1 x1 ui 14 Sesgo de variable omitida

(continuacin) ~ 1 2 x x x x x x x i1 1 i1 i2 2 i1 1 i1 x1 ui x1

2 dado que E(ui ) 0, al calcular valor esperado, tenemos ~ E 1 1 2 x x x x x i1 i1 1 i2 2 1

15 Sesgo de variable omitida (continuacin) Consideremos la regresin de x2 en x1 : ~ ~ ~ xi1 x1 xi 2 ~ x2 0 1 x1 donde 1 2 xi1 x1 ~ 1 denota el impacto de x1 en x2 ~ ~ de modo que E 1 1 2 1 ~ i.e., 1 tiene un sesgo.

16 Sesgo positivo o negativo en 1 Corr(x1, x2) > 0 Corr(x1, x2) < 0 1 > 0) 2 > 0 1 < 0) Sesgo positivo Sesgo negativo (overestimation) 2 < 0 Sesgo negativo Sesgo positivo (underestimation) 17 Sesgo de variable omitida: resumen Dos casos donde el sesgo es igual a cero: 2 = 0, es decir, x2 no perteneca al modelo poblacional x1 y x2 no estn correlacionados en la muestra Si la correlacin entre (x2, x1) y entre (x2, y) es del mismo signo, el sesgo es positivo. Si omites una variable x2 que se mueve en el mismo sentido que x1, y sta afecta positivamente a y, 1 capturar parte de dicho impacto (sobre- estimada). Si la correlacin entre (x2, x1) y entre (x2, y) es de signo opuesto, el sesgo es negativo. 18

El caso ms general: sesgo en todas las i Tcnicamente, slo podemos anticipar el signo de este sesgo cuando el resto de las variables explicativas incluidas no estn correlacionadas entre s ni con la variable omitida Si esto no se cumple, el sesgo afecta a todas las i estimadas, dependiendo de las covarianzas entre las variables incluidas y con la variable omitida. An as, resulta til calcular el sesgo de variable omitida asumiendo que las otras x no estn correlacionadas, an cuando este supuesto no se cumpla. 19 Varianza de los estimadores MCO

Ya vimos que la distribucin muestral de los estimadores est centrada en torno a los verdaderos parmetros (insesgamiento). Qu tan dispersa ser la distribucin de los estimadores? Para analizar esto, requerimos el 5 supuesto Gauss-Markov: Var(u|x1, x2,, xk) = 2 conocido como homoscedasticidad (homoskedasticity): varianza constante. 20 Varianza de MCO (cont.) Sea x igual al vector de variables (x1, x2,xk)

Suponer que Var(u|x) = 2 tambin implica que Var(y| x) = 2 Los 4 supuestos requeridos para insesgamiento, ms el supuesto de homoscedasticidad son los llamados supuestos Gauss-Markov. 21 Varianza de MCO (cont.) Dados los 5 supuestos Gauss - Markov : Var j 2

, donde 2 SST j 1 R j 2 SST j xij x j y R es la R 2 j 2 de una regresin de x j en todas las otras x Es decir, SSTj captura la varianza de xi, mientras que R2j captura la correlacin entre xj y las otras x del modelo. 22 Componentes de la Varianza de MCO

Varianza del error: a mayor 2, mayor varianza de los estimadores MCO. Varianza muestral: a mayor SSTj, menor varianza de los estimadores MCO. A mayor tamao de muestra, mayor SSTj y mayor precisin de los estimadores. Correlacin entre las variables explicativas: a mayor Rj2, mayor varianza de los estimadores MCO. Si dos variables x son altamente correlacionadas, sus b sern poco precisas. Mayor varianza de los estimadores equivale a decir menor precisin o menor eficiencia. 23 Error de especificacin y eficiencia de los estimadores ~ ~ ~ MCO ~

Comparemos el modelo " incorrecto": y x , donde Var SST 2 0 1 1 1 1 2 Mientras que para el modelo " correcto": Var j , 2 SST j 1 R j ~ De modo que, en general: Var 1 Var 1 (a menos que x1 y x2 no estn correlacionados)

Estimar el modelo incorrecto produce una 1 sesgada (por la variable omitida) pero de menor varianza (mayor precisin)! Un modelo con variables omitidas puede ser engaosamente preciso. Este es el llamado trade-off entre sesgo y eficiencia. 24 Trade-off entre sesgo y eficiencia La varianza del estimador es menor en el modelo incorrecto pero, a menos que 2 = 0, este modelo ser sesgado.

Un modelo con variables omitidas puede ser engaosamente preciso y posiblemente sesgado. Un modelo con demasiadas variables puede ser engaosamente impreciso: pierdes ms grados de libertad y enfrentas mayor multicolinearidad. Conforme el tamao de la muestra aumenta, la varianza de cada estimador disminuye, haciendo que las diferencias en eficiencia sean relativamente menos importantes. 25 Estimacin de la varianza del error No conocemos la varianza del error, 2, porque no observamos los errores de la poblacin, ui Lo que observamos son los residuales (estimados) del modelo muestral: ui yi 0 1 x1i ... k xki

Pero podemos usar los residuales estimados para construir un estimador de la varianza del error. 26 Varianza del error (cont) u n k 1 SSR df thus, se SST 1 R 2 2 i j j

2 12 j gl = n (k + 1), o bien gl = n k 1 gl (i.e. grados de libertad) son el (nmero de observaciones) (nmero de parmetros estimados) A mayores grados de libertad, mayor precisin de los estimadores. 27 Supuestos Gauss-Markov 1. Modelo poblacional es lineal en sus parmetros: y = 0 + 1x1 + 2x2 ++ kxk + u 2. Muestra aleatoria de tamao n, {(xi1, xi2,, xik, yi): i=1, 2, , n}, representativa de la poblacin, de modo que el modelo muestral es: yi = 0 + 1xi1 + 2xi2 ++ kxik + ui 3. E(u|x1, x2, xk) = 0, lo cual implica que todas las variables explicativas son exgenas (no endogeneidad). 4. Ninguna variable x es constante ni tiene una correlacin lineal exacta con otra (no

multicolinealidad). 28 Teorema Gauss-Markov Dados los 5 supuestos Gauss-Markov, puede demostrarse que MCO es MELI (BLUE): Mejor Estimador Lineal Insesgado Best Linear Unbiased Estimator De modo que, si los supuestos G-M se sostienen, usar MCO es una buena idea. Si, adems de estos 5 supuestos, u ~ N(0, 2) MCO es el mejor estimador (lineal o no lineal) insesgado. 29

Recently Viewed Presentations

  • Overpopulation - Weebly

    Overpopulation - Weebly

    Cornucopians vs. NeoMalthusians. cornucopia, the mythical "horn of plenty" of the Greek mythology which supplied its owners with endless food and drink magically. a futurist who believes that continued progress and provision of material items for mankind can be met...
  • Higher LI We are learning how to answer

    Higher LI We are learning how to answer

    poem and one other by Norman MacCaig, discuss his use of contrast in his work. Assisi - theme of hypocrisy and poverty through the dwarf and church. Sounds of the Day - theme of loss through contrasting sounds (positive sounds...
  • Transmembrane Transport of Ions and Small Molecules

    Transmembrane Transport of Ions and Small Molecules

    Transmembrane Transport of Ions and Small Molecules. 11.3 ATP-Powered Pumps and the Intracellular Ionic Environment. Four classes of transmembrane proteins couple energy released by ATP hydrolysis with energy-requiring transport of substances against their concentration gradients.
  • Concordia University Department of Computer Science

    Concordia University Department of Computer Science

    Lecture 2 Lexical Analysis Part I Building a Lexical Analyzer Roles of the Scanner Removal of comments Comments are not part of the program's meaning Multiple-line comments?
  • Introduction to Manufacturing - Brent Payne

    Introduction to Manufacturing - Brent Payne

    Chapter 14: Forging Forging Metal-forming process in which the workpiece is shaped by compressive forces applied through various dies and tools. Example - Blacksmith Hammer and anvil Forging Forgeability Capability of a material to undergo deformation without cracking.
  • Regression Analysis: How to DO It

    Regression Analysis: How to DO It

    Is an estimate of the average difference in the dependent variable for two distinct individuals who differ (by one unit) only in that explanatory variable. Is an estimate of the average difference we'd expect to see in a specific individual...
  • REPORT  PART I: brief review report, including research

    REPORT PART I: brief review report, including research

    State of knowledge on sedimentation & circulation. Within existing research, few studies consider the harbour as a whole system. Catchment or harbour activity effects on the inlet sediment budget cannot be fully assessed via such compartmentalised approaches.
  • Plot & Contex t Produce a list of

    Plot & Contex t Produce a list of

    I bear a charmed life which must not _____ To one of_____. Macduff: Macduff was from his _____untimely _____. Plot & Context. Produce a list of ten bullet-points which tell the story of A Christmas Carol. What era was A...