class: center, middle, inverse, title-slide .title[ # Macroeconometría ] .subtitle[ ## Series de Tiempo Estacionarias: Efectos Causales Dinámicos (Parte II) ] .author[ ### Mauricio Tejada ] .institute[ ### Ingeniería Comercial ] --- layout: true <div class="my-footer"><img src="img/logo2.png" style="height: 35px;"/></div> --- ## Introducción al análisis de series de tiempo en muestras grandes - Los **supuestos** utilizados hasta ahora parecen ser **demasiado restrictivos**. - La exogeneidad estricta, la homocedasticidad y la ausencia de autocorrelación son requisitos muy exigentes, especialmente en el contexto de series de tiempo. - La inferencia estadística en los modelos se basa en la validez del supuesto de normalidad. - Si el tamaño de la **muestra es grande** se necesitan **supuestos mucho más débiles**. - Un requisito clave para el análisis de muestras grandes es que las series de tiempo sean estacionarias y débilmente dependientes. - Intuición sobre el concepto de estacionariedad: - En términos generales, una serie de tiempo es estacionaria si sus propiedades estocásticas y su estructura de dependencia temporal no cambia con el tiempo. --- class: separator-blue, middle # Series de tiempo estacionarias y débilmente dependientes --- ## Series de tiempo estacionarias - Recordemos las **definiciones** de estacionariedad estricta y en covarianza (o débil). - Una serie de tiempo es **estacionaria en el sentido estricto** si su distribución de probabilidad no cambia en el tiempo, esto es, si la distribución conjunta de `\(Y_{s+1},Y_{s+2},...,Y_{s+T}\)` no depende de `\(s\)` sin importar el valor de `\(T\)`. En caso contrario, la series es no estacionaria. Por otro lado, se dice que un par de series de tiempo `\(X_{t}\)` e `\(Y_{t}\)` son conjuntamente estacionarias si la distribución conjunta de `\(Y_{s+1},...,Y_{s+T},X_{s+1},...X_{s+T}\)` no depende de `\(s\)` sin importar el valor de `\(T\)`. - Un proceso estocástico `\(y_{t}\)` es débilmente estacionario o **estacionario en covarianza** si y solo si: 1. `\(\mathbb{E}\left[y_{t}\right]=\mu<\infty,\,\,\,\forall t\)` 2. `\(\mathbb{V}(y_{t})=\mathbb{E}\left[(y_{t}-\mathbb{E}[y_{t}])^{2}\right]=\gamma_{0}<\infty,\,\,\,\forall t\)` 3. `\(Cov(y_{t},y_{t-j})=\mathbb{E}\left[(y_{t}-\mathbb{E}[y_{t}])(y_{t-j}-\mathbb{E}[y_{t-j}])\right]=\gamma_{j}<\infty,\,\,\,\forall t,\forall j\)` - **Importancia**: Si se quiere entender la relación entre dos o más variables utilizando el análisis de regresión, se requiere dar por sentada algún tipo de estabilidad en el tiempo. --- ## Series de tiempo débilmente dependientes - Introduzcamos una **nueva definición**, la de serie de tiempo débilmente dependiente. - Un proceso estocástico `\(y_{t}\)` es **débilmente dependiente** si para todo `\(t\)`, `\(y_{t}\)` es "casi independiente" de `\(y_{t+h}\)` con `\(h\)` que crece al infinitivo, esto es: `$$Corr\left(y_{t}, y_{t+h}\right) \rightarrow 0 \text { cuando } h \rightarrow \infty$$` - Discusión: - Una implicación de la dependencia débil es que la correlación entre `\(y_{t}\)` y `\(y_{t+h}\)` debe converger a cero si `\(h\)` crece hasta el infinito. - La dependencia débil es importante para el análisis de regresión porque reemplaza el supuesto del muestreo aleatorio. - El teorema del central del límite para datos de series de tiempo requiere estacionariedad y alguna forma de dependencia débil. - Tomar en cuenta que una serie puede ser no estacionaria pero si ser débilmente dependiente. --- ## Ejemplos de series de tiempo débilmente dependientes - Proceso de **medias móviles de orden uno**, MA(1). `$$y_{t}=e_{t}+\alpha_{1} e_{t-1}, t=1,2, \ldots$$` donde `\(\left\{e_{t}: t=0,1, \ldots\right\}\)` es una secuencia i.i.d. con media cero y varianza `\(\sigma^2_e\)`. - Interpretación: `\(y_{t}\)` es un promedio ponderado corto entre `\(e_t\)` y `\(e_{t-1}\)`. - Este proceso es débilmente dependiente porque las observaciones que están separadas por dos periodo o más no están correlacionadas. `\begin{eqnarray*} \mathbb{E}\left[y_{t}\right]&=&0 \\ \mathbb{V}\left[y_{t}\right]&=& \left(1+\alpha_{1}^{2}\right) \sigma_{e}^{2} \\ Cov(y_{t},y_{t-h})&=&\begin{cases} \alpha_{1}\sigma_{e}^{2} & h=1\\ 0 & h\geq2 \end{cases} \\ Corr(y_{t},y_{t-h})&=&\begin{cases} \frac{\alpha_{1}}{\left(1+\alpha_{1}^{2}\right)} & h=1\\ 0 & h\geq2 \end{cases} \end{eqnarray*}` --- ## Ejemplos de series de tiempo débilmente dependientes - Proceso **autorregresivo de orden uno**, AR(1). `$$y_{t}=\rho_{1} y_{t-1}+e_{t}, t=1,2, \ldots$$` donde `\(\left\{e_{t}: t=0,1, \ldots\right\}\)` es una secuencia i.i.d. con media cero y varianza `\(\sigma^2_e\)`. - Interpretación: `\(y_t\)` traslada al presente, hasta cierto punto, información del período anterior (más los shocks aleatorios `\(e_t\)`). - El supuesto clave para la dependencia débil de un proceso AR(1) es la condición de estabilidad `\(|\rho_1|<1\)`. `\begin{eqnarray*} \mathbb{E}\left[y_{t}\right]&=&0 \\ \mathbb{V}\left[y_{t}\right]&=& \frac{\sigma_{e}^{2}}{1-\rho^2_1} \\ Cov(y_{t},y_{t-h})&=& \rho^h_1 \mathbb{V}\left[y_{t}\right]\\ Corr(y_{t},y_{t-h})&=& \rho^h_1 \end{eqnarray*}` - Aún cuando `\(y_t\)` y `\(y_{t-h}\)` estén correlacionadas, esta correlación se vuelve muy pequeña para `\(h\)` grande si `\(|\rho_1|<1\)`. --- ## Algunos comentarios sobre series de tiempo débilmente dependientes - Existen muchos tipos de series de tiempo débilmente dependientes, incluidos los híbridos de procesos autorregresivos y de promedio móvil. - Para ilustrar el concepto solo usamos dos, MA(1) y AR(1). - Una **serie con tendencia, aun cuando no sea estacionaria, puede ser débilmente dependiente** - Un ejemplo es la tendencia deterministica lineal, donde la serie de tiempo es en realidad independiente en el tiempo). - Una serie que es estacionaria alrededor de su tendencia en el tiempo y que además es débilmente dependiente se conoce como proceso estacionario con tendencia. --- class: separator-blue, middle # Propiedades asintóticas de MCO --- ## Supuestos I **Supuesto ST1': Linealidad en parámetros y dependencia débil** *Se supone que el modelo es exactamente el mismo que en el supuesto T1, pero ahora se añade el supuesto de que `\({(y_t,x_{t1},..., x_{tk}): t = 1, 2,...}\)` son todas estacionarias y débilmente dependientes. En particular, la ley de los grandes números y el teorema central del límite pueden aplicarse a los promedios muestrales.* - Bajo linealidad en parámetros significa tenemos el modelo: `$$y_{t}=\beta_{0}+\beta_{1} x_{t 1}+\ldots+\beta_{k} x_{t k}+u_{t}$$` donde las `\(x_{tj}\)` pueden incluir rezagos de la variable dependiente y de las variables explicativas. **Supuesto ST2': No hay colinealidad perfecta** *En la muestra (y, por ende, en los procesos de series de tiempo subyacentes) no hay variables independientes que sean constantes ni que sean una combinación lineal perfecta de las otras.* --- ## Supuestos II **Supuesto ST3': Media condicional cero** *Las variables explicativas del modelo `\(\mathbb{x}_t=(x_{t1},x_{t2},...,x_{tk})\)` son contemporáneamente exógenas, lo que implica que `\(\mathbb{E}(u_t | \mathbb{x}_t) = 0\)`.* - Intuitivamente, `\(\mathbb{E}(u_t | \mathbb{x}_t) = 0\)` significa que las **variables explicativas son no informativas** de la media del error en el periodo corriente. - Este es el **supuesto es mucho más débil que el supuesto T3**, ya que no impone restricciones sobre cómo se relaciona `\(u_t\)` con las variables explicativas en otros periodos. - Por la estacionariedad, si la exogeneidad contemporánea es válida para un periodo, es válida para todos. - Es conveniente saber tener presente que solo requeriremos que `\(u_t\)` tenga una media no condicional cero y esté correlacionada con cada `\(x_{tj}\)`: `$$\mathbb{E}\left(u_{t}\right)=0, \operatorname{Cov}\left(x_{t j}, u_{t}\right)=0, j=1, \ldots, k$$` --- ## Propiedades asintóticas I: Consistencia **Teorema** *Bajo los supuestos ST1', ST2' y ST3', los estimadores de MCO son consistentes. Sea `\(\hat{\beta}_{j}\)` un estimador de `\(\beta_{j}\)` para una muestra de tamaño `\(n\)`. `\(\hat{\beta}_{j}\)` es un estimador consistente si para todo `\(\epsilon>0\)`, `\(\Pr[|\hat{\beta}_{j}-\beta_{j}|>\epsilon]\rightarrow0\)` cuando `\(n\rightarrow\infty\)`. Alternativamente, se dice también que `\(\beta_{j}\)` es el límite en probabilidad de `\(\hat{\beta}_{j}\)`, `\(plim(\hat{\beta}_{j})=\beta_{j}\)`.* .pull-left[ **Intuición**: Sea `\(\hat{\beta}_{j}\)` el estimador MCO de `\(\beta_{j}\)`. Para cada `\(n\)`, `\(\hat{\beta}_{j}\)` tiene una distribución de probabilidad. Si `\(\hat{\beta}_{j}\)` es consistente, a medida que `\(n\rightarrow\infty\)` esta distribución se estrechará cada vez más alrededor de `\(\beta_{j}\)`. Entonces, cuando `\(n\rightarrow\infty\)` el estimador `\(\hat{\beta}_{j}\)` estará arbitrariamente cerca de `\(\beta_{j}\)`. ] .pull-right[ <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/consistencia_MCO-1.png" width="100%" style="display: block; margin: auto;" /> ] --- ## Propiedades asintóticas I: Consistencia Vamos a requerir algunos conceptos de la estadística en muestras grandes. **Ley de los Grandes Números (LGN)** *Sean `\(y_{1},...,y_{T}\)` variables aleatorias estacionarias y débilmente dependientes con media `\(\mathbb{E}[y_t]=\mu\)`, entonces:* `$$plim\left(\frac{1}{T}\sum_{t=1}^{T}y_{t}\right)=\mathbb{E}[y_t]=\mu$$` **Propiedades de los `\(plim\)`** *El operador probabilidad límite tiene las siguientes propiedades:* - `\(plim\,g(\beta)=g(plim\,\beta)\)` - `\(plim\left(\beta_{1}+\beta_{2}\right)=plim\,\beta_{1}+plim\,\beta_{2}\)` - `\(plim\left(\beta_{1}\times\beta_{2}\right)=plim\,\beta_{1}\times plim\,\beta_{2}\)` - `\(plim\left(\beta_{1}/\beta_{2}\right)=plim\,\beta_{1}/plim\,\beta_{2}\)` --- ## Propiedades asintóticas I: Consistencia - El estimador MCO para `\(\beta_1\)` en el modelo de regresión simple `\(y_t = \beta_0 + \beta_1 x_t + u_t\)` es: `$$\hat{\beta_{1}}=\frac{\sum_{t=1}^{T}(y_{t}-\bar{y})(x_{t}-\bar{x})}{\sum_{i=1}^{T}(x_{t}-\bar{x})^{2}}$$` - Bajo el mismo procedimiento usado para mostrar insesgamiento tenemos que: `$$\hat{\beta_{1}}=\beta_{1}+\frac{\frac{1}{T}\sum_{t=1}^{T}(x_{t}-\bar{x})u_{t}}{\frac{1}{T}\sum_{t=1}^{T}(x_{t}-\bar{x})^{2}}$$` - Bajo los supuestos ST1' a ST3', el estimador MCO es consistente: `$$plim\,\hat{\beta}_{1}=plim \beta_{1}+\frac{plim \frac{1}{T}\sum_{t=1}^{T}(x_{t}-\bar{x})u_{t}}{plim \frac{1}{T}\sum_{t=1}^{T}(x_{t}-\bar{x})^{2}}=\beta_{1}+\frac{cov(x,u)}{var(x)}=\beta_{1}\,\,\,dado\,Cov(x,u)=0$$` - Los **supuestos clave para consistencia son estacionariedad y dependencia débil** para que se cumple la LGN y `\(Cov(x,u)=0\)`. --- ## ¿Por qué es importante relajar el supuesto de exogeneidad estricta? - La exogeneidad estricta es una restricción seria porque descarta todo tipo de relaciones dinámicas entre las variables explicativas y el término de error. - En particular, descarta la retroalimentación de la variable dependiente sobre sus valores futuros (excluye el uso de rezagos de la la variable dependiente como regresores). - **Modelo estático**: Consideremos un modelo estático con dos variables explicativas: `$$y_{t}=\beta_{0}+\beta_{1} z_{t 1}+\beta_{2} z_{t 2}+u_{t}$$` - Bajo la dependencia débil, la condición suficiente para la consistencia de MCO es: `$$\mathbb{E}\left(u_{t} \mid z_{t 1}, z_{t 2}\right)=0$$` - Esto excluye que haya variables omitidas contenidas en `\(u_t\)` que se correlacionen, ya sea con `\(z_{t1}\)` o `\(z_{t2}\)`. - ST3' no descarta la correlación entre `\(u_{t-1}\)` y `\(z_{t1}\)`. Entonces es perfectamente válido suponer que `\(z_{t1}\)` es una variable de política y que por ejemplo se cumple: `$$z_{t 1}=\delta_{0}+\delta_{1} y_{t-1}+v_{t}$$` --- ## ¿Por qué es importante relajar el supuesto de exogeneidad estricta? - **Modelo de rezagos distribuidos finitos**: Consideremos el modelo de rezagos distribuidos finitos de segundo orden, RDF(2): `$$y_{t}=\alpha_{0}+\delta_{0} z_{t}+\delta_{1} z_{t-1}+\delta_{2} z_{t-2}+u_{t}$$` - Un supuesto muy natural es `\(\mathbb{E}\left(u_{t} \mid z_{t}, z_{t-1}, z_{t-2}, z_{t-3}, \ldots\right)=0\)`. - Cuando se determina que `\(\mathbb{x}_t = (z_t, z_{t-1}, z_{t-2})\)`, esto es ningún rezago adicional aporta, el supuesto ST3' se satisface y MCO serán consistentes. - ST3' no descarta que `\(y\)` pueda influir en los valores futuros de `\(z\)`. - **Modelo autoregresivo**: Consideremos ahora el modelo autorregresivo de orden uno, AR(1): `$$y_{t}=\beta_{0}+\beta_{1} y_{t-1}+u_{t}$$` - Suponemos que `\(\mathrm{E}\left(u_{t} \mid y_{t-1}, y_{t-2}, \ldots\right)=0\)`. Como `\(\mathbb{x}_t = y_{t-1}\)`, esto es ningún rezago adicional aporta información, el supuesto ST3' es válido. - El supuesto de exogeneidad estricta ST3 no es válido: `\(Cov\left(y_{t}, u_{t}\right)=\beta_{1} Cov\left(y_{t-1}, u_{t}\right)+\mathbb{V}\left(u_{t}\right)>0\)`. Entonces, MCO es sesgado pero consistente. --- ## Supuestos III **Supuesto ST4': Homocedasticidad** *Los errores son contemporáneamente homocedásticos, es decir, `\(\mathbb{V}\left(u_{t} \mid \mathbf{x}_{t}\right)=\sigma^{2}\)`.* **Supuesto ST5': No hay correlación serial** *Condicional en la variables explicativas en los periodos `\(t\)` y `\(s\)`, los errores no están autocorrelacionados, esto es para todo `\(t \neq s\)` se cumple que `\(Corr\left(u_{t} u_{s} | \mathbf{x}_{t} \mathbf{x}_{s}\right)=0\)`.* - ST4' y ST5' condicionan sólo en las variables explicativas en el periodo corriente `\(t\)` y en los periodos que coinciden con `\(t\)` y `\(s\)`, respectivamente. - Bajo ST1' a ST5', los estimadores de MCO son **asintóticamente eficientes**. - La correlación serial es un problema en los modelos de regresión estáticos y con rezagos distribuidos finitos. El supuesto ST5' sí se cumple en el modelo AR(1), cuando existe rezagos de la variable dependiente en el lado derecho. Volveremos a este tema más adelante. --- ## Propiedades asintóticas II: Normalidad asintótica **Teorema** *Bajo los supuestos ST1' a ST5', los estimadores de MCO tienen distribuciones asintóticamente normales. Además, los errores estándar usuales de MCO, los estadísticos t y los estadísticos F son asintóticamente válidos.* - Los resultados de consistencia y normalidad asintótica proporcionan una justificación para algunos de los ejemplos estimados en clases anteriores. - Aún cuando algunos de los supuestos del modelo lineal clásico no sean válidos, los estimadores de MCO siguen siendo consistentes, y los procedimientos de inferencia usuales son válidos. --- ## Ejemplo 1: Hipótesis de los mercados eficientes - Podemos utilizar el análisis asintótico para probar **la hipótesis de los mercados eficientes (HME)**. - HME: La información observable para el mercado anterior a la semana `\(t\)` no debe ayudar a predecir el rendimiento de un activo durante la semana `\(t\)`. Matemáticamente: `$$\mathbb{E}\left(y_{t} \mid y_{t-1}, y_{t-2}, \ldots\right)=\mathbb{E}\left(y_{t}\right)$$` con `\(y_t\)` el rendimiento porcentual semanal de un activo. - Si la HME es falsa entonces se podría usar la información pasada para predecir el rendimiento actual, lo que llevaría a que las que oportunidades de inversión sean advertidas y desaparecerán al instante. - Una forma simple de probar la HME es especificar el modelo AR(1): `$$return_{t}= \beta_0 +\beta_1 return_{t-1} + u_t$$` y probar la siguiente hipótesis: `$$H_{0}: \beta_{1}=0 \text { contra } H_{1}: \beta_{1} \neq 0$$` --- ## Ejemplo 1: Hipótesis de los mercados eficientes <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/ret_amazon-1.png" width="75%" style="display: block; margin: auto;" /> --- ## Ejemplo 1: Hipótesis de los mercados eficientes .pull-left[ .regression[ <table style="text-align:center"><tr><td colspan="4" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td colspan="3"><em>Dependent variable:</em></td></tr> <tr><td></td><td colspan="3" style="border-bottom: 1px solid black"></td></tr> <tr><td style="text-align:left"></td><td colspan="3">ret</td></tr> <tr><td style="text-align:left"></td><td>(1)</td><td>(2)</td><td>(3)</td></tr> <tr><td colspan="4" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">L(ret)</td><td>-0.01 (0.02)</td><td>-0.01 (0.02)</td><td>-0.01 (0.02)</td></tr> <tr><td style="text-align:left">L(ret, 2)</td><td></td><td>-0.03 (0.02)</td><td>-0.03 (0.02)</td></tr> <tr><td style="text-align:left">L(ret, 3)</td><td></td><td></td><td>-0.02 (0.02)</td></tr> <tr><td style="text-align:left">Constant</td><td>0.11<sup>***</sup> (0.04)</td><td>0.11<sup>***</sup> (0.04)</td><td>0.11<sup>***</sup> (0.04)</td></tr> <tr><td colspan="4" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>2,515</td><td>2,514</td><td>2,513</td></tr> <tr><td style="text-align:left">R<sup>2</sup></td><td>0.0001</td><td>0.001</td><td>0.001</td></tr> <tr><td colspan="4" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td colspan="3" style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr> </table> ]] .pull-right[ - El modelo (1) es un AR(1). Note que el estadístico `\(t\)` de `\(\beta_1\)` es -0.5325189, por lo que no hay evidencia para rechazar `\(H_{0}: \beta_{1}=0\)`. - Probemos incluyendo más rezagos en la ecuación de retornos. Estimamos dos modelos, un AR(2) con dos rezagos y un AR(3) con tres rezagos. - El modelo (2) es un AR(2). El estadístico F de `\(H_{0}: \beta_{1}=\beta_2=0\)` es 1.0476817 (con un p-value de 0.3509032). - Es modelo (3) es un AR(3). El estadístico F y el p-value de `\(H_{0}: \beta_{1}=\beta_2=\beta_3=0\)` son 0.8934331 y 0.443739, respectivamente. - Note que nuevamente **no podemos rechazar** que la información pasada no es relevante. ] --- ## Ejemplo 2: Curva de Phillips aumentada por expectativas - Una versión lineal de la **curva de Phillips** aumentada por las expectativas puede escribirse como `$$inf_{t}-inf_{t}^{e}=\beta_{1}\left(unem_{t}-\mu_{0}\right)+e_{t}$$` con `\(\mu_{0}\)` la tasa natural de desempleo e `\(inf_{t}^{e}\)` la tasa de inflación esperada formada en `\(t-1\)`. - Como antes, si existe una disyuntiva entre la inflación no anticipada y el desempleo cíclico, entonces `\(\beta_1<0\)`. - Bajo las **expectativas adaptativas**, el valor esperado de la inflación actual depende de la inflación recién observada: `\(inf_{t}^{e}=inf_{t-1}\)`. - Curva de Phillips a estimar: `$$\Delta inf_{t}= \beta_{0}+\beta_{1} unem_{t}+e_{t}$$` con `\(\Delta inf_{t}=inf_{t}-inf_{t-1}\)` y `\(\beta_{0}=-\beta_{1} \mu_{0}\)`. - Usamos nuevamente los datos *phillips* del libro de Wooldridge. --- ## Ejemplo 2: Curva de Phillips aumentada por expectativas .pull-left[ .regression[ <table style="text-align:center"><tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td><em>Dependent variable:</em></td></tr> <tr><td></td><td colspan="1" style="border-bottom: 1px solid black"></td></tr> <tr><td style="text-align:left"></td><td>diff(inf)</td></tr> <tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">unem</td><td>-0.52<sup>**</sup> (0.21)</td></tr> <tr><td style="text-align:left">Constant</td><td>2.83<sup>**</sup> (1.22)</td></tr> <tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>55</td></tr> <tr><td style="text-align:left">R<sup>2</sup></td><td>0.10</td></tr> <tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr> </table> ] - Si Los supuesto ST1'-ST5' se cumplen, un incremento de un punto en la tasa de desempleo reduce la inflación no anticipada poco más de medio punto. - La tasa natural estimada es: 5.4635543. ] .pull-right[ <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/inflacion-1.png" width="95%" style="display: block; margin: auto;" /> ] --- ## ¿Qué sucede con series de tiempo altamente persistentes? - Uso de **series de tiempo estacionarias en tendencia** en el análisis de regresión: - Las series de tiempo con tendencias de tiempo deterministas no son estacionarias porque el promedio va cambiando en el tiempo. - Si son estacionarias alrededor de la tendencia y además son débilmente dependientes, se denominan procesos estacionarios en tendencia. - Los procesos estacionarios en tendencia también satisfacen el supuesto ST1' una vez que se controla por la tendencia. - Uso de **series de tiempo altamente persistentes** en el análisis de regresión: - Desafortunadamente, muchas series de tiempo económicas violan la dependencia débil porque son altamente persistentes (o fuertemente dependientes). - En este caso, los métodos MCO son generalmente inválidos. - En algunos casos ciertas transformaciones resultan es dependencia débil y por tanto permiten utilizar los métodos vistos. Vamos a analizar en detalle este tipo de procesos en el siguiente capítulo. --- class: separator-blue, middle # El problema de autocorrelación o correlación serial --- ## Modelos dinámicamente completos - Consideremos nuevamente el modelo general: `$$y_{t}=\beta_{0}+\beta_{1} x_{t 1}+\ldots+\beta_{k} x_{t k}+u_{t}$$` donde las variables explicativas `\(\mathbf{x}_{t}=\left(x_{t 1}, \ldots, x_{t k}\right)\)` pueden o no contener rezagos de `\(y\)` o `\(z\)`. - Por consistencia de MCO solo necesitamos que `\(\mathbb {E}\left(u_{t} \mid \mathbf{x}_{t}\right)\)`, pero las `\(u_t\)` podría estar autocorrelacionadas. - Si suponemos además que `\(\mathbb{E}\left(u_{t} \mid \mathbf{x}_{t}, y_{t-1}, \mathbf{x}_{t-1}, \ldots\right)=0\)` entonces ST3' y ST5' será ambos válidos. Alternativamente tenemos que: `$$\mathbb{E}\left(y_{t} \mid \mathbf{x}_{t}, y_{t-1}, \mathbf{x}_{t-1}, \ldots\right)=\mathbb {E}\left(y_{t} \mid \mathbf{x}_{t}\right)$$` - Cuando esta condición se cumple, se tiene un **modelo dinámicamente completo**. - Esto implica que se han incluido suficientes rezagos de `\(y\)` para que rezagos adicionales de `\(y\)` y de las variables explicativas no tengan importancia en la explicación de `\(y_t\)`. Esto es: - En cuanto se incluyen `\(y\)` rezagadas como variables explicativas, se suele pensar que el modelo debe ser dinámicamente completo. --- ## Modelos dinámicamente completos - Se puede mostrar que un modelo dinámicamente completo debe satisfacer el supuesto ST5'. - Tomemos `\(s<t\)`, entonces usando la ley de expectativas iteradas tenemos: `\begin{aligned} \mathbb{E}\left(u_{t} u_{s} \mid \mathbf{x}_{t}, \mathbf{x}_{s}\right) &=\mathbb{E}\left[\mathbb{E}\left(u_{t} u_{s} \mid \mathbf{x}_{t}, \mathbf{x}_{s}, u_{s}\right) \mid \mathbf{x}_{t}, \mathbf{x}_{s}\right] \\ &=\mathbb{E}\left[u_{s} \mathbb{E}\left(u_{t} \mid \mathbf{x}_{t}, \mathbf{x}_{s}, u_{s}\right) \mid \mathbf{x}_{t}, \mathbf{x}_{s}\right] \\ &=\mathbb{E}\left[u_{s} \times 0 \mid \mathbf{x}_{t}, \mathbf{x}_{s}\right] \\ &=0 \end{aligned}` hecho que se desprenden de que `\(\mathbb{E}\left(u_{t} \mid \mathbf{x}_{t}, \mathbf{x}_{s}, u_{s}\right)\)` es un subconjunto de `\(\mathbb{E}\left(u_{t} \mid \mathbf{x}_{t}, y_{t-1}, \mathbf{x}_{t-1}, \ldots\right)=0\)`. - Entonces, si un modelo es dinámicamente completo significa que **no existe una correlación serial en los errores** del modelo. - En la práctica, muchos modelos pueden ser de interés (como por ejemplo los modelos estático y RDF) y no necesariamente ser dinámicamente completos. Por tanto, necesitamos herramienta para detectar y corregir el problema de autocorrelación. --- ## Propiedades de MCO con errores correlacionados serialmente ### Insesgamiento y consistencia - Insesgamiento del estimador de MCO requiere solo los supuesto ST1 a ST3 (linealidad en parámetros, no colinealidad perfecta, y exogeneidad estricta). - Consistencia requería de relajar el supuesto ST3 de exogeneidad estricta y reemplazarlo por uno más débil, exogeneidad contemporánea (ST3'). - Por tanto, **los estimadores MCO pueden seguir siendo insesgados y/o consistentes aún cuando los errores presenten correlación serial **. ### Eficiencia e inferencia - Dado que la propiedad de eficiencia (mínima varianza entre la clase de estimadores considerados) depende crucialmente de los supuesto ST4' y ST5' (no autocorrelación y homocedasticiadad), **los estimadores de MCO ya no serán MELI en presencia de la correlación serial**. Las formulas para la varianza de los estimadores ya no son correctas. --- ## Propiedades de MCO con errores correlacionados serialmente - Recodemos las matemáticas para un regresor. El modelo modelo más simple es: `$$y_{t}=\alpha+\beta x_{t}+u_{t}$$` - A partir del estimador MCO podemos hallar (recuerde la demostración de insesgamiento): `$$\hat{\beta}=\beta+\frac{\frac{1}{T}\sum_{t=1}^{T}(x_{t}-\bar{x})u_{t}}{\frac{1}{T}\sum_{t=1}^{T}(x_{t}-\bar{x})^{2}}$$` - Por exogeneidad contemporánea de `\(x_t\)`: `$$\mathbb{E}[\hat{\beta}|x_{t}]=\beta$$` - Alternativamente (en muestras grandes `\(\frac{1}{T}\sum_{t=1}^{T}(x_{t}-\bar{x})^{2}\rightarrow \mathbb{V}(x)\)`): `$$\hat{\beta}=\beta+\frac{\frac{1}{T}\sum_{t=1}^{T}v_{t}}{\mathbb{V}(x)}$$` con `\(v_{t}=(x_{t}-\bar{x})u_{t}\)` --- ## Propiedades de MCO con errores correlacionados serialmente - Aplicando el operador varianza tenemos: `\begin{eqnarray*} \mathbb{V}(\hat{\beta}) & = & \frac{\mathbb{V}\left(\frac{1}{T}\sum_{t=1}^{T}v_{t}\right)}{\left(\mathbb{V}(x)\right)^{2}}\\ & = & \frac{1}{T^{2}}\frac{\sum_{t=1}^{T}\sum_{s=1}^{T}Cov(v_{t},v_{s})}{\left(\mathbb{V}(x)^2\right)^{2}} \end{eqnarray*}` - Bajo los supuestos ST4' y ST5' tenemos que `\(Cov(v_{t},v_{s})=0\)` para todo `\(t\)` y `\(s\)`, por tanto: `\begin{eqnarray*} \mathbb{V}(\hat{\beta}) & = & \frac{1}{T^{2}}\frac{\sum_{t=1}^{T}\mathbb{V}(v_{t})}{\left(\mathbb{V}(x) \right)^{2}}\\ & = & \frac{\sigma_{v}^{2}}{T\left(\mathbb{V}(x) \right)^{2}} \end{eqnarray*}` que es la formula usual de la varianza del estimador MCO en muestras grandes. Esta formula es incorrecta (está sesgada) cuando `\(Cov(v_{t},v_{s})\neq0\)`. --- ## Métodos de prueba de la correlación serial - Retomemos el modelo de regresión lineal múltiple: `$$y_{t}=\beta_{0}+\beta_{1} x_{t 1}+\ldots+\beta_{k} x_{t k}+u_{t}$$` - Existen muchas formas de correlación serial, pero el modelo más popular y sencillo para representarla es el modelo AR(1). Suponemos que el error sigue el siguiente proceso: `$$u_{t}=\rho u_{t-1}+e_{t}, t=2, \ldots, n$$` donde la la ausencia de correlación serial estaría representada por `\(\mathrm{H}_{0}: \rho=0\)`. --- ## Métodos de prueba de la correlación serial ### 1. Prueba t de correlación serial AR(1) con regresores estrictamente exógenos - Considere primero el caso en que los regresores son estrictamente exógenos (esto es, `\(u_t\)` no correlaciona con los regresores en todos los periodos). - Pasos de la prueba: 1. Efectúe la regresión por MCO de `\(y_t\)` sobre `\(x_{t1},...,x_{tk}\)` y obtenga los residuos de MCO, `\(\hat{u}_t\)`, para todo `\(t = 1, 2, .., T\)`. 2. Realice la regresión de `\(\hat{u}_t\)` sobre `\(\hat{u}_{t-1}\)`, para todo `\(t = 1, 2, .., T\)` y obtener el coeficiente `\(\hat{\rho}\)` y su estadístico `\(t\)`, esto es `\(t_{\hat{\rho}}\)`. 3. Utilice `\(t_{\hat{\rho}}\)` para probar `\(\mathrm{H}_{0}: \rho=0\)` contra `\(\mathrm{H}_{1}: \rho\neq0\)` en la forma común, esto es comparando el estadístico `\(t\)` calculado con el de la distribución `\(t\)` al `\(\alpha\)` nivel de significancia. --- ## Métodos de prueba de la correlación serial ### 2. Prueba de Durbin-Watson bajo los supuestos clásicos - Otra prueba para la correlación serial AR(1) es la de Durbin-Watson, la misma que se basa en los residuos MCO para calcular el siguiente estadístico. `$$D W=\frac{\sum_{t=2}^{n}\left(\hat{u}_{t}-\hat{u}_{t-1}\right)^{2}}{\sum_{t=1}^{n} \hat{u}_{t}^{2}}$$` - El estadístico DW y `\(\hat{\rho}\)` están estrechamente relacionados, de hecho: `\(DW \approx 2(1-\hat{\rho})\)`. - La prueba DW por lo general tiene las siguiente hipótesis: `\(\mathrm{H}_{0}: \rho=0\)` contra `\(\mathrm{H}_{1}: \rho<0\)`. - Si `\(\hat{\rho} \approx 0\)`, entonces `\(DW \approx 2\)`. - Si `\(\hat{\rho} < 0\)`, entonces `\(DW < 2\)`. - Para determinar si se rechaza la hipótesis nula, se utilizan dos valores `\(d_U\)` y `\(d_L\)`. Si `\(DW<d_L\)`, se rechaza `\(\mathrm{H}_{0}\)`; si `\(DW>d_U\)`, no se rechaza `\(\mathrm{H}_{0}\)`. Cuando `\(d_L \leq DW \leq d_U\)`, la prueba no es concluyente. --- ## Métodos de prueba de la correlación serial ### 3. Prueba de correlación serial AR(1) sin regresores estrictamente exógenos - Cuando las variables explicativas no son estrictamente exógenas (una o más `\(x_{tj}\)` correlacionan con `\(u_t\)`), ni la prueba t anterior ni el estadístico de Durbin-Watson son válidos. - Pasos de la prueba controlando por potencial correlación entre las `\(x_{tj}\)` y `\(u_t\)`: 1. Efectúe la regresión por MCO de `\(y_t\)` sobre `\(x_{t1},...,x_{tk}\)` y obtenga los residuos de MCO, `\(\hat{u}_t\)`, para todo `\(t = 1, 2, .., T\)`. 2. Realice la regresión de `\(\hat{u}_t\)` sobre `\(x_{t1},...,x_{tk}\)` y `\(\hat{u}_{t-1}\)`, para todo `\(t = 1, 2, .., T\)` y obtener el coeficiente `\(\hat{\rho}\)` de `\(\hat{u}_{t-1}\)` y su estadístico `\(t\)`, esto es `\(t_{\hat{\rho}}\)`. 3. Utilice `\(t_{\hat{\rho}}\)` para probar `\(\mathrm{H}_{0}: \rho=0\)` contra `\(\mathrm{H}_{1}: \rho\neq0\)` en la forma común, esto es comparando el estadístico `\(t\)` calculado con el de la distribución `\(t\)` al `\(\alpha\)` nivel de significancia. --- ## Métodos de prueba de la correlación serial ### 4. Prueba de correlación serial de orden superior (prueba de Breusch-Godfrey) - La prueba anterior es fácilmente extensible para grados de correlación serial de orden superior. Por **ejemplo** para una estructura de **segundo orden, AR(2)**, en los errores tenemos el modelo: `$$u_{t}=\rho_{1} u_{t-1}+\rho_{2} u_{t-2}+e_{t}$$` Bajo ausencia de correlación serial tenemos: `\(\mathrm{H}_{0}: \rho_{1}=0, \rho_{2}=0\)`. - Pasos de la **prueba AR(q)** controlando por potencial correlación entre las `\(x_{tj}\)` y `\(u_t\)`: 1. Efectúe la regresión por MCO de `\(y_t\)` sobre `\(x_{t1},...,x_{tk}\)` y obtenga los residuos de MCO, `\(\hat{u}_t\)`, para todo `\(t = 1, 2, .., T\)`. 2. Realice la regresión de `\(\hat{u}_t\)` sobre `\(x_{t1},...,x_{tk},\hat{u}_{t-1},...,\hat{u}_{t-q}\)`, para todo `\(t = 1, 2, .., T\)` y obtener los coeficientes `\(\hat{\rho}_1,...,\hat{\rho}_q\)` y el `\(R^2_{\hat{u}}\)`. 3. Utilice el estadístico `\(LM=(n-q)R^2_{\hat{u}}\)` para probar `\(\mathrm{H}_{0}: \rho_1=...=\rho_q=0\)`, esto es comparando el estadístico `\(LM\)` calculado con el de la distribución `\(\chi^2_q\)`. --- ## Ejemplo 3: Correlación serial en la curva de Phillips .pull-left[ <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/errores_cp-1.png" width="95%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/afc_errores_cp-1.png" width="95%" style="display: block; margin: auto;" /> ] --- ## Ejemplo 3: Correlación serial en la curva de Phillips - Prueba Durbin-Watson para un estructura AR(1) ``` ## ## Durbin-Watson test ## ## data: dinf ~ unem ## DW = 1.771, p-value = 0.1673 ## alternative hypothesis: true autocorrelation is greater than 0 ``` - Prueba Breusch-Godfrey para un estructura AR(1) sin regresores estrictamente exógenos ``` ## ## Breusch-Godfrey test for serial correlation of order up to 1 ## ## data: dinf ~ unem ## LM test = 0.061273, df = 1, p-value = 0.8045 ``` --- ## Errores Estándar Robustos a Autocorrelación y Heterocedasticidad (HAC) - Como vimos antes, cuando existe autocorrelación y/o heterocedasticidad, los errores estándar MCO de los estimadores ya no son válidos. Por tanto se requiere un ajuste en la formula tradicional. - Recordemos que para el caso de un regresor tenemos: `$$\mathbb{V}(\hat{\beta}) = \frac{\mathbb{V}\left(\frac{1}{T}\sum_{t=1}^{T}v_{t}\right)}{\left(\mathbb{V}(x)\right)^{2}} = \frac{1}{T^{2}}\frac{\sum_{t=1}^{T}\sum_{s=1}^{T}Cov(v_{t},v_{s})}{\left(\mathbb{V}(x)^2\right)^{2}}$$` - Cuando existe autocorrelación y/o heteroscedasticidad tendremos que `\(Cov(v_{t},v_{s})\neq 0\)`. Para ganar intuición considere el caso simple `\(T=2\)`: `\begin{eqnarray*} \mathbb{V}\left(\frac{1}{T}\sum_{t=1}^{T}v_{t}\right) & = & \mathbb{V}\left(\frac{1}{2}(v_{1}+v_{2})\right)\\ & = & \frac{1}{4}\left[\mathbb{V}(v_{1})+\mathbb{V}(v_{2})+2Cov(v_{1},v_{2})\right]\\ & = & \frac{1}{2}\sigma_{v}^{2}+\frac{1}{2}\rho_{1}\sigma_{v}^{2} = \frac{1}{2}f_{2}\sigma_{v}^{2} \end{eqnarray*}` con `\(\rho_{1}=Corr(v_{1},v_{2})\)` y `\(f_{2}=(1+\rho_{1})\)`. --- ## Errores Estándar Robustos a Autocorrelación y Heterocedasticidad (HAC) - De forma general: `\begin{eqnarray*} \mathbb{V}\left(\frac{1}{T}\sum_{t=1}^{T}v_{t}\right) & = & \frac{1}{T}f_{T}\sigma_{v}^{2} \end{eqnarray*}` - Por tanto: `\begin{eqnarray*} \mathbb{V}(\hat{\beta}) & = & \frac{\sigma_{v}^{2}}{T\left(\mathbb{V}(x)\right)^{2}}f_{T} \end{eqnarray*}` con: `\(f_{T}=1+2\sum_{j=1}^{T-1}\left(\frac{T-j}{T}\right)\rho_{j}\)` - Note que `\(f_{T}\)` es el ajuste por correlación serial. Necesitamos estimar este factor. **Newey-West** proponen: `$$\hat{f}_{T}=1+2\sum_{j=1}^{m-1}\left(\frac{m-j}{m}\right)\hat{\rho}_{j}$$` con `\(\hat{\rho}_{j}\)` un estimador de `\(\rho_{j}\)` y `\(m\)` un parámetro de truncamiento (regla `\(m=0.75T^{1/3}\)`). --- ## Ejemplo 4: Efecto del Clima en el Precio del Jugo de Naranja - ¿Cuanto tiempo dura el efecto de una helada sobre el precio del jugo de naranja? Usamos datos mensuales para EEUU, estado de la Florida, y contamos con 51 años (ver ejemplo en el libro de Stock y Watson). - Estimamos el sigueinte modelo: `$$inffoj = \alpha + \beta_0 fdd_t + \beta_1 fdd_{t-1} + ... + \beta_{12} fdd_{t-12} + u_t$$` donde: - `\(inffoj\)` es la variación porcentual mensual (anualizada) del índece de precios real del jugo de narganja. `$$inffoj = 12*100*(\ln P_t - \ln P_{t-1})$$` - `\(fdd_t\)` es el índice de heladas en ese mes `\(t\)`. Mide el número de días con temperaturas bajo cero en el mes. - Se puede argumentar que **el índice de heladas es una variable estrictamente exógena** (en el pasado, el presente y el futuro) ya que el mercado de jugo de naranja en particular no afectará el clima. --- ## Ejemplo 4: Efecto del Clima en el Precio del Jugo de Naranja .pull-left[ <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/precio_jn-1.png" width="95%" style="display: block; margin: auto;" /> ] .pull-right[ <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/inf_heladas_jn-1.png" width="95%" style="display: block; margin: auto;" /> ] --- ## Ejemplo 4: Efecto del Clima en el Precio del Jugo de Naranja .pull-left[ .regression[ <table style="text-align:center"><tr><td colspan="3" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td>SE MCO</td><td>SE HAC</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)0</td><td>0.496<sup>***</sup> (0.058)</td><td>0.496<sup>***</sup> (0.139)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)1</td><td>0.150<sup>***</sup> (0.058)</td><td>0.150<sup>*</sup> (0.087)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)2</td><td>0.046 (0.057)</td><td>0.046 (0.056)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)3</td><td>0.062 (0.057)</td><td>0.062 (0.046)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)4</td><td>0.024 (0.057)</td><td>0.024 (0.031)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)5</td><td>0.036 (0.057)</td><td>0.036 (0.030)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)6</td><td>0.037 (0.057)</td><td>0.037 (0.046)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)7</td><td>0.019 (0.057)</td><td>0.019 (0.015)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)8</td><td>-0.038 (0.057)</td><td>-0.038 (0.034)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)9</td><td>-0.006 (0.057)</td><td>-0.006 (0.050)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)10</td><td>-0.112<sup>*</sup> (0.057)</td><td>-0.112 (0.069)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)11</td><td>-0.063 (0.058)</td><td>-0.063 (0.052)</td></tr> <tr><td style="text-align:left">L(fdd, 0:12)12</td><td>-0.140<sup>**</sup> (0.058)</td><td>-0.140<sup>*</sup> (0.079)</td></tr> <tr><td style="text-align:left">Constant</td><td>-0.426<sup>*</sup> (0.238)</td><td>-0.426<sup>*</sup> (0.249)</td></tr> <tr><td colspan="3" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>600</td><td>600</td></tr> <tr><td colspan="3" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"><em>Note:</em></td><td colspan="2" style="text-align:right"><sup>*</sup>p<0.1; <sup>**</sup>p<0.05; <sup>***</sup>p<0.01</td></tr> </table> ]] .pull-right[ <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/multiplicadores_jn-1.png" width="95%" style="display: block; margin: auto;" /> ] --- ## Ejemplo 4: Efecto del Clima en el Precio del Jugo de Naranja <img src="4_Series_de_Tiempo_Estacionarias_ECD2_files/figure-html/multiplicadores_acum_jn-1.png" width="65%" style="display: block; margin: auto;" />