Macroeconometría

.title[
# Macroeconometría
]
.subtitle[
## Series de Tiempo Estacionarias: Predicción
]
.author[
### Mauricio Tejada
]
.institute[
### Ingeniería Comercial
]

---

---

## Introducción

- Predecir e identificar efectos causales son tareas completamente distintas.
    
- Para la predicción el ajuste a los datos es lo relevante, esto es `$\bar{R}^{2}$` importa mucho. Recuerde que:
`$$\bar{R}^{2}=1-\left[\frac{(1-R^{2})(T-1)}{T-K-1}\right]$$`
    con `$T$` el número de observaciones y `$K$` el número de parámetros de pendiente estimados.
    
- Sesgo por violación del supuesto ST3, por ejemplo por variables omitidas, no es un problema.
  
- No hay necesidad de interpretar los parámetros (no se están buscando efectos causales). 
  
- Validez externa del modelo es clave: el modelo estimado con datos del pasado debe ser válido en el futuro (cercano).

---

# Modelos de predicción

---

## Modelos autoregresivos

- Un punto de partida natural para predecir el futuro de `$y_{t}$` es usar sus valores pasados `$y_{t-1},y_{t-2,}y_{t-3},...$`.

- Un **modelo autorregresivo** es un modelo de regresión en el cual corremos una regresión entre `$y_{t}$` sobre sus valores pasados.

- El número de rezagos usados en la regresión determina el **orden del modelo autorregresivo**.
    
  - Modelo autorregresivo de primer orden: regresión de `$y_{t}$` sobre `$y_{t-1}$`.
  
  - Modelo autorregresivo de segundo orden: regresión de `$y_{t}$` sobre `$y_{t-1}$` y `$y_{t-2}$`.
  
  - Modelo autorregresivo de orden `$p$`: regresión de `$y_{t}$` sobre `$y_{t-1}$`, `$y_{t-2}$`, ... y `$y_{t-p}$`.

---

## Modelo autoregresivo de primer orden

- El modelo AR(1) poblacional:
    `$$y_{t}=\beta_{0}+\beta_{1}y_{t-1}+u_{t}$$`

- Los parámetros `$\beta_{0}$` y `$\beta_{1}$` no tienen una interpretación causal.

- Si `$\beta_{1}=0$`, `$y_{t-1}$` no tiene información útil para predecir `$y_{t}$`.

- El modelo AR(1) puede se estimado por MCO, en la regresión de `$y_{t}$` sobre `$y_{t-1}$`. ¿Cómo luce el estimador del parámetro `$\beta_{1}$`?

- El test de hipótesis 
`$$\mathrm{H}_{0}:\beta_{1}=0 \ \ \text{contra} \ \ \mathrm{H}_{1}:\beta_{1}\neq0$$` 
  responde a la pregunta si la información pasada es útil o no para la predicción.

---

## Modelo autoregresivo de primer orden

- Las predicciones se definen fuera de la muestra. Se relacionan con valores futuros.

- Definimos `$y_{T+1|T}$` como la predicción de `$y_{T+1}$` condicional en la información hasta `$T$` `$(y_{T},y_{T-1},...)$` y usando los parámetros poblacionales.

- Definimos `$\hat{y}_{T+1|T}$` como la predicción de `$y_{T+1}$` condicional en la información hasta `$T$` `$(y_{T},y_{T-1},...)$` y usando los parámetros estimados con `$T$` datos.

- Para el modelo AR(1) tendríamos:
`\begin{eqnarray*}
y_{T+1|T} & = & \beta_{0}+\beta_{1}y_{T}\\
\hat{y}_{T+1|T} & = & \hat{\beta}_{0}+\hat{\beta}_{1}y_{T}
\end{eqnarray*}`

- El error de predicción un período adelante se define como:
`$$e_{1}^{f}=y_{T+1}-\hat{y}_{T+1|T}$$`

- La distinción entre el error de predicción y el residuo de regresión sigue la misma lógica fuera y dentro de la muestra.

---

## Ejemplo 1: Modelo AR(1) para la tasa de inflación en Chile

.pull-left[
<img src="5_Series_de_Tiempo_Estacionarias_Prediccion_files/figure-html/inf-1.png" width="95%" style="display: block; margin: auto;" />
]

.pull-right[
<img src="5_Series_de_Tiempo_Estacionarias_Prediccion_files/figure-html/dinf-1.png" width="95%" style="display: block; margin: auto;" />
]

---

## Ejemplo 1: Modelo AR(1) para la tasa de inflación en Chile

- Predicción:
`$$\Delta \hat{\pi}_{T+1|T} = -0.001 -0.203 \Delta \pi_T$$`

tenemos:
`$$\Delta \hat{\pi}_{T+1|T} = -0.001 -0.203 (-0.2) = 0.04$$`
]

.pull-right[
<img src="5_Series_de_Tiempo_Estacionarias_Prediccion_files/figure-html/ar_dinf_fit-1.png" width="95%" style="display: block; margin: auto;" />
]

---

## Modelo autoregresivo de orden p

- El modelo AR(p) poblacional:
`$$y_{t}=\beta_{0}+\beta_{1}y_{t-1}+\beta_{2}y_{t-2}+...+\beta_{p}y_{t-p}+u_{t}$$`

- El modelo AR(p) usa `$p$` rezagos de la variable dependiente.
    
- Como antes, los parámetros `$\beta_{1}$` a `$\beta_{p}$` no tienen interpretación causal.

- El test de hipótesis:
`$$\mathrm{H}_{0}:\beta_{i}=\beta_{i+1}=...=\beta_{p}=0$$`

indica que los rezagos de `$i$` hasta `$p$` no tienen información útil para predecir `$y_{t}$` (usamos un test `$F$` o un test `$t$` dependiendo del número de restricciones)
    
- Se puede usar este test para determinar el orden `$p$` (usaremos otros criterios más adelante).

- Se pueden incluir componentes como la tendencia (deterministica) y variables dummy estacionales si la serie de tiempo está caracterizada por éstos componentes.
    
---

## Ejemplo 1: Modelos autoregresivos para la tasa de inflación

<table style="text-align:center"><tr><td colspan="3" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td colspan="2">dinf</td></tr>
<tr><td style="text-align:left"></td><td>(1)</td><td>(2)</td></tr>
<tr><td colspan="3" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">L(dinf, 1:4)1</td><td>-0.359*** (0.061)</td><td></td></tr>
<tr><td style="text-align:left">L(dinf, 1:4)2</td><td>-0.441*** (0.063)</td><td></td></tr>
<tr><td style="text-align:left">L(dinf, 1:4)3</td><td>-0.250*** (0.063)</td><td></td></tr>
<tr><td style="text-align:left">L(dinf, 1:4)4</td><td>-0.273*** (0.061)</td><td></td></tr>
<tr><td style="text-align:left">L(dinf, 1:6)1</td><td></td><td>-0.393*** (0.063)</td></tr>
<tr><td style="text-align:left">L(dinf, 1:6)2</td><td></td><td>-0.473*** (0.067)</td></tr>
<tr><td style="text-align:left">L(dinf, 1:6)3</td><td></td><td>-0.305*** (0.071)</td></tr>
<tr><td style="text-align:left">L(dinf, 1:6)4</td><td></td><td>-0.317*** (0.071)</td></tr>
<tr><td style="text-align:left">L(dinf, 1:6)5</td><td></td><td>-0.123* (0.068)</td></tr>
<tr><td style="text-align:left">L(dinf, 1:6)6</td><td></td><td>-0.002 (0.063)</td></tr>
<tr><td style="text-align:left">Constant</td><td>-0.0003 (0.022)</td><td>0.00002 (0.022)</td></tr>
<tr><td colspan="3" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>258</td><td>258</td></tr>
<tr><td style="text-align:left">Adjusted R2</td><td>0.203</td><td>0.209</td></tr>
<tr><td colspan="3" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Note:</td><td colspan="2" style="text-align:right">*p<0.1; **p<0.05; ***p<0.01</td></tr>
</table>
]]

- En el modelo AR(6) podemos realizar un prueba F con `$\mathrm{H}_{0}:\beta_{6}=\beta_{5}=0$` para discriminar entre un AR(6) y un AR(4).

- `$F =$` 1.904 con p-value igual a 0.151.

- Ahora en el AR(4) podemos realizar un prueba F con `$\mathrm{H}_{0}:\beta_{4}=\beta_{3}=0$` para discriminar entre un AR(4) y un AR(2).

- `$F =$` 13.945 con p-value igual a 0

- De entre los dos modelo, el modelo AR(4) es el que mejor ajusta a los datos.

- Predicción con el modelo AR(4):
`$$\Delta \hat{\pi}_{T+1|T} = 0 -0.359 \Delta \pi_T -0.441 \Delta \pi_{T-1} -0.25 \Delta \pi_{T-2}$$`
`$$-0.273 \Delta \pi_{T-3} = 0.061$$`
]

---

## Modelos autoregresivo de rezagos distribuidos (ARD)
    
- Hasta ahora hemos considerado modelos de predicción que suponen que sólo el pasado de la misma variable es relevante.

- Sin embargo, tiene sentido que **otras variables** `$x$` **puedan tener información relevante** para predecir `$y$`.

- Usando esta idea tenemos:
`$$y_{t}=\beta_{0}+\beta_{1}y_{t-1}+...+\beta_{p}y_{t-p}+\delta_{1}x_{t-1}+...+\delta_{r}x_{t-r}+u_{t}$$`
    
- Este es un modelo autorregresivo de retardos distribuidos con `$p$` rezagos de `$y$` y `$r$` rezagos de `$x$`: `$ARD(p,r)$`.

- El **test de Causalidad a la Granger** indaga en si una variable `$x$` tiene poder predictivo (información relevante) sobre la variable `$y$`. Usamos un test F para probar: `$$\mathrm{H}_{0}:\delta_{1}=...=\delta_{r}=0$$`
  Si `$\mathrm{H}_{0}$` no se rechaza decimos que `$x$` no Granger causa a `$y$`. 
    
---

## Ejemplo 1: Modelos ARD para la tasa de inflación

- Ejemplo: Inflación y Desempleo. Curva de Phillips: si la tasa de desempleo está por encima de la tasa natural, entonces la tasa de inflación aumentará.

- De esta forma, `$\Delta inf_{t}$` debería estar relacionada con valores pasados de la tasa de desempleo y el coeficiente debiera ser negativo.

]
.pull-right[
<img src="5_Series_de_Tiempo_Estacionarias_Prediccion_files/figure-html/phil_anual-1.png" width="95%" style="display: block; margin: auto;" />

]

---

## Ejemplo 2: Modelos ARD para la tasa de inflación

<table style="text-align:center"><tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left"></td><td>dinf</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">L(dinf, 1:4)1</td><td>-0.381*** (0.061)</td></tr>
<tr><td style="text-align:left">L(dinf, 1:4)2</td><td>-0.457*** (0.063)</td></tr>
<tr><td style="text-align:left">L(dinf, 1:4)3</td><td>-0.263*** (0.063)</td></tr>
<tr><td style="text-align:left">L(dinf, 1:4)4</td><td>-0.269*** (0.060)</td></tr>
<tr><td style="text-align:left">L(td.t, 1:2)1</td><td>0.111* (0.058)</td></tr>
<tr><td style="text-align:left">L(td.t, 1:2)2</td><td>-0.113* (0.058)</td></tr>
<tr><td style="text-align:left">Constant</td><td>0.021 (0.117)</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Observations</td><td>258</td></tr>
<tr><td style="text-align:left">Adjusted R2</td><td>0.209</td></tr>
<tr><td colspan="2" style="border-bottom: 1px solid black"></td></tr><tr><td style="text-align:left">Note:</td><td style="text-align:right">*p<0.1; **p<0.05; ***p<0.01</td></tr>
</table>
- T.C.G para `$td$`: `$F=$` 1.9 con p-value 0.152. 
]]
.pull-right[
<img src="5_Series_de_Tiempo_Estacionarias_Prediccion_files/figure-html/pred_ard_inf-1.png" width="90%" style="display: block; margin: auto;" />
- Predicción: `$\Delta \hat{\pi}_{T+1|T} = 0.008$`.
]
---

# Incertidumbre e intervalos de predicción

---

## Incertidumbre e intervalos de predicción
    
- ¿Porqué necesitamos una medida de incertidumbre? Para construir intervalos de confianza de la predicción.

- Estos intervalos dan una idea del grado de precisión que deberíamos
esperar de la predicción.

- Consideremos la predicción de un modelo ARD(1,1):
`$$\hat{y}_{T+1|T}=\hat{\beta}_{0}+\hat{\beta}_{1}y_{T}+\hat{\delta}_{1}x_{T}$$`

- El error de predicción es:
`$$y_{T+1}-\hat{y}_{T+1|T}=u_{T+1}-\left[\left(\hat{\beta}_{0}-\beta_{0}\right)+\left(\hat{\beta}_{1}-\beta_{1}\right)y_{T}+\left(\hat{\delta}_{1}-\delta_{1}\right)x_{T}\right]$$`
---

## Incertidumbre e intervalos de predicción
    
- El error de predicción cuadrático medio es:
`\begin{eqnarray*}
\mathbb{E}\left(y_{T+1}-\hat{y}_{T+1|T}\right)^{2} & = & \mathbb{E}\left[u_{T+1}^{2}\right]\\
 & + & \mathbb{E}\left[\left(\hat{\beta}_{0}-\beta_{0}\right)+\left(\hat{\beta}_{1}-\beta_{1}\right)y_{T}+\left(\hat{\delta}_{1}-\delta_{1}\right)x_{T}\right]^{2}
\end{eqnarray*}`

- Entonces:
`$$EPCM=\mathbb{V}(u_{T+1})+\Theta$$`

con `$\Theta$` la incertidumbre asociada a errores de estimación.

- Cuando la muestra es grande tenemos que:
`$$\mathbb{V}(u_{T+1})>>\Theta$$`
  y por tanto:
`$$EPCM\approx \mathbb{V}(u_{T+1})$$`
---

## Incertidumbre e intervalos de predicción
    
- Definamos también la raíz del error de predicción cuadrático medio:
`$$REPCM=\sqrt{\mathbb{E}\left(y_{T+1}-\hat{y}_{T+1|T}\right)^{2}}$$`

- Esta es una medida de dispersión de la distribución del error de predicción
(es de hecho una desviación estándar, pero para la predicción).

- Entonces es una medida de la **magnitud de una error de predicción típico**.

---

## Incertidumbre e intervalos de predicción

Tres formas de aproximar el `$REPMC$`

1. Usar la varianza del error de regresión 
`\begin{eqnarray*}
\widehat{REPCM} & = & \sqrt{\hat{\sigma}_{u}^{2}}
\end{eqnarray*}`

2. Usar la historia de predicciones para `$t=t_{1},...,T$` y estimar:
`$$\widehat{REPCM}=\sqrt{\frac{1}{T-t_{1}+1}\sum_{t=t_{1}-1}^{T-1}(y_{t+1}-y_{t+1|t})^{2}}$$`
  Este método es difícil de implementar porque requiere datos históricos de las predicciones del modelo.

3. Usar historia simulada de predicción, esto es, simular las predicciones
que el modelo habría dado en tiempo real. Una vez que se tenga la historia usar el método 2. Este método de llama **pseudo predicciones fuera de la muestra**.

---

## Incertidumbre e intervalos de predicción

Pseudo predicciones fuera de la muestra:
    
- Estimar el modelo para cada `$t=t_{1}-1,...,T-1$`

- Calcular la predicción para `$t+1$` usando el modelo hasta `$t$`. Esto
es `$\hat{y}_{t+1|t}$`

- Calcular el pseudo error de predicción `$y_{t+1}-\hat{y}_{t+1|t}$`

- Calcular la raíz del pseudo error de predicción promedio:
`$$\widehat{REPCM}=\sqrt{\frac{1}{T-t_{1}+1}\sum_{t=t_{1}-1}^{T-1}(y_{t+1}-y_{t+1|t})^{2}}$$`

---

## Incertidumbre e intervalos de predicción

Intervalos para al Predicción
    
- Si `$u_{T+1}$` tiene una distribución normal, entonces el intervalo
de la predicción al 95\% se puede construir como:
`$$\hat{y}_{T+1|T}\pm1.96\times\widehat{REPCM}$$`

- El intervalo para la predicción no es un intervalo de confianza (note que `$\hat{y}_{T+1}$` no es un coeficiente no aleatorio, sino es en efecto aleatorio).

- El intervalo anterior es válido sólo bajo el supuesto de normalidad. Sin embargo, su uso es muy común.

- Se pueden construir intervalos de predicción a distintos porcentajes (por ejemplo 70%, 80%, 90%, 95%, 99%). Para nuestro ejemplo de la inflación en Chile tenemos:

```
##          Point Forecast      Lo 95     Hi 95      Lo 99    Hi 99
## Jul 2021     0.05936075 -0.6467001 0.7654216 -0.8685605 0.987282
```
]

---

# Selección del rezago óptimo

---

## Selección del rezago óptimo usando criterios de información

¿Cómo elegir el rezago `$p$` en un modelo `$AR(p)$`? 
    
- El sesgo por omisión de variables es irrelevante para la predicción. Lo que importa es el ajuste y `$p$` es clave para ello.

- Una forma de elegir `$p$` es usar secuencialmente test `$t$` o `$F$`. Esto es, partir de un `$p$` grande e ir descartando rezagos. El problema es que los modelos tienden a ser muy grandes.

- Otra alternativa, mejor aún, es determinar los rezagos usando los **criterios de información**.

- El problema anterior no existe en este caso ya que en los criterios de información esta implícita la disyuntiva entre ajuste vs. grados de libertad.

- Existen dos criterios de información, el Criterio de Bayes (BIC) y el Criterio de Akaike.

---

## Criterio de Información de Bayes (BIC)

- Definición:
`$$BIC(p)=\ln\left(\frac{SRC(p)}{T}\right)+(p+1)\frac{\ln T}{T}$$`
    
- El primer término es siempre decreciente en `$p$` (un `$p$` grande siempre mejora el ajuste).

- El segundo término es siempre creciente en `$p$`.
    
- La varianza de predicción dada por el error de estimación es creciente en `$p$`, por tanto no es buena idea predecir con un modelo con mucho rezagos. (¿qué es muchos?).

- Este término es una **penalidad** al uso de muchos parámetros.
    
- Al minimizar el `$BIC(p)$` elegimos el mejor valor de `$p$`.
    
---

## Criterio de Información de Akaike (AIC)

- Definición:
`$$AIC(p)=\ln\left(\frac{SRC(p)}{T}\right)+(p+1)\frac{2}{T}$$`
    
- La interpretación es la misma que en el criterio `$BIC(p)$`.

- La diferencia está en que el término de penalidad es más pequeño para el criterio `$AIC(p)$`:
`$$(p+1)\frac{2}{T}<(p+1)\frac{\ln T}{T}$$`

- Por esto el criterio `$AIC(p)$` estima mayores rezagos que el criterio `$BIC(p)$`.

- Esto puede ser deseable si se piensa que se requieren más rezagos.

- En muestras pequeñas, los resultados tienden a ser similares con ambos criterios. En muestras grandes, la penalidad del `$AIC(p)$` no es suficiente. 
    
---

## Ejemplo 1: Criterios de Información y modelos AR

- Calculamos los criterios AIC y BIC para distintos modelos entre un AR(1) y un AR(8):

```
##        AIC      BIC
## 1 258.1665 268.8254
## 2 235.3228 249.5346
## 3 230.2393 248.0041
## 4 212.3429 233.6607
## 5 210.4595 235.3303
## 6 212.4586 240.8823
## 7 213.0022 244.9788
## 8 213.5880 249.1176
```
]

- Note que el mínimo AIC se da con un AR(5) y el mínimo BIC con un AR(4). Estos son los modelos que mejor ajustan a los datos.
---

## Generalización del criterio de Bayes para los modelos ARD

- Definamos como `$K$` el número total de coeficientes estimados en el modelo (intercepto + rezagos de `$y$` + rezagos de `$X$`). El criterio de Bayes es:
`$$BIC(K)=\ln\left(\frac{SRC(K)}{T}\right)+K\frac{\ln T}{T}$$`

- Se podrías calcular este criterio para todas las combinaciones posibles de rezagos `$p$` y rezagos `$r$`.

- En la práctica, elegimos el `$AR(p)$` para `$y$` y decidimos si incluir rezagos de `$x$` usando el test de Causalidad de Granger. 
    
Los mismos procedimientos anteriores aplican a R, por ejemplo:

---

# Predicción de múltiples periodos

---

## Predicción de múltiples periodos
    
- Supongamos un modelo AR(1):
`\begin{eqnarray*}
y_{t} & = & \phi_{0}+\phi_{1}y_{t-1}+\epsilon_{t}
\end{eqnarray*}`

- La **predicción** un período adelante es:
`\begin{eqnarray*}
y_{T+1} & = & \phi_{0}+\phi_{1}y_{T}+\epsilon_{T+1}\\
y_{T+1|T} & = & E[\phi_{0}+\phi_{1}y_{T}+\epsilon_{T+1}|y_{T},y_{T-1},..]\\
 & = & \phi_{0}+\phi_{1}y_{T}
\end{eqnarray*}`

- La predicción dos período adelante es:
`\begin{eqnarray*}
y_{T+2|T} & = & \phi_{0}+\phi_{0}\phi_{1}+\phi_{1}^{2}y_{T}
\end{eqnarray*}`

- La predicción `$j$` períodos adelante es:
`\begin{eqnarray*}
y_{T+j|T} & = & \phi_{0}(1+\phi_{1}+\phi_{1}^{2}+...+\phi^{j-1})+\phi_{1}^{j}y_{T}
\end{eqnarray*}`
    
---

## Predicción de múltiples periodos
    
- Note que la calidad de la predicción disminuye mientras más lejos está `$j$`:
`$$\lim_{j\rightarrow\infty}y_{T+j|T}=\frac{\phi_{0}}{1-\phi_{1}}$$`
  La predicción es la media del proceso.

- El **error de predicción** (de la predicción `$j$` períodos adelante) se define como:
`$$e_{T}(j)=y_{T+j}-y_{T+j|T}$$`
    
- Para diferentes horizontes de predicción tenemos:
`\begin{eqnarray*}
e_{T}(1) & = & y_{T+1}-\left(\phi_{0}+\phi_{1}y_{T}\right)=\epsilon_{T+1}\\
e_{T}(2) & = & y_{T+2}-\left(\phi_{0}+\phi_{0}\phi_{1}+\phi_{1}^{2}y_{T}\right)=\epsilon_{T+2}+\phi\epsilon_{T+1}\\
 & \vdots\\
e_{T}(j) & = & \epsilon_{T+j}+\phi_{1}\epsilon_{T+j-1}+\phi_{1}^{2}\epsilon_{T+j-2}+...+\phi_{1}^{j-1}\epsilon_{T+1}
\end{eqnarray*}`
    
---

## Predicción de múltiples periodos
    
- La **Varianza del Error de Predicción** es:
`$$\mathbb{V}(e_{T}(j))=\sigma^{2}\left(1+\phi_{1}^{2}+\phi_{1}^{4}+...+\phi_{1}^{2(j-1)}\right)$$`

- Entonces podemos construir un **Intervalo de Confianza** (a cada horizonte) para juzgar la precisión de la predicción:
`\begin{eqnarray*}
j=1 & : & \left(\phi_{0}+\phi_{1}y_{T}\right)\pm Z_{\alpha/2}\sqrt{\sigma^{2}}\\
j=2 & : & \left(\phi_{0}+\phi_{0}\phi_{1}+\phi_{1}^{2}y_{T}\right)\pm Z_{\alpha/2}\sqrt{\sigma^{2}\left(1+\phi_{1}^{2}\right)}\\
 & \vdots\\
j=k & : & \left(\phi_{0}(1+\phi_{1}+\phi_{1}^{2}+...+\phi^{k-1})+\phi_{1}^{k}y_{T}\right)\\
 &  & \pm Z_{\alpha/2}\sqrt{\sigma^{2}\left(1+\phi_{1}^{2}+\phi_{1}^{4}+...+\phi_{1}^{2(k-1)}\right)}
\end{eqnarray*}`

---

## Ejemplo 1: Predicción de la inflación para 36 meses