Tres errores al interpretar intervalos de confianza

En días pasados, Consulta Mitofsky difundió su más reciente encuesta de preferencia electoral. Los resultados muestran que los intervalos de confianza de la intención de voto del PAN y del PRI se traslapan, por lo que algunos analistas (e incluso pollsters) aseguran que –en términos estrictos– la diferencia entre ambos partidos “no es estadísticamente significativa”. Esta “regla de dedo” es generalmente correcta cuando el área de traslape es sustantiva. Pero en el caso de la encuesta de Consulta, la respuesta es más compleja de lo que parece.

20150228_NA_GranElectoral

1. Hacer la prueba de hipótesis

El traslape de dos intervalos NO implica (necesariamente) que la diferencia de dos proporciones NO sea estadísticamente diferente de cero (la doble negación es correcta). Por ello, cuando el traslape es pequeño, es preferible realizar una prueba de hipótesis. (En cambio, si un intervalo no incluye a una constante, sí podemos decir que la proporción es estadísticamente diferente de dicha constante; por eso, cuando deseamos saber si un coeficiente de regresión es distinto de cero basta con verificar que su intervalo no incluya dicho número). Este tema ha sido abordado frecuentemente en artículos de estadística aplicada en varias disciplinas. En un artículo muy conocido, Schenker y Gentleman resumen de manera clara el problema.

Although the method of examining overlap is simple and especially convenient when lists or graphs of confidence intervals have been presented, we conclude that it should not be used for formal significance testing unless the data analyst is aware of its deficiencies and unless the information needed to carry out a more appropriate procedure is unavailable.

El razonamiento puede entenderse mejor si realizamos una prueba de diferencias de proporciones con simulación estadística (si prefieres hacerlo a través de fórmulas, aquí hay una excelente guía que incluye un ejemplo con la misma motivación). Primero simulemos la distribución de la proporción de intención de voto del PAN y del PRI a partir de los datos que reportó Consulta (por simplicidad, aproximemos ambas distribuciones con una normal):

PAN = c(.233, .287)
PRI = c(.281, .339)

p.PAN = PAN[1] + (PAN[2]-PAN[1])/2
p.PRI = PRI[1] + (PRI[2]-PRI[1])/2

se.PAN = (PAN[2]-PAN[1]) / 3.92
se.PRI = (PRI[2]-PRI[1]) / 3.92

NR <- .374
n <- 1000*(1-NR)
n.sims <- 500000

set.seed(1234)
sim.PAN <- rnorm(n.sims, p.PAN, se.PAN)
sim.PRI <- rnorm(n.sims, p.PRI, se.PRI)

La prueba de hipótesis es muy sencilla: en cuántas ocasiones la el porcentaje del PAN es mayor al del PRI?

> sum(sim.PAN > sim.PRI)/n.sims
[1] 0.006582

En sólo 3,291 de 500,000 simulaciones (o 0.66%) la preferencia del PAN es mayor a la del PRI. Si interpretamos 0.66% como un p-value, diríamos que podemos rechazar dicha hipótesis.

La gráfica de abajo ilustra el problema. La gráfica de la izquierda muestra la distribución muestral de las preferencias del PAN (azul) y del PRI (rojo). Las líneas verticales indican el percentil 97.5 del PAN y el 2.5 del PRI, que corresponden al intervalos superior e inferior de dichos partidos, respectivamente. La gráfica muestra el mismo traslape que la gráfica del reporte de Consulta.

ejemplo

La gráfica de la derecha muestra la distribución de la diferencia entre la proporción del PRI y del PAN. Naturalmente, si la diferencia es mayor a cero, la proporción del PRI es mayor a la del PAN. Las líneas verticales punteadas indican los percentiles 2.5% y 5% para representar pruebas de hipótesis de una y dos “colas”. Como se aprecia, la línea del cero no se ubica en los intervalos delineados por estos percentiles. Así pues, podemos concluir que la diferencia es estadísticamente distinta de cero.

2. Hacer la prueba de hipótesis correcta

El ejercicio de arriba es útil para entender el problema del traslape de los intervalos de confianza, pero utiliza una prueba de hipótesis inadecuada. Wild y Seber distinguen tres tipos de situaciones que pueden surgir cuando se comparan dos proporciones. Estas situaciones pueden ilustrarse con la figura de abajo:

Comparing Two Proportions La sección anterior supone que las proporciones provienen de dos muestras distintas (Panel A), pero nuestro ejemplo corresponde al Panel B. En un artículo previo, Wild y Seber ofrecen las fórmulas correctas para la prueba de hipótesis. Aquí nuevamente utilizo simulación estadística. El código de abajo simula 500 mil vectores de una distribución multinomial con parámetros n=626 y p igual a las proporciones de intención de voto reportadas por Consulta:

> pref <- c(.26, .31, .08, .16, .03, .03, .02, .09, .01, .01)
> names(pref) <- c("PAN","PRI","PVEM","PRD","PT","MC","PANAL","MORENA","HUM","PES")
> sim <- t(rmultinom(n.sims, size=n, prob=pref))
> head(round(sim/n, 2))
      PAN  PRI PVEM  PRD   PT   MC PANAL MORENA  HUM  PES
[1,] 0.27 0.29 0.09 0.18 0.02 0.03  0.01   0.07 0.01 0.01
[2,] 0.25 0.29 0.09 0.16 0.03 0.03  0.03   0.08 0.01 0.02
[3,] 0.24 0.32 0.09 0.17 0.02 0.04  0.03   0.08 0.01 0.01
[4,] 0.26 0.29 0.09 0.16 0.04 0.03  0.02   0.09 0.01 0.01
[5,] 0.27 0.31 0.06 0.16 0.03 0.04  0.02   0.09 0.01 0.01
[6,] 0.27 0.34 0.06 0.13 0.04 0.04  0.02   0.09 0.01 0.01
> sum(sim[,1] > sim[,2]) / n.sims
[1] 0.04621

Nuevamente, la prueba es muy sencilla: cuántas veces la preferencia del PAN es mayor a la del PRI? La respuesta es 23,101/500,000=4.6%. Ciertamente, esta cifra es muy cercana al umbral convencional del 5%.

3. Interpretar p-values como probabilidades

Por último, solo quisiera mencionar “de pasadita” que los p-values no denotan la probabilidad de que la hipótesis sea correcta/falsa (véase este post de Andrew Gelman). En relación a la encuesta de Consulta, hay quienes argumentan que si dos intervalos de confianza se traslapan en un área muy pequeña, la probabilidad de que las dos proporciones sean iguales es muy “pequeñita”. No hay que ponerse muy estrictos en este tema, pues aunque no son equivalentes, los p-values sirven para comunicar resultados de manera sencilla a audiencias no-especializadas (véase este post de Justin Esarey).

Sin embargo, en el ámbito de las encuestas en México, creo que este razonamiento proviene de la creencia de que el intervalo de confianza puede interpretarse como “existe 95% de probabilidad que el valor “real” se encuentre dentro de este intervalo”. Esta frase es errónea, y sorprende que aparezca en algunos reportes de casas encuestadoras. Incluso Wikipedia tiene la interpretación correcta de los intervalos de confianza:

More specifically, the meaning of the term “confidence level” is that, if confidence intervals are constructed across many separate data analyses of repeated (and possibly different) experiments, the proportion of such intervals that contain the true value of the parameter will match the confidence level; this is guaranteed by the reasoning underlying the construction of confidence intervals.

Ultimos apuntes

Mi intención en este post no es demostrar que la preferencia del PRI es mayor a la del PAN. De hecho, técnicamente hablando, creo que NO lo es. Los intervalos de confianza que reporta Consulta asumen un muestreo aleatorio simple, pero debido a la conglomeración de la muestra, los intervalos deben ser mayores a los reportados (véase la definición del deff). Esto sin mencionar la varianza que proviene de errores no-muestrales. Sin embargo, mi objetivo fue simplemente señalar algunas imprecisiones cuando se interpretan intervalos de confianza en resultados de encuestas.

Leave a Reply