Modelos estadísticos con datos electorales multipartidistas

El próximo 3 de mayo de este año se presentará el libro Aplicaciones en Economía y Ciencias Sociales con Stata en el Encuentro de Usuarios de Stata en México. Javier Aparicio y su atento servidor escribimos el capítulo 8: “Modelos estadísticos para sistemas electorales multipartidistas en Stata”.

¿Por qué un capítulo sobre modelos estadísticos con datos electorales multipartidistas? A pesar de que la literatura académica sobre este tema se encuentra relativamente bien establecida, la gran mayoría de los análisis electorales en México raramente incorporan sus recomendaciones.

La preocupación por desarrollar modelos estadísticos para datos electorales multipartidistas inició hace casi 15 años (1999) con este artículo de Jonathan Katz y Gary King. Los autores identificaron cuatro características de los datos electorales multipartidistas que han dominado la literatura desde entonces:

  1. Las variables dependientes (el porcentaje de votos para los partidos políticos) son proporciones: individualmente, cada variable debe situarse en el intervalo entre 0 y 1, y en conjunto, deben sumar 1. Sin embargo, el modelo estándar de regresión suele producir predicciones menores a 0 o mayores a 1 (el capítulo presenta algunos ejemplos con los resultados de la elección de diputados de 2006 en México).
  2. La distribución de la variable dependiente suele mostrar “colas” largas: los partidos políticos tienen muy altos o muy bajos niveles de apoyo en unos pocos distritos electorales. Por lo tanto, aún después de incluir otras variables explicativas en el modelo, el componente estocástico suele distribuirse como una distribución t multivariada en lugar de una distribución normal multivariada.
  3. Existen distritos electorales en los que algunos partidos no presentan candidatos, lo que constituye un ejemplo de valores perdidos (missing data).
  4. La cantidad de interés no es el coeficiente de la regresión, sino alguna función compleja de los parámetros del modelo (por ejemplo, la conformación partidista de la legislatura).

Katz y King proponen un modelo denominado Full information Maximum Likelihood. El modelo sugiere las siguientes adecuaciones al modelo estándar de regresión:

  • Tratar a las proporciones de votos de los partidos como datos composicionales. Esta técnica se utiliza con frecuencia en otras disciplinas como Geología y Biología, y consiste en aplicar una transformación logística multinomial a las variables dependientes. La transformación logística cambia la proporción de votos a una escala irrestricta, satisfaciendo los supuestos del modelo estándar de regresión. [Dato curioso: Burt Monroe elaboraba al mismo tiempo (1998) un modelo que ofrecía la misma solución. Monroe escribe: “This project is in many ways intermingled with work being pursued, both independently and jointly, as well as both by and with, Jonathan Katz and Gary King; their assistance and comments are appreciated”]
  • Modelar las variables dependientes con una distribución t multivariada.
  • En los distritos donde algún partido no presenta candidato, la verosimilitud se calcula como el área debajo de la distribución de probabilidad que corresponde a la región en la que hipotéticamente observaríamos el voto de dicho candidato si hubiera competido. La región se define a partir de algunos supuestos simples; por ejemplo, que el candidato no hubiera obtenido más votos que el resto de sus adversarios (¿por qué el partido no postularía a un candidato que puede ganar?)
  • Para calcular las cantidades de interés, los autores proponen usar simulación estadística: el famoso algoritmo implementado en Clarify. De hecho, el artículo que presenta a Clarify apareció un año después (2000). [Dato curioso: en 1999, Michael Herron publicó un artículo en el que propuso exactamente el mismo algoritmo, por lo que hay quienes le conceden a él la verdadera paternidad. Por ejemplo, Glasgow escribe que el enfoque de Herron “later became familiar to political scientists through Stata’s Clarify package”. No obstante, Gary King había usado simulación antes (1994) en otros artículos con Andrew Gelman.]

En 2002, James Honaker, Gary King, y Jonathan Katz publicaron un artículo en el que presentan una alternativa rápida y sencilla basada en imputación múltiple para lidiar con los distritos en los que algún partido no presenta candidato. Los autores consideraron que la solución original de Katz y King era computacionalmente demandante y difícil de programar. Hay que considerar que un año antes (2001), King y Honaker escribieron su artículo sobre imputación múltiple y lanzaron la primera versión de Amelia, que incluía un módulo para realizar imputación basada en la distribución t. (Amelia II no incluye este módulo).

Al mismo tiempo, Joshua Tucker, Michael Tomz y Jason Wittenberg (los dos últimos coautores de King en Clarify) elaboraron su propio modelo. Éste mantiene dos características del enfoque original: modelar las proporciones de votos como datos composicionales y usar simulación estadística para calcular  cantidades de interés. En cambio, los autores proponen tres modificaciones:

  • Emplear Seemingly Unrelated Regression (SUR) para estimar los parámetros del modelo: los porcentajes de votos de los partidos están relacionadas en tanto un aumento en la votación de un partido significa una menor votación para los demás. Cuando los términos de error de varias ecuaciones están correlacionados, Mínimos Cuadrados Ordinarios produce estimadores consistentes, pero SUR proporciona estimadores más eficientes.
  • Los autores argumentan las distribuciones normal y t arrojan resultados muy parecidos, y por lo tanto, “al adoptar la distribución Normal se pierde poco de interés sustantivo pero se gana mucho en facilidad de implementación”.
  • Para lidiar con los distritos en los que algunos partidos no presentan candidatos, los autores proponen efectuar análisis separados para cada patrón de competencia.

Las aplicaciones de los modelos para datos electorales multipartidistas se centraron en sistemas mayoritarios (Reino Unido), y sólo tangencialmente abordaban ejemplos de sistemas mixtos o de representación proporcional. En este artículo, Javier Aparicio y yo “tropicalizamos” el modelo para el caso de México, ilustrando los efectos de dos reformas electorales: homologar el calendario de las elecciones locales y federales en todo el país y disminuir el número de diputados plurinominales.

El objetivo de nuestro capítulo en el libro Aplicaciones en Economía y Ciencias Sociales con Stata es mostrar de manera práctica e interactiva la implementación de un modelo para datos electorales multipartidistas. El capítulo ilustra el uso de nuestro programa camaradip para responder la siguiente pregunta: ¿Cuántos votos hubiera requerido Felipe Calderón para conseguir mayoría en la Cámara de Diputados?

El prefacio del libro resume así nuestro capítulo:

En el capítulo 8, Javier Márquez y Javier Aparicio proponen modelos estadísticos para el análisis de sistemas electorales multipartidistas, adecuados para regímenes políticos como los de América Latina, con características comunes, tales como la separación de poderes (Ejecutivo y Legislativo), la elección por representación proporcional y la existencia de mas de dos partidos políticos relevantes (sistemas multipartidistas). Los autores resaltan la utilidad de los modelos estadísticos para explicar o predecir la conformación de la asamblea en sistemas multipartidistas; con este objetivo, desarrollan el módulo camaradip en Stata 12.0, el cual incorpora técnicas útiles para adecuar los modelos estadísticos convencionales al estudio de sistemas electorales multipartidistas. El capítulo muestra paso a paso los componentes del modelo estadístico, tomando como caso de estudio la elección de diputados federales de 2006 en México

Felices regresiones!

One thought on “Modelos estadísticos con datos electorales multipartidistas

  1. Pingback: Medición del sesgo partidista con Modelos de Mezclas Finitas | Políticamente Correcto

Leave a Reply