¿La cifra negra de secuestro puede estar sobre-estimada?

El pasado domingo 12 de enero El Universal publicó un texto que escribí sobre las encuestas de victimización del INEGI y la cifra negra del secuestro. El texto está disponible en este link.

Una de las ideas centrales del artículo es que las encuestas de victimización del INEGI arrojan un número de secuestros en nuestro país que es muy superior a las estimaciones más radicales de algunos expertos y organizaciones de la sociedad civil. ¿Por qué?

En este post me gustaría ahondar un poco más en mi argumento que,  por razones de espacio, no pude desarrollar como hubiera querido. Las tablas al final del post corresponden a las que aparecieron en la publicación, pero con intervalos de confianza y otros datos relevantes. Las estimaciones incorporan el diseño muestral de las ENSI y las ENVIPE (estratos, conglomerados y ponderadores). El material para replicar el análisis se encuentra en mi Dataverse.

Dos tipos de estimadores: individual y hogares

Existen al menos dos maneras en que podemos estimar el número de secuestros a través de encuestas:

  • preguntando al encuestado cuántas veces fue víctima de un secuestro, o
  • preguntando al encuestado cuántos secuestros se registraron en total en su hogar.

Por brevedad, al primer método le llamaré “estimador individual” y al segundo “estimador por hogar”. En realidad, la ENVIPE 2013 hizo ambas preguntas al individuo encuestado; la diferencia es que en el estimador individual preguntó únicamente por secuestro, y en el estimador por hogar preguntó por “secuestro o secuestro exprés”.

Por el momento no haré la distinción entre secuestro y secuestro exprés, pues sólo me interesa mostrar que ambos estimadores son insesgados; es decir, que si hiciéramos muchas muestras de hogares y realizáramos una encuesta distinta con cada una de ellas, ambos estimadores proporcionarían en promedio la respuesta correcta. Para ello resulta útil hacer un experimento de Monte Carlo.

Primero, creemos una población ficticia de 10 millones de habitantes que viven en 5 millones de hogares (dos habitantes en cada hogar). Existen seis tipos de hogares dependiendo del número de veces que fue secuestrado cada integrante:

Tipo de hogar % de hogares Numero de hogares Integrante 1 Integrante 2 Total de secuestros
1 99.95 4,997,500 0 0 0
2 0.01 500 1 0 500
3 0.01 500 0 1 500
4 0.01 500 1 1 1,000
5 0.01 500 2 1 1,500
6 0.01 500 1 2 1,500
Total 100 5,000,000 5,000

Así pues, en nuestra población de 10 millones de personas se registraron 5 mil secuestros en total. Esta frecuencia indica que el secuestro es un “evento raro”. La población se puede generar de la siguiente manera en R:

pob prop data                  1,0,  #Una victima
                 0,1,  #Una victima
                 1,1,  #Dos victimas
                 2,1,  #Tres secuestros
                 1,2), #Tres secuestros
               ncol = 2, byrow=TRUE)
data 

Supongamos que sólo nosotros, quienes creamos a la población, sabemos el número real de secuestros. Sin embargo, los habitantes de la población lo desconocen y planean hacer una encuesta para conocer la magnitud del problema. El Instituto de Estadística de la población proyecta una encuesta de 500 entrevistas que se realizarán en igual número de hogares seleccionados aleatoriamente.

El Instituto de Estadística sólo levantará una muestra de hogares, pero nuestro experimento de Monte Carlo consiste en seleccionar varias muestras (digamos, 50 mil), y calcular el número de secuestros con cada una de ellas. El código que aparece a continuación selecciona las muestras de hogares y de individuos dentro de cada hogar seleccionado; luego, calcula el número de secuestros con los estimadores individual y por hogar aplicando los ponderadores correspondientes.

size sims
##Muestra de hogares
set.seed(123456)
samples
#Estimadores
select ponde.indiv ponde.hogar indiv hogar 

Debido al error muestral, algunas muestras producirán más secuestros o menos secuestros de los que realmente ocurrieron en la población. Gracias a nuestro experimento de Monte Carlo sabemos que casi 95% de las muestras posibles arrojarán un número de secuestros que va de 0 a 40 mil. Sin embargo, al promediar los resultados de las muestras, los estimadores individual y por hogar proporcionan cifras que son aproximadamente iguales al número verdadero de secuestros (es decir, 5 mil):

> quantile(indiv, c(0.025, 0.975))
 2.5% 97.5% 
    0 40000 
> quantile(hogar, c(0.025, 0.975))
 2.5% 97.5% 
    0 30000
> mean(indiv)
[1] 5028.8
> mean(hogar)
[1] 5037.2

Dicho en términos estadísticos, los estimadores individual y por hogar producen resultados insesgados.

Error de medición y sobreestimación de eventos raros

Ahora supongamos que los habitantes de nuestra población pueden cometer errores a la hora de reportar si ellos mismos u otro integrante del hogar fueron víctimas de secuestro. Esto puede ocurrir, por ejemplo, si los encuestados confunden un robo con extorsión o un secuestro virtual con un secuestro exprés. (No se trata de algo trivial: la Suprema Corte de Justicia se ha pronunciado en casos donde la distinción es difícil. Parece factible asumir que las personas cometan ese tipo de errores.) También supongamos que algunos encuestados que efectivamente fueron víctimas de secuestro prefieren no reportarlo en la encuesta porque creen que sus captores podrían enterarse y tomar represalias.

En general, las encuestas están expuestas a este tipo de errores. Sin embargo, dichos errores normalmente no afectan la calidad de los resultados debido a que tienden a ser aleatorios y a cancelarse entre sí (de manera similar al error muestral).

Desafortunadamente, en el caso de “eventos raros” como el secuestro, puede ocurrir que los errores de medición no se “cancelen”. Como David Hemenway argumenta en una serie de artículos, cuando se pretende estimar eventos raros a través de una encuesta, incluso pequeños errores aleatorios pueden conducir a una sobreestimación de gran magnitud del fenómeno de interés. Supongamos que el porcentaje real o verdadero de personas que fueron víctimas de algún secuestro es 0.2% de la población. Eso significa que en una encuesta de mil entrevista existe la posibilidad de que 998 entrevistados (en promedio) reporten que fueron víctimas de un secuestro cuando en realidad no lo fueron. En contraste, solo 2 entrevistados pueden declarar que no fueron víctimas de secuestro cuando en realidad sí lo fueron. En consecuencia, la gran mayoría de los errores que podrían ocurrir sobre-estimarían considerablemente el número de secuestros. Gavin M. Knight resume muy bien este problema en las encuestas de victimización (“Sources of unavoidable statistical error in victimisation surveys“)

Las ocasiones que he planteado este argumento en relación al secuestro normalmente he recibido dos objeciones. La primera es que las encuestas de victimización del INEGI apuntan a que el número de secuestros es muy grande (alrededor de 100 mil), y por lo tanto, aún cuando existan errores de medición, el número de secuestros seguramente sigue siendo muy grande. La segunda es que, además, los errores de medición no son aleatorios: la probabilidad de que las personas que han sido víctimas de secuestro oculten el delito por temor a represalias debe ser mucho mayor a la probabilidad de que una persona que no fue víctima de secuestro reporte por error que sí lo fue. Dado que es más probable que se oculten episodios de secuestros, las encuestas podrían incluso estar sub-estimándolos.

El ejemplo que hemos desarrollado puede ser útil para responder ambas objeciones. Supongamos que la probabilidad de subreportar un secuestro es 50%; es decir, la mitad de las víctimas no reportarían un secuestro por temor. En contraste supongamos que la probabilidad de sobre-reportar un secuestro, digamos por confundir un un secuestro virtual con un secuestro exprés, es de tan solo 2%. En R:

gen.error   #Convertir a vector (desagregar individuos)
  x   #Falsos positivos
  x[x==0][sample(sum(x==0), size=round(sum(x==0)*falso.positivo))]  0][sample(sum(x> 0), size=round(sum(x> 0)*falso.negativo))]   #Convertir a matriz (agrupar de nuevo en hogares)
  out   return(out)
}
samples.w.error                           falso.positivo=0.02,
                          falso.negativo=0.50)
#Estimadores
indiv.error hogar.error 

Recordemos que el número real de secuestros en nuestra población es 5 mil. ¿Cuál sería el número estimado de secuestros una vez que incluimos el error de medición? ¡102.8 mil!

> mean(indiv.error)
[1] 102807.2
> mean(hogar.error)
[1] 102848

Así pues, bajo este escenario la cifra estimada es 102.8/5=20.6 veces más grande que la cifra real (!). Parecería un contrasentido que si la probabilidad de ocultar un delito es alta (50%), dicho delito sea sobrestimado en las encuestas. Sin embargo, en el caso de eventos raros, la razón es simple: el número de encuestados que pueden reportar erróneamente un secuestro que en realidad no ocurrió es mucho mayor al número de personas que no reportarían un secuestro que sí ocurrió. Nótese que nuestra población ficticia se compone de 10 millones de habitantes; si la población fuera mayor, la sobre-estimación también sería mayor (manteniendo constantes las probabilidades de sub y sobre-reportar).

Algunos especialistas como Andrew Gelman han llamado la atención sobre este problema. David Hemenway popularizó este argumento en una serie de artículos sobre el uso de armas de fuego para defensa propia en Estados Unidos:

Implicaciones

¿Cuántos secuestros existen cada año en nuestro país? A partir de los resultados de la ENVIPE, el INEGI estimó que en 2012 existieron más de 105 mil secuestros en el país. Si consideramos la entrevista que Carlos Puig hizo al titular de Estadística del INEGI, la institución tiene confianza en su estimación de secuestros por las siguientes razones:

  1. Esta cifra se obtuvo con el “estimador de hogar”; la estimación de homicidios se obtuvo de la misma manera y produjo resultados prácticamente iguales a los de los registros oficiales. Por lo tanto, podría deducirse que la cifra de secuestros que proporcionó el INEGI es muy cercana a la real. Como escribió Carlos Puig, “El mismo método, por cierto, lo aplicó a homicidios y la cifra salió muy parecida a los homicidios reportados al SNSP y supongo que eso les dio confianza para dar la cifra de secuestros”.
  2. Además, el INEGI ha medido en años anteriores el mismo fenómeno (aunque usando el “estimador individual”) y obtuvo resultados similares (alrededor de 90 mil secuestros). Al escribir sobre una entrevista que realizó al director de Estadística del INEGI, Carlos Puig señaló: “Me dijeron que llevaban ya dos años aplicando las preguntas y perfeccionando el método sin publicarlo. Ahora están seguros”.
  3. El hecho de que la estimación se tan grande puede deberse a los secuestros exprés. Jaime López Aranda notó que la ENVIPE pregunta al entrevistado si algún integrante del hogar “sufrió un secuestro o secuestro exprés para exigirle dinero o bienes”. En entrevista, “los representantes de ese instituto indican que de haber separado el plagio y el secuestro express, al momento de ‘expandir el dato’ para que se representara a toda una población entre el país, se tendría una cifra pequeña, la cual ‘desaparecería, se pulverizaría’. Así pues, el razonamiento es que la cifra de secuestros de la ENVIPE es alta porque incluye la modalidad de secuestro exprés. Y en efecto, el Director de Estadística del INEGI dijo en entrevista con Carlos Puig que los secuestros exprés representan “más del 80%” de los secuestros.

Como Jaime López Aranda señala en su texto, “ni siquiera las estimaciones más radicales estimaron un problema de estas dimensiones”. En mi opinión, la explicación del secuestro exprés es insatisfactoria por dos razones:

  • Cuando se preguntó a los encuestados si ellos mismos fueron víctimas de este delito (estimador individual), el fraseo de la pregunta en las ENVIPE 2011, 2012 y 2013 únicamente hizo referencia a la palabra “secuestro”, sin hacer alusión al secuestro exprés. Aún así, el número de secuestros se estimó en más de 90 mil. Estas cifras sugieren que al separar “secuestro” de “secuestro exprés” los resultados no “se pulverizan”. (véanse los datos al final del post).
  • Entre los individuos que reportaron que ellos mismos fueron víctima de algún secuestro, alrededor de 50% fue retenido menos de 24 horas por sus captores, y sólo cerca del 30% lo obligaron a “retirar dinero de un cajero, entregar joyas, celular u otras cosas”, características que son comunes en los secuestros exprés. Es decir, el secuestro exprés está lejos de constituir la mayoría o más del 80% de los secuestros contabilizados por la ENVIPE. (véanse los datos al final del post).

Mi intención en el artículo fue ofrecer una hipótesis alternativa: que el número de secuestros estimados con la ENVIPE es alto porque medir eventos raros a través de encuestas puede producir sobre-estimaciones de gran magnitud. Algunos argumentos que son consistentes con esta hipótesis son:

  • El principal problema radica en algunos encuestados pueden reportar erróneamente un secuestro que no existió. Distinguir un robo con extorsión o un secuestro virtual de un secuestro o secuestro exprés puede ser difícil. La sobreestimación del secuestro existiría aún cuando estos errores sean pequeños.
  • Es difícil que ocurran este tipo de errores con otros delitos como el homicidio. El fraseo de la pregunta (“Antes de 2012 en este país (México), ¿a algún integrante de este hogar, le quitaron la vida intencionalmente, es decir, lo mataron a propósito?”) deja menos lugar a dudas sobre la existencia del delito.
  • El hecho de que la cifra de secuestros sea más o menos consistente con las encuestas de los años anteriores no nos dice nada sobre la ausencia de sesgo. Como señala Knight,

“What is more, such over-reporting is just as likely to occur the next time the survey is run, thereby producing similar levels of victimisation and thus reinforcing the belief that the survey is accurately representing the true level of victimisation. Whereas, in fact, we have a systematic error that will reproduce every time, and the survey measuring instrument is powerless to detect this.”

  • La sobre-estimación puede existir aún cuando existe temor a reportar un secuestro (como seguramente ocurre).

Estimación de secuestro a partir de las ENSI y las ENVIPE

ENSI 2009 ENSI 2010 ENVIPE 2011 ENVIPE 2012 ENVIPE 2013 2013 – Hogar
Fraseo de pregunta “Secuestro o secuestro exprés” “Secuestro o secuestro exprés” “Secuestro” “Secuestro” “Secuestro” “Secuestro o secuestro exprés”
Número de secuestros
Estimación 51,049 70,256 114,958 98,826 89,086 105,682
Intervalo de confianza (95%) 24,918-77,179 36,640-103,871 65,772-164,143 63,660-133,991 58,251-119,920 80,569-130,794
Frecuencia simple 34 43 86 81 82 239
Número de víctimas
Estimación 51,049 67,677 88,784 93,262 88,526 94,438
Intervalo de confianza (95%) 24,918-77,179 36,640-103,871 59,020-118,547 60,360-126,163 57,721- 119,330 74,966-113,909
Frecuencia simple 34 41 77 78 80 223

¿Me podría decir si sus secuestradores…? (Frecuencia simple)

ENVIPE 2011 ENVIPE 2012 ENVIPE 2013
exigieron rescate a familiares por su liberación? 35 (37.2%) 35 (43.2%) 32 (39%)
lo obligaron a retirar dinero de un cajero, entregar joyas, celular u otras cosas? 25 (29.1%) 23 (28.4%) 26 (31.7%)
No especificado 5 (5.8%)
No responde 13 (15.1%)
No sabe 11 (12.8%) 23 (28.4%) 24 (29.3%)

¿Cuánto tiempo lo tuvieron secuestrado? (Frecuencia simple)

ENVIPE 2011 ENVIPE 2012 ENVIPE 2013
Menos de 24 horas 42 (48.8%) 43 (51.9) 42 (51.2%)
De 1 a 3 días 15 (17.4%) 13 (16%) 19 (23.2%)
De 4 a 10 días 12 (14.8%) 4 (4.9%)
De 11 a 29 días 1 (1.2%) 4 (4.9%)
De 4 a 29 días 9 (10.5%)
De 1 a 3 meses 1 (1.2%) 2 (2.5%)) 1 (1.2%)
Más de 3 meses 2 (2.3%) 1 (1.2%)
No especificado 2 (2.3%)
No responde 7 (8.1%)
No sabe 8 (9.3%) 11 (13.6%) 11 (13.4%)

3 thoughts on “¿La cifra negra de secuestro puede estar sobre-estimada?

  1. Pingback: ¿Cómo evaluar la Estrategia Nacional Antisecuestro? ‹ CVO NOTICIAS MEXICO

  2. Pingback: ¿Cómo evaluar la Estrategia Nacional Antisecuestro? | Blog Oficial

  3. Pingback: México Evalúa

Leave a Reply