Durante quince años midiendo el impacto de programas sociales en México, he llegado a una conclusión que incomoda a muchos: la medición de impacto real requiere un nivel de rigor estadístico que muy pocas organizaciones están dispuestas a asumir. No porque sea imposible, sino porque demanda expertises múltiples en una sola persona o equipo, y porque sus resultados muchas veces contradicen las narrativas optimistas que todos queremos escuchar.
La medición de impacto no es simplemente contar beneficiarios o documentar actividades. Es la estimación cuantitativa rigurosa del cambio causalmente atribuible a una intervención específica en una población definida, medido a través de la tasa de cambio diferencial entre grupos de tratamiento y control. Esta definición, aparentemente simple, esconde una complejidad metodológica que requiere dominar simultáneamente teoría estadística, diseño experimental, análisis demográfico, y conocimiento profundo del contexto social mexicano.
La metodología que he usado a lo largo de estos años se centra en el concepto de poblaciones relacionadas – grupos demográficamente y socialmente similares que permiten comparaciones causalmente válidas. En lugar de medir solo al grupo beneficiario, construyo diseños experimentales que capturan la tasa de cambio natural de atributos específicos (ingresos, cohesión social, capital humano) en poblaciones no intervenidas y la comparo con la tasa de cambio observada de esos mismos atributos en poblaciones que reciben la intervención.
La medición de tasas de cambio de atributos se calcula tomando el valor de una variable específica (educación, ingresos, cohesión social) en una población en un punto temporal determinado y restando el valor de esa misma variable en la misma población en un tiempo anterior. Debido a que el cambio absoluto puede variar según la magnitud base del atributo, también calculamos el cambio porcentual para permitir comparaciones entre poblaciones con diferentes niveles iniciales.
Esta metodología se basa en principios demográficos aplicados a tasas de cambio de atributos específicos en calidad de vida y cohesión social. Por ejemplo, en un proyecto reciente evalué un programa de desarrollo comunitario en localidades rurales de Michoacán. En lugar de simplemente medir «satisfacción de beneficiarios,» construí un diseño cuasi-experimental con tres poblaciones relacionadas: comunidades que recibieron el programa completo, comunidades que recibieron solo componentes específicos, y comunidades demográficamente similares sin intervención.
La tasa de cambio en cohesión social la medí usando una adaptación del índice de Sampson, calculando la diferencia en puntuaciones del índice entre tiempo inicial y final, dividida por el tiempo transcurrido. El índice incluye cinco dimensiones: disposición a ayudarse mutuamente, confianza interpersonal, capacidad de resolver conflictos colectivamente, valores compartidos, y percepción de comunidad unida. La escala pidió a los participantes calificar en una escala de uno (totalmente en desacuerdo) a cinco (totalmente de acuerdo) qué tan fuertemente sentían que las personas en su comunidad están dispuestas a ayudarse mutuamente, pueden confiar entre sí, se llevan bien, comparten los mismos valores, y si creen que su comunidad está unida.
Aquí llego al primer gran obstáculo que enfrentan quienes quieren hacer medición de impacto seria: requiere ser simultáneamente estadístico, demógrafo, antropólogo, economista y conocedor profundo del contexto local. No es una exageración. Para diseñar un estudio riguroso necesitas dominar análisis de regresión multivariada para controlar variables confusoras, técnicas de emparejamiento estadístico para crear grupos comparables, análisis de series de tiempo para establecer tendencias base, métodos de muestreo estratificado para garantizar representatividad, y pruebas de significancia estadística para validar tus hallazgos.
Pero también necesitas entender las dinámicas sociales específicas de las comunidades mexicanas donde trabajas. ¿Cómo funcionan las redes de reciprocidad? ¿Qué significa «progreso» para una familia campesina versus una familia urbana? ¿Cómo se toman las decisiones colectivas? ¿Qué eventos externos (migración, cambios climáticos, programas gubernamentales) pueden estar afectando tus resultados?
Un ejemplo concreto: estaba evaluando un programa de microcréditos para mujeres en comunidades rurales de Puebla. Los indicadores financieros mostraban «éxito»: 85% de recuperación de cartera, incremento promedio del 40% en ingresos familiares. Pero cuando apliqué análisis de regresión con variables instrumentales descubrí que el 60% del incremento en ingresos se debía a la migración de hijos varones a Estados Unidos, no al programa de microcréditos. Sin el conocimiento antropológico del contexto migratorio de la región, habría atribuido erróneamente el impacto al programa.
Las evaluaciones aleatorizadas son particularmente adecuadas para evaluar cómo funciona un programa social en un entorno del mundo real. Un enfoque importante se centra frecuentemente en el comportamiento humano y las respuestas de los participantes a la implementación del programa. La implementación de ensayos controlados aleatorizados (RCTs) en contextos sociales mexicanos presenta desafíos únicos que raramente se discuten en la literatura académica. Primero, el consentimiento ético informado debe negociarse no solo con individuos, sino con estructuras de autoridad comunitaria tradicional. Segundo, la aleatorización debe considerar redes sociales complejas donde la contaminación entre grupos de tratamiento y control es prácticamente inevitable.
He desarrollado una metodología de aleatorización por conglomerados estratificados que respeta las estructuras sociales existentes mientras mantiene rigor estadístico. En lugar de aleatorizar individuos, aleatorizo unidades sociales cohesivas (como grupos de trabajo agrícola o redes de compadrazgo) y utilizo técnicas de análisis multinivel para separar efectos individuales, grupales y comunitarios.
La validez externa – la capacidad de generalizar resultados – requiere un análisis cuidadoso de las características demográficas de tu muestra versus la población objetivo. Utilizo análisis de componentes principales para identificar las dimensiones más importantes de variación en mi población, y después construyo pesos de post-estratificación para ajustar mis estimaciones y hacerlas representativas de la población más amplia.
La relación entre cohesión social y salud ha sido estudiada durante décadas. Sin embargo, debido a la naturaleza contextual de este concepto, medir la cohesión social sigue siendo desafiante. Uno de los aspectos más técnicamente demandantes de mi trabajo es la cuantificación de cohesión social. A diferencia de ingresos o educación, la cohesión social es un constructo latente que no se puede observar directamente. Requiere técnicas de análisis factorial confirmatorio para validar que tus indicadores realmente están midiendo el concepto teórico que pretendas medir.
He desarrollado un Índice de Cohesión Social Comunitaria (ICSC) que combina medidas objetivas (participación en organizaciones locales, tiempo dedicado a actividades colectivas, frecuencia de intercambios de ayuda mutua) con medidas subjetivas (confianza en vecinos, sentido de pertenencia, disposición a cooperar en proyectos comunitarios).
La construcción del índice utiliza análisis factorial exploratorio seguido de análisis factorial confirmatorio. El índice comparativo de ajuste (CFI) y el índice Tucker-Lewis (TLI) están ambos por encima de 0.9 indicando un ajuste muy cercano del modelo. El coeficiente de determinación (CD) de 0.99 indica un ajuste excepcionalmente bueno.
Para validar que el ICSC realmente captura cambios significativos, lo correlaciono con indicadores comportamentales objetivos: tiempo de respuesta colectiva ante emergencias comunitarias, tasas de participación en proyectos de infraestructura comunitaria, número de conflictos resueltos internamente versus externamente, y tasas de migración (como indicador inverso de arraigo comunitario).
La ventaja de enfocar la medición en tasas de cambio de atributos específicos en poblaciones relacionadas es que permite detectar efectos que serían invisibles en análisis individuales. El impacto poblacional es un criterio que puede mejorar las prácticas de prevención y proporcionar una base sólida para integrar políticas y programas de prevención. Sin embargo, para cuantificar el impacto poblacional de programas en atributos específicos se necesita una medida estadística rigurosa.
Por ejemplo, en mi evaluación de un programa de desarrollo juvenil, el análisis individual mostraba efectos modestos: 15% de mejora en aprovechamiento escolar, 20% de reducción en comportamientos de riesgo. Pero el análisis de tasas de cambio de atributos poblacionales reveló algo mucho más significativo: cambio en la tasa de migración juvenil de la comunidad. Antes del programa, la tasa de migración anual de jóvenes de 16-18 años era de 35%. Después del programa, la tasa bajó a 18% – una tasa de cambio del atributo migración de -48.6% anual. Este cambio en un atributo específico de la población tiene implicaciones enormes para la sustentabilidad demográfica de las comunidades rurales.
La metodología utiliza modelos de supervivencia para analizar el tiempo hasta eventos específicos (migración, abandono escolar, formación de familia), análisis de cohortes para seguir la evolución de atributos específicos en grupos demográficos a través del tiempo, y técnicas de análisis longitudinal para separar efectos de período, edad y cohorte en las tasas de cambio de diferentes variables.
Los desafíos técnicos específicos del contexto mexicano incluyen heterogeneidad poblacional extrema que hace que los promedios nacionales sean prácticamente inútiles. He desarrollado técnicas de estratificación multidimensional que consideran simultáneamente etnicidad, nivel socioeconómico, ubicación geográfica, y estructura familiar. La migracióncomo variable confusora crea sesgo de selección constante en cualquier estudio longitudinal. Utilizo modelos de corrección de sesgo de selección de Heckman y técnicas de imputación múltiple para manejar datos faltantes por migración.
La estacionalidad económica y social en patrones agrícolas y de migración temporal crean variación sistemática que debe controlarse estadísticamente. Implemento análisis de series de tiempo con componentes estacionales y modelos de efectos fijos temporales. Las instituciones informales como redes de compadrazgo, mayordomías, y sistemas de cargos comunitarios crean estructuras de dependencia que violan los supuestos de independencia de muchos modelos estadísticos. Uso modelos jerárquicos lineales y análisis de redes sociales para modelar estas dependencias explícitamente.
Los beneficios únicos de medir tasas de cambio de atributos en poblaciones relacionadas
Esta metodología permite detección de efectos de equilibrio general que son invisibles en análisis individuales. Muchos programas sociales tienen efectos que solo son visibles cuando analizas cómo cambian atributos específicos a nivel poblacional. Por ejemplo, un programa de capacitación laboral puede no beneficiar a beneficiarios individuales si simplemente reordena quién obtiene empleos existentes, pero sí puede aumentar la tasa de cambio del atributo «empleo formal» de la comunidad si atrae nuevas empresas.
En comunidades rurales mexicanas, los cambios en atributos como migración juvenil, participación educativa, o cohesión social son frecuentemente los factores determinantes de viabilidad a largo plazo. Poder medir tasas de cambio de estos atributos específicos permite evaluar si un programa realmente está contribuyendo a la sustentabilidad comunitaria. Los cambios en atributos de redes sociales y capital social comunitario crean efectos que se extienden más allá de beneficiarios directos. La metodología de poblaciones relacionadas permite capturar estos efectos de derrame en atributos específicos que son invisibles en evaluaciones individuales.
Muchos programas asumen que cambios individuales se agregarán en cambios comunitarios de ciertos atributos. La medición de tasas de cambio en poblaciones relacionadas permite probar empíricamente si esta agregación realmente ocurre o si existen efectos emergentes a nivel comunitario en atributos específicos que no se predicen de los cambios individuales.
Utilizo software especializado como R para análisis estadísticos complejos, Mplus para modelos de ecuaciones estructurales, HLM para análisis multinivel, y STATA para econometría. Pero más importante que el software es entender los supuestos de cada técnica y cuándo son violados. Las técnicas de validación incluyen validación cruzada k-fold para probar robustez de modelos, análisis de sensibilidad para probar qué tan dependientes son los resultados de supuestos específicos, pruebas de especificación para detectar variables omitidas importantes.
Para manejo de datos faltantes uso análisis de patrones de datos faltantes para determinar si son aleatorios, imputación múltiple usando algoritmos MICE, modelos de máxima verosimilitud con información completa cuando los datos faltantes son estructuralmente informativos. Para estimación causal utilizo variables instrumentales cuando la aleatorización no es posible, regresión discontinua cuando hay umbrales arbitrarios de elegibilidad, difference-in-differences para aprovechar variación temporal natural.
Frecuentemente me preguntan sobre la relación entre medición de impacto y marcos ESG. Mi perspectiva es que ESG puede ser un paso previo útil para organizaciones que están empezando a sistematizar su aproximación a temas sociales, pero es fundamentalmente insuficiente para medición de impacto rigurosa. ESG se enfoca en prácticas y políticas(¿tienes programas de diversidad? ¿mides tu huella de carbono?), mientras que medición de impacto se enfoca en cambios causalmente atribuibles en la vida de las personas. Son objetivos complementarios pero diferentes.
Un reporte ESG excelente puede coexistir con impacto social cero, y viceversa. He visto empresas con puntuaciones ESG mediocres que están generando cambios transformadores en sus comunidades, y empresas con reportes ESG hermosos que no pueden demostrar ningún impacto real. La medición de impacto rigurosa requiere hipótesis específicas sobre mecanismos causales, diseños experimentales o cuasi-experimentales, y seguimiento longitudinal de resultados. ESG puede informar qué medir, pero no cómo medirlo rigurosamente.
El futuro: integración y decisiones cruciales
Estoy convencido de que el futuro de la medición de impacto está en la integración de múltiples tradiciones metodológicas. Necesitamos combinar el rigor estadístico de la econometría, la validez ecológica de la antropología, la precisión de medición de la psicometría, y el conocimiento contextual de la sociología mexicana.
Las nuevas fuentes de datos incluyen datos de telefonía móvil para medir movilidad y redes sociales, imágenes satelitales para cambios en uso de suelo y actividad económica, redes sociales digitales para análisis de sentimientos comunitarios, registros administrativos para validación objetiva de auto-reportes. Las técnicas analíticas emergentes incorporan machine learning para identificar patrones complejos en datos multidimensionales, análisis de redes para modelar difusión de efectos a través de estructuras sociales, análisis espacial para entender efectos geográficos, modelos de simulación para probar sensibilidad de resultados a diferentes supuestos.
La complejidad de la medición de impacto requiere equipos que combinen expertises complementarias. Necesitamos estadísticos que entiendan contexto social, antropólogos que manejen análisis cuantitativo, economistas que consideren factores culturales, y sociólogos que dominen técnicas experimentales.
Al final, cada organización enfrenta una decisión fundamental: ¿quiere realmente saber si está generando impacto o solo quiere documentar actividades de manera convincente? Medir impacto real cuesta más, toma más tiempo, requiere expertise técnica, y frecuentemente produce resultados incómodos. Pero también permite optimización basada en evidencia, mejora continua real, y contribuciones sociales genuinamente transformadoras.
La alternativa – medición cosmética – es más barata y produce reportes más bonitos, pero desperdicia recursos sociales escasos en intervenciones que pueden no estar funcionando. Después de quince años midiendo impacto en México, puedo asegurar que las organizaciones que invierten en medición rigurosa terminan generando más impacto social por peso invertido que las que se conforman con métricas superficiales. No porque la medición en sí genere impacto, sino porque permite aprendizaje adaptativo basado en evidencia real.
La pregunta no es si puedes permitirte medir impacto rigurosamente. La pregunta es si puedes permitirte seguir operando sin saber realmente qué efectos estás causando en las vidas de las personas que dices querer ayudar.
Conoce más de medición de impacto aquí
Dr Roberto Carvallo Escobar
Director de Terraética