metroscopia, microdatos, links y ya vale

A no ser que tengamos terceras elecciones, dejo descansar esto del analisis de los datos de votación y voy a abrir este ultimo post para ir añadiendo enlaces.

Una novedad ha sido la encuesta… de metroscopía… acerca de los cambios de voto y fidelidades entre diciembre y junio. Creo que si nos pusieramos a hacer simplemente el fit de todo con todo con un ajuste lineal, como he hecho en otros posts, saldria algo parecido.

En las busqueda de explicaciones, Podemos ha realizado su propia encuesta, #‎AnálisisColectivo26J,  entre los circulos pero no añade mucho mas a lo que ya teniamos. No se si en algun momento habra mas documentacion.

Entre las dos elecciones hay pocas fuentes de datos:

  • las del CIS
  • un pulso electoral de Metroscopía en Abril http://metroscopia.org/wp-content/uploads/2016/04/PULSO_ELECTORAL_I_ABR16.zip http://metroscopia.org/recurso/datos-pulso-electoral-i/
  • GESOP ha distribuido la ficha completa de su tracking y un fichero .sav

Las demas, nada. En realidad se pasan por el morro no ya la cuestion de publicar los microdatos, sino la propia ficha y cuestionario. A ver si en la proxima reforma de ley electoral se animan a meter parrafito diciendo que tienen que publicarlo todo y si no, multa por manipulación.

En cuanto al grado de acierto de las encuestas, hay un tweet de picanumeros donde las barras de los intervalos de confianza apuntan a error sistematico. Los blogs de Sin Tapujos y de electomania publican la tabla de resultados, apuntando que al menos hubo un par de compañias regionales que se aproximaron: Infortecnica y Juan Jose Dominguez.  Este último da en la informacion sus estimaciones de flujo de votos entre algunos partidos, coincidente con la de Metroscopia pero con un modelado mucho mas fino de la abstencion.

Un par de graficas más: porcentajes (*) de voto al PP y porcentaje de voto al PSOE, por distritos (y capitales):

Porcentaje de voto al PSOE y a la coalicion Unidos Podemos

Porcentaje de voto a Ciudadanos y a Unidos Podemos. Aqui se ve la victoria del bipartidismo: no llegan a la linea del 50%.

 

*: Excluyendo, Navarra, Álava, Bizkaia, Gipuzkoa, Illes Balears y Las Palmas

sí, aún más estadísticas de las elecciones.

No se si sera este el último post, casi prefiero intentar ir actualizando los anteriores, pero tampoco hasta el nivel de que tengan un contenido completamente distinto del original.

De momento, enlaces. FrayPoll ha sacado en ctx un articulo donde usa y corrige los datos del CIS, conjeturando que las encuestas no juzgaron correctamente la fidelidad del electorado.  Tambien estiman la fidelidad via CIS Moragas y Barbet en el Politikon, que ademas da enlaces a otros articulos. En El Confidencial, Varela tambien invoca al CIS pero para hablar de una abstencion por edades… que, creo, habria sido facil de comprobar si la encuesta a pie de urna se hubiese tomado la molestia de preguntad edad, ¿no?. En cualquier caso, una abstencion promedio unida a una mayor movilizacion en los lugares con alta densidad de Podemos tambien justificaria los datos que se andan mostrando, creo yo, asi que esa idea de que la abstencion no era realmente “activa” se puede considerar.

Sobre su acierto en las del 20D, los de GAD3 llevaron una presentacion al congreso de la federacion española de sociologia.

Por mi parte de momento os dejo con un gist con los datos de la votacion en json y un ejemplo de como leerlos, procesarlos y hacer graficas con ellos en python. Con ese gist se puede por ejemplo volver a plotear el grafico de porcentaje de votos del 2015 a podemos e iu pero con todos los distristos. Sale algo asi, donde ahora he puesto en la vertical el porcentaje a IU, y la linea es el ajuste a minimos cuadrados considerando el peso. El tamaño del circulo es proporcional a la suma de votos (no porcentaje, sino voto total) a ambos partidos.

El comportamiento no es exactamente como el que vimos representando solo provincias, pero es tambien interesante: pareciera que en los distritos de pocos votos hay una proporcion entre iu/podemos que se satura a medida que va creciendo el tamaño y quizas activandose el voto util, aunque no en los distritos mas grandes, donde vuelve a incrementarse el peso relativo de iu. En cualquier caso se entiende que en diciembre se percibiera una correlacion positiva -algo que ocurre pocas veces y menos aun fuera del nivel regional- que invitaba a intentar la coalicion.

(zoom de la misma imagen)

 

votos, modelos y bolsos

Consideremos el modelo mas simple de voto prestado entre dos partidos: una bolsa de votos A, que vota unicamente a P, y una bolsa de votos C que por las razones que sea ha repartido su voto entre su partido tradicional, U, y la propuesta P.

dos-bolsas

Ahora en la repeticion de las elecciones los dos partidos se unen formando la coalicion Q. ¿Podemos medir como reaccionan ambas bolsas de votantes? Pues no del todo.  A fin de cuentas solo conocemos el resultado (P, U) y no el tamaño de los bolsos iniciales.

Si planteamos un modelo lineal, sabemos que A = P + U – C. Por tanto el nuevo voto

Q = j A + l C

lo podemos reescribir tambien como

Q = j (P + U – C) + l C  = j P  + j U +  ( l-j) C

o como

Q = j A + l (P+U-A) = l P + l U + ( j-l) A

Y en ambos casos el coeficiente de P y el de U son iguales.

Ademas necesitamos al menos otra fuente de datos que nos permita eliminar una variable, C u A, y dejar todo como una expresion lineal de variables para las que tengamos alguna medida.  Lo mas sencillo, si asumimos que C iba exclusivamente a U en elecciones pasadas, es buscar un sondeo o eleccion anterior, S, y asumir que el tamaño de C es proporcional a los datos de ese sondeo o eleccion anterior, digamos αS. Con ello, bien aplicando C=αS en la primera formula, bien A=P+U-αS en la segunda, llegariamos a

Q =  j P + j U +  α(l-j) S

y podemos intentar un ajuste lineal, usando la funcion LINEST() de Libreoffice u Excel. Claso esta, si el ajuste da coeficientes diferentes para P y para U, significa que alguna de las hipotesis de partida esta equivocada: o bien la eleccion del sondeo S, o bien la inicial del prestamo de votos desde una unica bolsa C; podria haber mas sensibilidades.

Por ejemplo, tomando como sondeo el porcentaje voto a IU en las elecciones del 2011, y P, U los porcentajes de votos a Podemos e IU en el 20D, un ajuste sobre treinta y cuatro provincias -las azules del post anterior mas canarias y cordoba- sugiere

Q = 0.77 P + 0.67 U + 0.19 S

con un error en estos coeficientes de 0.02,0.14 y 0.09 de manera que la diferencia entre los coeficientes de P y de U esta dentro del error, pero solo gracias a que este es bastante grande. Por otro lado si el modelo fuera admisible, tendriamos α(l-j) = 0.19 > 0 y por tanto mayores perdidas porcentuales en la bolsa C que en la A, pero la diferencia real dependeria de cual es la relacion α entre  el sondeo S y el tamaño de C. Si asumimos que desde el 2011 la bolsa de IU habia crecido un factor 1.5, la diferencia seria 0.19/1.5.  Y ademas hay que considerar tamaños absolutos: si las bolsas A y C eran muy diferentes, la perdida de votos puede ser mayor en porcentaje en C pero mayor en votos en A.

Esta cuestion del absoluto vs relativo nos recuerda que, ademas de la excesiva simplicidad del modelo, hay que tener en cuenta los efectos de peso que se producen al muestrear por provincias, de forma que en realidad acabamos dando mucho peso en el ajuste a regiones con menor poblacion. Sociologos habrá que de ello entenderán. Quizas convenga usar numero de votantes en vez de su porcentaje. Y por supuesto el modelo puede no ser el mismo en todo el territorio. En el ejemplo de arriba ya estamos usando solo provincias “no regionalistas” y que hayan tenido voto separado para IU y Pod en el 20D.  Si ademas descartamos Canarias, que es tambien un outlier del post anterior, obtenemos

Q= (0.82± 0.03) P + (0.57± 0.14) U + (0.16± 0.08) S

Anunciando que algo va mal con la idea de las dos bolsas. Si  ademas descartamos Cordoba, los coeficientes de P y U quedan definitivamente disparejos:

Q= (0.86± 0.03) P + (0.35± 0.14 U) + (0.20± 0.08) S

Aplicando la misma idea a las provincias con mayor porcentaje total de votos la situacion es diferente; recordad que estas no forman una nube sino una antidiagonal en el plano Pod/IU del 20D, pero cada una tuvo porcentajes de perdida muy dispares.  En este caso lo que ocurre es que el coeficiente de P se acerca a 1 con un error bajo, pero el de U adquiere un error que lo hace inmedible, 0.77± 0.66, y similarmente el de S, -.34± 0.44. Con mucha fe podria considerarse que la antidiagonal si que admite el modelo de dos bolsas y es compatible, dado el signo negativo en el coeficiente de S, con una abstencion ligeramente mayor, en coeficiente, en la bolsa C, pero hay que ignorar  unos errores de tamaño de ruedas de molino. Os recuerdo la variacion del voto, Q-P-U, que hubo en cada provincia:

El siguiente modelo que se me ocurre es pensar no en dos sino en tres posibles comportamientos:

  • una izquierda no confluyente, u “ortodoxa”, que constituye la bolsa C
  • un votante “transversal”, que constituye la bolsa A, y
  • una “izquierda confluyente” que forma una tercera bolsa B, y que en las elecciones del 20D habria repartido su voto entre Podemos e IU en una razon de 1.8:1

tres-bolsas

Seguramente, aunque no necesariamente, el votante confluyente habra ido a las elecciones de junio con un coeficiente k proximo a 1. En el siguiente post veré si esta idea permite un mejor ajuste a los datos.

(lo de la relacion 1.8  a 1 es por la pendiente que se ve en la grafica del post anterior.  Por supuesto tambien se podria dejar ese parametro libre, pero a ver como lo medimos entonces)

 

 

Podemos e IU en las Generales 2015

El grafico muestra para cada provincia el porcentaje de voto a IU, en la coordenada horizontal, y el porcentaje de voto a Podemos en la coordenada vertical.

La dispersion del voto no es simplemente una campana eliptica alrededor del voto medio a ambos partidos, sino que parece estar estirada a lo largo de una linea de pendiente 1.8. Esto indicaria que en los casos en los que no habia confluencia sí que habia una bolsa de votantes partidaria de ambos partidos, y que tendia a distribuirse en una proporcion de 1.8 votos a podemos por cada voto a IU. Sobre esta bolsa de “confluyentes” tendriamos las bolsas que votan exclusivamente a uno u otro partido, podriamos llamarlas de “transversales” y “comunistas”.  Aunque en el caso de cordoba igual son “julioAnguitistas”

Podemos e Izquierda Unida 20D

Existe no obstante otra interpretacion de la grafica: que por un lado hay una bolsa “confluente”, en efecto, pero mas pequeña de lo que parece y que Sevilla, Madrid Zaragoza Cadiz y Malaga  formarian parte de una linea “anticorrelacionada”, donde lo que pierde un partido lo gana el otro.  Como interpretacion tiene la ventaja de que no necesita motivar los outliers, pero aun asi tendria que explicar cómo se decide si una provincia va en la linea correlacionada o en la anti.  Conviene fijarse en que los outliers de fuera de la nube pueden explicarse via distinto sentimiento nacional, como hace Sanchez-Cuenca en la segunda gráfica de su articulo de infolibre.

Por cierto que la correlacion que vemos hace dificil aceptar la afirmacion de S-C de que en su primera grafica, “si en el eje horizontal representamos el porcentaje de voto a Podemos en 2015, no se aprecia relación alguna.” Me inclino a pensar que lo que ha ocurrido es que a pesar de detectarlas en su segunda grafica, no ha descartado las provincias “pro-descentralizacion”  en las correlaciones de la primera. Eso causa cierto artefacto en el calculo, y es necesario representarlo todo visualmente para apreciar que hay correlacion tanto si pintamos en el eje horizontal el porcentaje a IU como si pintamos el porcentaje a IU.  He aqui los dos casos:

Las provincias “resistentes” es cierto que estan fuera de la linea de correlacion al pintar respecto a podemos, pero eso no implica descartar correlacion de las restantes. De hecho, se obtienen tambien buenos ajustes cuando se opta por “ni pa ti ni pa mi” y se pinta respecto a alguna rotacion intermedia del eje. Si en la grafica inicial ponemos en cada provincia el porcentaje perdido, se aprecia que simplemente pierde mas el que tiene mas porcentaje a perder.

No parece pues sencillo extraer conclusiones sobre qué bolsas han perdido más votos. ¿Existe otro camino? Bueno, si hubieramos tenido solo dos bolsas inciales, una por partido, podriamos haber pensado en ajustar a un modelo lineal,  UniPod2016 = f ( IU2015, Pod2015). Las hojas de calculo traen una funcion para ello, LINEST(). De hecho lo intenté, y daba distintos coeficientes al ajustar los datos de comunidades y al ajustar los datos de provincias; en el primer caso daba menor peso al coeficiente de Podemos, lo que me llevó precipitadamente a anunciar que era este grupo el que habia tenido mayor abstencion de votantes. Pero en el segundo caso daba ligeramente menor, aunque dentro del error, el coeficiente de IU, dejandolo practicamente en empate. Podria afinarse el asunto yendo a distritos y haciendo un muestreo mejorado, pero no merece la pena si ya falla de partida la hipotesis del numero de bolsas de votantes.

Otra posibilidad, una vez con los datos de de distritos a mano, seria plantear modelos mas grandes incluyendo otros partidos y por tanto mas coeficientes. Pero me da a mi que ahi hacen falta ya consultores profesionales… aunque vete a saber, igual la internet nos sorprende con algun estudio detallado antes de las siguientes elecciones.


Postscript: ha salido un articulo en Electomania que hace mas o menos el mismo estudio que Sanchez-Cuenca pero refiriendose en los niveles de la horizontal al porcentaje de mezcla IU-Pod… el cero seria una provincia con voto dominante en diciembre a Pod, el 100% seria una provincia con voto dominante en diciembre a IU.

El ajuste se entiende mejor que el de SC, y ¡da las tablas! Bien por ello. La objeccion a su resultado es la misma: depende de las provincias regionalistas, en particular de incorporar Pais Vasco y Navarra en igual peso que el resto. Ademas, el original no considera Més como parte de la coalicion balear (lo he incluido). No obstante, si corregimos esos outliers, todavia podria usarse el resto para arguir que la linea de abstencion a lo largo de la mezcla iria entre el 17% y el 38%. La pauta se mantiene al añadir todos los distritos de cada provincia, y la pendiente no se hace mayor porque de alguna manera la abstencion toca techo, no supera el 30% independientemente de la mezcla.

(Aqui pintamos todos los distritos con mas de diez votos a la suma iu+podemos. La linea roja azul es el ajuste de minimos cuadrados, los puntos rojos corresponden a promediar la “perdida” para todos los distritos en el entorno de un valor dado de la “densidad”).  Me quedo pensando si lo que ocurre es más bien que tenemos una abstencion del 20% en general y que era mas facil de vencer en sitios donde no habia conflictos de posturas.

votacion sin CERA

Ha armado una pequeña confusión la web de las elecciones generales porque a fecha de hoy esta comparando el 100% escrutado en urnas con el total del 2015, urnas + voto CERA (Censo de Españoles Residentes… ¿Afuera?). No es mucha diferencia porque aunque hay censados casi dos millones las normas de voto rogado hacen que solo participen el 4.5%. De hecho en lo que mas se nota es en el calculo de la abstencion, segun sumes o no a estos residentes, como ha explicado kikollan y paolo.  Pero de todas formas noventa mil votos algo hacen, y parece que seria mas logico o bien esperar una semana a que sumen el CERA y la JEC lo proclame, o bien comparar los resultados “provisionales 100%” de 2015 y 2016, aprovechando que aun estan en la web.

De hecho, voy a copiarlos aqui en prevision de que con el lio que se ha armado lo actualizen y nos quedemos sin el dato.  Esta sería la tabla de partidos con mas de 5000 votos

Elecciones del 2015 Elecciones del   2016
             
PARTIDO POPULAR 7.215.752(28,72%) 123 PP 7.906.185 33,03% 137
PARTIDO SOCIALISTA OBRERO ESPAÑOL 5.530.779(22,01%) 90 PSOE 5.424.709 22,66% 85
PODEMOS 3.182.082(12,67%) 42 PODEMOS-IU-EQUO 3.201.170 13,37% 45
CIUDADANOS-PARTIDO DE LA CIUDADANÍA 3.500.541(13,93%) 40 C’s 3.123.769 13,05% 32
EN COMÚ PODEM 927.940(3,69%) 12 ECP 848.526 3,55% 12
COMPROMÍS-PODEMOS-ÉS EL MOMENT 671.071(2,67%) 9 PODEMOS-COMPROMÍS-EUPV 655.895 2,74% 9
ESQUERRA REPUBLICANA DE CATALUNYA-CATALUNYA SÍ 599.289(2,39%) 9 ERC-CATSÍ 629.294 2,63% 9
DEMOCRÀCIA I LLIBERTAT. CONVERGÈNCIA. DEMÒCRATES. REAGRUPAMENT 565.501(2,25%) 8 CDC 481.839 2,01% 8
EN MAREA 408.370(1,63%) 6 PODEMOS-EN MAREA-ANOVA-EU 344.143 1,44% 5
EUZKO ALDERDI JELTZALEA-PARTIDO NACIONALISTA VASCO 301.585(1,20%) 6 EAJ-PNV 286.215 1,20% 5
UNIDAD POPULAR: IZQUIERDA UNIDA, UNIDAD POPULAR EN COMÚN 923.133(3,67%) 2        
EUSKAL HERRIA BILDU 218.467(0,87%) 2 EH Bildu 184.092 0,77% 2
COALICIÓN CANARIA – PARTIDO NACIONALISTA CANARIO 81.750(0,33%) 1 CCa-PNC 78.08 0,33% 1
PARTIDO ANIMALISTA CONTRA EL MALTRATO ANIMAL 219.191(0,87%) 0 PACMA 284.848 1,19%  
UNIÓN PROGRESO Y DEMOCRACIA 153.505(0,61%) 0 UPyD 50.282 0,21%  
NÓS-CANDIDATURA GALEGA (BNG-CG-FOGA-PCPG-PG) 70.464(0,28%) 0 BNG-NÓS 44.902 0,19%  
UNIÓ DEMOCRÀTICA DE CATALUNYA 64.726(0,26%) 0        
VOX 57.753(0,23%) 0 VOX 46.781 0,20%  
RECORTES CERO-GRUPO VERDE 48.222(0,19%) 0 RECORTES CERO-GRUPO VERDE 51.742 0,22%  
MÉS 33.931(0,14%) 0        
PARTIDO COMUNISTA DE LOS PUEBLOS DE ESPAÑA 30.897(0,12%) 0 PCPE 26.553 0,11%  
GEROA BAI 30.554(0,12%) 0 GBAI 14.289 0,06%  
EL PI – PROPOSTA PER LES ILLES 12.902(0,05%) 0 SI 7.413 0,03%  
CIUDADANOS DE CENTRO DEMOCRÁTICO 10.805(0,04%) 0 CCD + CCD-CI 6.264+2.668 0,04%  
ESCAÑOS EN BLANCO 10.060(0,04%) 0 EB 12.024 0,05%  
FALANGE ESPAÑOLA DE LAS J.O.N.S. 7.594(0,03%) 0 FE de las JONS + FE 9.862 + 254 0,04%  
X LA IZQUIERDA-LOS VERDES 7.342(0,03%) 0        
SOM VALENCIANS 6.084(0,02%) 0 SOMVAL 6.612 0,03%  

Y esta seria la tabla para comparar los “100% escrutados” de ambas elecciones

 

del   2015 Elecciones del   2016
             
7215752 28.72% 123 PP 7906185 33.03% 137
5530779 22.01% 90 PSOE 5424709 22.66% 85
4139146 16.48% 44 PODEMOS-IU-EQUO 3201170 13.37% 45
3500541 13.93% 40 C’s 3123769 13.05% 32
927940 3.69% 12 ECP 848526 3.55% 12
671071 2.67% 9 PODEMOS-COMPROMÍS-EUPV 655895 2.74% 9
599289 2.39% 9 ERC-CATSÍ 629294 2.63% 9
565501 2.25% 8 CDC 481839 2.01% 8
408370 1.63% 6 POD-EN MAREA-ANOVA-EU 344143 1.44% 5
301585 1.20% 6 EAJ-PNV 286215 1.20% 5
218467 0.87% 2 EH Bildu 184092 0.77% 2
81750 0.33% 1 CCa-PNC 78080 0.33% 1
219191 0.87% 0 PACMA 284848 1.19%  
153505 0.61% 0 UPyD 50282 0.21%  
70464 0.28% 0 BNG-NÓS 44902 0.19%  
64726 0.26% 0 UNIÓ 0 0.00%  
57753 0.23% 0 VOX 46781 0.20%  
48222 0.19% 0 RECORTES CERO-GRUPO VERDE 51742 0.22%  
30897 0.12% 0 PCPE 26553 0.11%  
30554 0.12% 0 GBAI 14289 0.06%  
12902 0.05% 0 SI 7413 0.03%  
10805 0.04% 0 CCD + CCD-CI 8932 0.04%  
10060 0.04% 0 EB 12024 0.05%  
7594 0.03% 0 FE de las JONS + FE 10116 0.04%  
7342 0.03% 0 X LA IZQUIERDA-LOS VERDES 0    
6084 0.02% 0 SOMVAL 6612 0.03%  
24890290 suma 23728411
25350447 73.20% votantes 24161083 68.84%
226997 0.90% nulos 225888 0.93%
187771 0.75% blancos 178521 0.75%