Auditoría Pública nº 75. Revista de los órganos autonómicos de control externo

De manera esquemática, el tratamiento de la infor- mación del Big data se realiza a través del método Ma- pReduce que consta de dos fases: 1. Fase Map en donde se dividen y distribuyen en pa- ralelo los datos en conjuntos más pequeños. 2. Fase Reduce en donde se combinan los resultados obtenidos en la fase Map para obtener un resultado me- diante algoritmos. SMALL-DATA FRENTE AL BIG DATA . (¡BIENVENIDO MISTER MARSHALL!) En diversos foros especializados se da por sentado que la aparición de las técnicas del Big data y su aplica- ción en la auditoría supondrán la supresión inminente del muestreo, de manera equivalente a la película de los Inmortales en la que “sólo puede quedar uno”. El razonamiento, tan simple como equivocado, es que si con el Big data se pueden obtener todos los datos, no tiene sentido que se utilice el muestreo. Es decir, si N es la población y n es la muestra, con el Big data : n N Por tanto, según esta hipótesis, las técnicas estadísti- cas y de muestreo estarían de más. Se aventura a decir, incluso, que con el Big data se encontraran correlaciones que permitirán pronosticar la reacción de cualquier variable a partir de criterios empíricos, sin conocer o pretender conocer las causas del fenómeno, o sea será el fin del método científico. Quizás, en un futuro no muy lejano, los auditores pú- blicos, gracias a algoritmos, podremos, como si de un film de Spielberg se tratara ( Minority Report ), detectar las salvedades y los fraudes antes de que se produzcan, pero de momento creo que eso está en el terreno de la ciencia ficción. Lo que sí que parece evidente es que la aparición e integración del Big data en la fiscalización pública hará que la utilización del muestreo se realice de una manera diferente y más eficiente, pero no desaparecerá. La fiscalización del futuro estará más enfocada a cómo se han introducido los datos, que a los da- tos en sí, es decir: se potenciará más el muestreo por atributos para revisar los controles internos que han servido de base para la introducción de datos a cam- bio de disminuir las pruebas substantivas al ser más susceptibles éstas de ser sustituidas por algoritmos. Veamos en la tabla 1 algunas de las principales diferencias entre el Small data y el Big data . El big data mató a la estrella del muestreo 11 Auditoría Pública nº 75 (2020), pp. 9 - 13 LA APARICIÓN E INTEGRACIÓN DEL BIG DATA EN LA FISCALIZACIÓN PÚBLICA HARÁ QUE LA UTILIZACIÓN DEL MUESTREO SE REALICE DE UNA MANERA DIFE- RENTE Y MÁS EFICIENTE, PERO NO DESAPARECERÁ Tabla 1. Comparación Small data y Big data Small data Big data Características de los datos En el muestreo los datos están estructurados según un esquema probabilístico soportado estadísticamente. Los datos en el Big data se pueden encontrar estructurados, no estructurados, inconsistentes y con posible ruido o distorsión. Esquema El esquema que se sigue es definir primero lo que queremos con- seguir y posteriormente determinamos si lo obtenido se adecúa a lo establecido según el patrón estadístico. El esquema que sigue el BD es, primero recopilar los datos y des- pués se determinan las preguntas que contestan esos datos. Los datos se generan antes incluso de saber incluso qué tipo de información estadística puede extraerse de ellos Recursos utilizados Se intenta optimizar los recursos haciendo la muestra lo más redu- cida posible de acuerdo con el modelo estadístico utilizado Al disponer de la mayoría o todos los datos, es más probable que se detecten nuevas correlaciones entre variables. Hay que tener en cuenta que no todas las correlaciones serán útiles y reales para ello será necesario un proceso de filtrado para eliminar correlaciones espurias 5 . Eficiencia La idea es que modelos simples basados en una gran cantidad de datos pueden resultar más eficientes que modelos muy complejos basados en una cantidad relativamente pequeña de información. (Peter Norving, Google) Los datos obtenidos por muestreo se interpretan según los límites de los niveles de confianza exigidos. Los datos más grandes no siempre son los mejores ya que debe- mos comprender sus propiedades y los límites y pueden dar lugar a malinterpretación de resultados, recopilación de datos basura, etc. Utilización Se diseña para obtener solución a un problema, la utilización en casos diferentes a los que se ha diseñado no siempre es adecuada. La información puede ser reutilizada para temáticas diferentes con di- ferentes niveles de desglose (granulidad de la información obtenida). Correlaciones Las correlaciones obtenidas por muestreo permite encontrar un nú- mero limitado de patrones. Las correlaciones mediante el Big data permite encontrar patro- nes que bajo un enfoque estadístico tradicional sería imposible detectar. El Big data puede contener respuesta a cuestiones que no estaban formuladas cuando se produjo la información. Fuente: Elaboración propia 5 La relación espuria, es la relación matemática que, por la existencia de un factor de confusión, presume la existencia de un vínculo apreciable entre dos factores o datos, cuando, en realidad, resulta inválido cuando se examina objetivamente.