Auditoría Pública nº 76. Revista de los órganos autonómicos de control externo
La transformación digital no será televisada: el Big Data en la Auditoría Pública 57 Auditoría Pública nº 76 (2020), pp. 51 - 64 En esta fase se detectan la presencia de información redundante, variables o rangos que acumulan la infor- mación más relevante o la existencia de valores atípi- cos (outliers) mediante gráficos de dispersión como el de caja-bigote. Si fuera necesario, hay que definir una política de imputación la información faltante o valores perdidos ( missing ). A diferencia de otras disciplinas, los outliers y los missing son una fuente de gran utilidad en auditoría dado que pueden indicar disfuncionalidades, fraudes o nuevas categorías de datos. También los datos erróneos o aparentemente irrelevantes tienen importan- cia cualitativa y es necesario definir una política para su tratamiento. La utilización de software exploratorio va a requerir la definición de las características de cada variable: • Rango de los valores : continuos, discretas o bi- narios. • Atributos : numéricos, lógicos (v/false), categó- ricos (bajo, medio, alto), ordenados… • Escala variables : nominal, ordinal o por inter- valos. Fase de transformación de datos En esta fase se emplean distintas técnicas de combi- nación, transformación y preparación de los datos en función de los objetivos planteados. Las soluciones de software disponibles permiten realizar las transforma- ciones sin alterar las fuentes originales de datos y que el proceso sea replicable para fuentes similares. También la transformación va dirigida a reducir el coste compu- tacional de los procesos: su velocidad, almacenamiento o compresión, hay dos técnicas generalizadas: • Reducir la dimensión del número de atributos o del número de casos que tenemos, es decir, encontrar un subconjunto de los atributos origi- nales que permita obtener modelos de la misma calidad que los que se obtendrían utilizando to- dos los atributos. • Categorizar las variables con distintas técnicas: agrupar o valores de un atributo en dos o más conjuntos distintos, agrupar las menos frecuen- tes bajo una etiqueta, discretizar variables que son contínuas (binnig), crear variables dum- mies, ... En fuentes de datos estructuradas hay que manejar con soltura funciones Query que nos permitan unir ta- blas, agrupar, seleccionar, establecer jerarquías de varia- bles, extraer toda la información de registros de fechas (datastamp), etc… Finalmente, con las técnicas de ETL es necesario apoyarse en sistemas de visualización que presenten los datos sin simplificaciones y permita el recorrido explo- ratorio permanente en un contexto “All data, All Time”. disponibles, se recolectan estadísticas e información so- bre el comportamiento de cada variable. Un buen manejo de estadísticos elementales (mínimos, máximos, media, moda, varianza,….) puede facilitarnos una orientación para detectar y seleccionar variables relevantes aunque se desconozcan las leyes que las relacionan entre sí.
RkJQdWJsaXNoZXIy MTEw