Auditoría Pública nº 76. Revista de los órganos autonómicos de control externo

tos del modelo con falsos positivos o falsos negativos (matriz de confusión) y otras técnicas de medición de la robustez de los modelos (curva ROC, etc.. ). Hay que comparar entre varios modelos y transfor- mando de datos iniciales empleando las técnicas de transformación (ETL) u otras más estadísticas (creación de variables dummies ). El modelo más complicado, a veces no es el mejor y a pesar de todo habrá que estar preparados para que, con los datos seleccionados, no se pueda inferir nada. Con frecuencia, se producen sobrea- justes en los modelos para los que también se emplean técnicas de modelado para tratar de evitarlo. En efecto, cuando se consideran muchos datos, hay que ajustar el modelo a más casos, con lo que nos perdemos detalles que pueden ser importantes o que pierdan capacidad predictiva. Cuando hemos solucionado estos problemas podemos tener un modelo más o menos aceptable al que poder introducirle datos nuevos con los que hacer clasificación o predicción. 2.4 minería de textos: Text mining La minería de textos está mucho menos desarrolla- da que la minería de datos a pesar de que más del 90% de la información digital disponible está estructurada en textos y documentos tanto hablados como escritos. Esta disciplina se encarga del desarrollo de métodos, al- goritmos y sistemas capaces de procesar datos textuales para su consulta, de tal manera que arroje tendencias, patrones, desviaciones y asociaciones en una colección de textos. La principal dificultad reside en que esta in- formación suele estar sujeta a múltiples interpretacio- nes por lo que para poder aplicar cualquier desarrollo en esta área hay que analizar con precisión y despejar ambigüedades. Para hacerlo posible se aplican técnicas de PLN (pro- cesamiento del lenguaje natural) 13 que necesitan de una colección (denominada corpus) de ejemplos y datos ade- cuadamente etiquetados de palabras y frases (tokenizado y lematización). El algoritmo puede ser entrenado para detectar patrones útiles, relaciones, clasificar documen- tos, resumir o predecir. Las técnicas más frecuentes son: • Extracción de información: obtener las partes que interesan de un texto y pasarlas a un forma- to estructurado. • Análisis de sentimientos: para entender la opi- nión general de un texto se utilizan colecciones de léxicos (lexicón) con un algoritmo clasificador. Los problemas a resolver son la subjetividad y tono, contexto, ironías y comparaciones. Pero no parecen relevantes cuando trabajamos con expe- dientes administrativos, actas, memorias, etc… • Clasificador de documentos: hace una asigna- ción automática basada en sus contenidos., tam- bién tiene una versión manual en la que se cate- gorizan los documentos. • Generación automática de resúmenes: extraer y representar el contenido más importante, condensado y adaptado a las necesidades de la aplicación o del usuario final. Se realiza bien por extracción identificando los fragmentos clave o bien por abstracción, un parafraseo del texto original para hacerlo más claro y conciso. La minería de textos tiene todavía un alto potencial por delante y a pesar de los esfuerzos públicos, especial- mente en el ámbito científico e investigador con algún tímido avance en el ámbito sanitario 14 , lo cierto es que en idioma castellano queda mucho por hacer. La reali- dad es que tan sólo grandes empresas están dedicando recursos al asunto. En nuestro ámbito, sería necesaria alguna experiencia conjunta de los ICEX aprovechando la experiencia del sector privado. 3. ACELERADORES DIGITALES PARA LAS ICEX 3.1 Auditores deben adquirir competencias de analistas de datos En muchas ICEX, asistidos por herramientas más o menos avanzadas, hemos incorporado la auditoría con datos basados en dos perfiles: por un lado, la persona experta con el conocimiento y la experiencia en audito- ría y por otro, la persona que interactúa con el experto y que programa o extrae los datos. Ocasionalmente am- bos perfiles podían concurrir en la misma persona, pero no parece que sea lo frecuente. Recientemente, algunas de nuestras instituciones están incorporando perfiles de auditoría de sistemas de información, con atribuciones en la evaluación de la integridad, fiabilidad y objetivi- dad de los sistemas de información, para que se incor- poren a la auditoría datos y fuentes digitales relevantes. Limitar los puestos con alto grado de digitalización a estos perfiles podría dificultar la transformación digital de los ICEX puesto que, como hemos visto, la auditoría “tradicional” debe adquirir competencias en análisis de datos para no perder capacidad de escepticismo y jui- cio profesional. Las competencias en datos y bases de datos (eliminar de manera segura lo prescindible, reali- zar simulaciones, reaprovechar datos y las transforma- ciones ya construidas para otros trabajos, etc.. ) debe combinarse con la capacidad para identificar y manejar buenas fuentes, saber combinar información relevante 60 Noviembre nº 76 - 2020 AUDITORÍA Y GESTIÓN DE LOS FONDOS PÚBLICOS 13 Más frecuente encontrarlo como: NLP (Natural Language Processing) 14 Véase: https://www.plantl.gob.es/Paginas/index.aspx

RkJQdWJsaXNoZXIy MTEw