Analizando el contenido de las bases de datos

Back to Entradas

Analizando el contenido de las bases de datos

En el post anterior comenzamos a definir el proceso de análisis de la información. En este detallaremos el análisis de las bases de datos en la búsqueda de información relevante. Pero antes de ir de explicar nuestra propuesta del proceso de análisis veamos un ejemplo simple que permita ver por qué este proceso de identificación puede ser complejo:

  • En el mundo de la información es una práctica muy extendida el utilizar en mismo campo para almacenar distintos tipos de datos utilizando algún relleno para que encajen. Imagine un campo llamado documento en el que se puede almacenar tanto el DNI como el pasaporte de un cliente. Debido a que ambos documentos no tienen la misma longitud, es necesario rellenar el más corto. Al hacer esto lo que ocurre es que se está alterando el formato del dato de manera que ya no coincide con el patrón natural de un pasaporte. Este es un caso pequeño pero real que esconde un problema mayor: La manera en la que almacenamos los datos altera la estructura de los mismos. Para solucionar este problema y poder reconocer los tipos de datos correctamente es necesario un mecanismo inteligente y adaptable.

Icaria Mirage está diseñado para satisfacer ambas necesidades. En primer lugar, proporciona un localizador de datos sensibles genérico para los tipos de datos más comunes, pero también, debido a su capacidad de customización, el proceso es fácilmente adaptable a los requisitos técnicos mediante la incorporación de agentes de búsqueda personalizados, modificando el comportamiento del proceso, etc.

Esta modificación es necesaria porque en las primeras ejecuciones del análisis los resultados que se obtienen no son altamente fiables debido a las características particulares de cada entidad para realizar el tratamiento de la información. De hecho, en la primera ejecución del análisis faltarán numerosos campos sensibles o se incluirán otros tantos que no deberían aparecer. Es por ello que debe realizarse un análisis manual de los resultados del análisis de información sensible que es rápido y sirve para adaptar de forma sencilla el proceso.

El proceso de análisis de la base de datos de referencia propuesto tiene básicamente dos componentes principales: el análisis del nombre de los distintos campos de las tablas y el análisis del contenido de todas las tablas de la base de datos. Luego, la información resultante de estos dos componentes se evalúa en conjunto para finalizar el proceso con la generación de un reporte donde se indican los campos que posiblemente contengan datos sensibles y campos que, si bien no contienen información sensible, pueden indicar la posible presencia de información sensible en la tabla (por ejemplo, una tabla que contiene ciudad, código postal, etc. probablemente contenga una dirección).

¿Qué es configurable en nuestro proceso? Dentro del configurador del analizador se pueden configurar diferentes ítems como palabras claves que indican alta probabilidad de información sensible, palabras o cadenas de caracteres a ignorar durante el proceso (por ejemplo, si el modelo bajo análisis presenta nombres de personas bajo campos con nombre CLIENTE pero sólo números  en el campo ID_CLIENTE, podemos configurar nuestro analizador para que no reporte falsos positivos cuando el campo es el de ID_CLIENTE), longitud del campo y de los datos contenidos, ponderación de un análisis sobre el otro, valor de sensibilidad base para reportar un campo, etc.

También existen inspectores dedicados a los algoritmos de detección de información sensible que son configurables y personalizables. Es necesario tener inspectores flexibles ya que la evolución de la información en cada organización guarda de una manera, o incluso de varias, esta información sensible. Para una correcta customización de los mismos es necesario que el cliente proporcione ejemplos y tablas con campos con información sensible, que seremos capaces de analizar y así alimentar el conocimiento del inspector. Igualmente, en caso de no disponer de esta información, se propone una inspección manual de las tablas en las que el análisis anterior ha detectado posibles informaciones y con ello adaptar los inspectores para que puedan localizar información en campos cuya cabecera no sea identificativa de la información que contiene.

Finalmente, resaltar la idea de que se trata de un procesamiento iterativo, que en una primera inspección se obtienen resultados con falsos positivos, que faltará detectar algunos campos, etc., pero que, tras un procedimiento de reconocimiento en base a estos resultados y a consultas rápidas sobre las tablas, así como del feedback del cliente, podemos ajustar los parámetros de búsqueda y los inspectores para obtener reportes cada vez más precisos que reducen los falsos positivos e ignoran los mínimos campos posibles.

Share this post

Back to Entradas