Separar la mena de la ganga
Para definir conceptos se puede usar la forma positiva (qué es) o la negativa (qué no es). Para el caso de la Minería de Datos usaremos ambas, ya que frecuentemente se usa este término para cosas que poco o nada tienen que ver con lo que es la Minería de Datos.
Una definición muy extendida es: "Extracción no trivial de información potencialmente útil, implícita en los datos y previamente desconocida". La Minería de Datos es la ciencia que se encarga a partir de grandes repositorios de información de obtener la que es útil de forma automática sin un conocimiento previo de qué se va a obtener. Se trata de descubrir relaciones entre las variables, patrones de comportamiento e identificación de los grupos de comportamiento y sus diferencias.
La información obtenida se puede usar para crear modelos de predicción, clasificación o segmentación. Proporciona herramientas para la toma de decisiones o la automatización de procesos complejos como la detección en tiempo real de transacciones electrónicas fraudulentas o de averías o fallos de construcción.
Visto qué es Minería de Datos, veamos ejemplos de lo que muchas veces se presenta como tal y no lo es, sobre todo porque no implica un "descubrimiento" de información desconocida, sino que se trata de una organización más clara de los datos conocidos:
-Procedimientos para cálculo predefinido de indicadores que resumen datos de bases de datos.
-Implementaciones de repositorios como son los Data-Warehouses y Data-Marts que resumen información recopilada por las bases de datos operacionales.
-Sistemas de visualización de datos o indicadores calculados a partir de los mismos siguiendo relaciones previamente conocidas.
La implementación real de técnicas de Minería de Datos implica el conocimiento profundo de conceptos y metodologías propias de la Inteligencia Artificial, siendo éste uno de los mayores escollos para implementar estas técnicas en los repositorios. Un proceso típico de Minería de Datos consta de los siguientes pasos generales:
1. Selección del conjunto de datos, referida tanto a las variables dependientes como a las variables objetivo.
2. Análisis de las propiedades de los datos, en especial los histogramas, diagramas de dispersión, presencia de valores atípicos y ausencia de datos (valores nulos).
3. Transformación del conjunto de datos de entrada en función del análisis previo, con el objetivo de prepararlo para aplicar la mejor técnica de Minería de Datos.
4. Seleccionar y aplicar la técnica de Minería de Datos. Se construye el modelo predictivo, de clasificación o segmentación.
5. Evaluar resultados contrastándolos con una serie de datos reservada para validar el modelo.
Si el modelo no supera la evaluación el proceso se podría repetir en su totalidad o desde uno de los pasos. Una vez validado, si resulta ser aceptable (proporciona salidas adecuadas y/o con márgenes de error admisibles), éste ya está listo para su explotación. Los modelos obtenidos se aplican incorporándolos en los sistemas de análisis de información de las organizaciones, e incluso, en los sistemas transaccionales. -
Gustavo Pintado es socio director de Gamco.
Tu suscripción se está usando en otro dispositivo
¿Quieres añadir otro usuario a tu suscripción?
Si continúas leyendo en este dispositivo, no se podrá leer en el otro.
FlechaTu suscripción se está usando en otro dispositivo y solo puedes acceder a EL PAÍS desde un dispositivo a la vez.
Si quieres compartir tu cuenta, cambia tu suscripción a la modalidad Premium, así podrás añadir otro usuario. Cada uno accederá con su propia cuenta de email, lo que os permitirá personalizar vuestra experiencia en EL PAÍS.
En el caso de no saber quién está usando tu cuenta, te recomendamos cambiar tu contraseña aquí.
Si decides continuar compartiendo tu cuenta, este mensaje se mostrará en tu dispositivo y en el de la otra persona que está usando tu cuenta de forma indefinida, afectando a tu experiencia de lectura. Puedes consultar aquí los términos y condiciones de la suscripción digital.