Generalmente, Data Mining o minería de datos (a veces llamada data o descubrimiento del conocimiento) es el proceso de analizar datos desde diferentes perspectivas y resumirlos en información útil; esta información se utiliza en un sinfín de mejoras en los negocios, en la investigación en salud, informática, telecomunicaciones, economía y más. La metáfora de la minería se utiliza para dar cuenta del trabajo del “minero” (el especialista en analizar los datos) de buscar entre la tierra, el metal preciado.
El software de minería de datos es una de varias herramientas analíticas para analizar datos. Permite a lo usuarios analizar datos desde diferentes dimensiones o ángulos, categorizarlos y resumir las relaciones identificadas. Técnicamente, el data mining es el proceso de encontrar correlaciones o patrones entre docenas de campos en grandes bases de datos relacionales.
Innovación continua
Aunque la minería de datos es un término relativamente nuevo, la tecnología no lo es. Las empresas han utilizado computadoras de gran alcance para tamizar volúmenes de datos y analizar los informes de investigación de mercado durante años. Sin embargo, las innovaciones continuas en la potencia de procesamiento informático, almacenamiento en disco y software estadístico están aumentando drásticamente la precisión del análisis mientras se reducen los costes.
Ejemplo del uso de Data Mining
Por ejemplo, una cadena de supermercados norteamericana utilizó la capacidad del data mining para analizar los patrones de compra locales. Descubrieron que cuando los hombres compraban pañales los jueves y sábados, también tendían a comprar cerveza. Un análisis más detallado de los datos mostró que normalmente hacían sus compras semanales de comestibles los sábados. Los jueves, sin embargo, sólo compraban algunos artículos. El supermercado concluyó que compraban cerveza los jueves para tener suficiente para el fin de semana. La cadena de comestibles podría utilizar esta información recientemente descubierta de varias maneras para aumentar sus ingresos. Por ejemplo, podrían mover la exhibición de la cerveza más cerca de la exhibición de pañales o aumentar el precio de la cerveza los jueves.
Datos, Información y Conocimiento
Datos
Los datos son hechos, números o texto que pueden ser procesados por una computadora. Hoy en día, las organizaciones están acumulando cantidades enormes y crecientes de datos en diferentes formatos y bases de datos diferentes. Esto incluye:
– Datos operacionales o transaccionales tales como, ventas, costo, inventario, nómina y contabilidad.
– Datos no operacionales, tales como ventas de la industria, datos de pronóstico y datos macroeconómicos.
– Metadatos – datos sobre los propios datos, como diseño de bases de datos lógicas o definiciones de diccionarios de datos.
Información
Los patrones, asociaciones o relaciones entre todos estos datos pueden proporcionar información. Por ejemplo, el análisis de los datos de transacciones de puntos de venta minoristas puede proporcionar información sobre qué productos se venden y cuándo.
Conocimiento
La información puede ser convertida en conocimiento sobre patrones históricos y tendencias futuras. Por ejemplo, se puede analizar información resumida sobre las ventas al por menor de los supermercados a la luz de los esfuerzos promocionales para proporcionar conocimiento del comportamiento de compra de los consumidores. Por lo tanto, un fabricante o minorista podría determinar qué elementos son más susceptibles para la promoción.
Almacenes de datos (Data warehousing)
Los avances dramáticos en la captura de datos, capacidad de procesamiento, transmisión de datos y capacidades de almacenamiento están permitiendo a las organizaciones integrar sus diversas bases de datos en almacenes de datos. El almacenamiento de datos se define como un proceso de gestión y recuperación centralizada de datos. El data warehousing, al igual que el data mining, es un término relativamente nuevo, aunque el concepto mismo ha existido desde hace años. El almacenamiento de datos representa una visión ideal de mantener un repositorio central de todos los datos de la organización. La centralización de los datos es necesaria para maximizar el acceso y el análisis del usuario. Los avances tecnológicos muy importantes están haciendo que esta visión sea una realidad para muchas empresas. Y, avances igualmente importantes en el software de análisis de datos están permitiendo a los usuarios acceder a estos datos libremente. El software de análisis de datos es lo que soporta la minería de datos.