Minería de datos: qué es la minería de datos

La minería de datos es un componente clave de las tecnologías de Big Data y de las técnicas de análisis de grandes datos. Este es el origen de Big Data Analytics, el análisis predictivo y la minería de datos. Descubra la definición completa del término Minería de Datos.

Definición de minería de datos

Minería de datos, exploración de datos o data mining, estas son las posibles traducciones de minería de datos en francés. En términos generales, el término minería de datos se refiere al análisis de datos desde diferentes perspectivas y a la conversión de esos datos en información útil, estableciendo relaciones entre los datos o detectando patrones. Esta información puede ser utilizada por las empresas para aumentar las ventas o reducir los costes. También pueden utilizarse para comprender mejor una base de clientes con el fin de establecer mejores estrategias de marketing.

¿Qué es la minería de datos?

El software de minería de datos es una de las herramientas analíticas utilizadas para el análisis de datos. Permiten a los usuarios analizar los datos desde diferentes ángulos, categorizarlos y resumir las relaciones identificadas. Técnicamente, la minería de datos es el proceso de encontrar correlaciones o patrones entre muchas bases de datos relacionales.

La minería de datos se basa en complejos y sofisticados algoritmos para segmentar datos y evaluar probabilidades futuras. La minería de datos también recibe el apodo de Descubrimiento de Conocimiento en Datos.

Una evolución tecnológica natural

proceso de minería de datos

El término minería de datos es relativamente nuevo, pero la tecnología no lo es. Desde hace años, las empresas utilizan potentes ordenadores para procesar los grandes volúmenes de datos acumulados por los escáneres de los supermercados y para analizar los informes de los estudios de mercado. Asimismo, las continuas innovaciones en computación, almacenamiento y software estadístico están aumentando enormemente la precisión de los análisis y dirigiendo la reducción de los costes.

Datos, información y conocimiento en la minería de datos

Datos

Los datos son hechos, números o textos que pueden ser procesados por un ordenador. Hoy en día, las empresas acumulan grandes cantidades de datos en diferentes formatos, en diferentes cantidades de datos. Entre estos datos, distinguimos:

  1. Datos operativos o transaccionales, como ventas, costes, inventarios, recibos de caja o datos contables.
  2. Datos no operativos, como ventas industriales, datos de previsión, datos macroeconómicos.
  3. Los metadatos, que son datos sobre los propios datos, como las definiciones en un diccionario de datos.
    1. Información

      Los patrones, asociaciones y relaciones entre todos estos datos proporcionan información. Por ejemplo, el análisis de los datos de las transacciones de una tienda proporciona información sobre qué productos se venden y cuándo se producen esas ventas.

      Conocimiento

      La información puede convertirse en conocimiento sobre patrones históricos o tendencias futuras. Por ejemplo, la información sobre las ventas al por menor de un supermercado puede analizarse como parte de los esfuerzos de promoción, para obtener conocimientos sobre los comportamientos de los compradores. Así, un productor o minorista puede determinar qué productos deben promocionarse utilizando la minería de datos.

      ¿Qué es un Data Warehouse?

      almacén de minería de datos

      Los avances significativos en la recopilación de datos, la potencia de cálculo, la transmisión de datos y las capacidades de almacenamiento permiten a las empresas integrar las bases de datos dentro de los almacenes de datos. El Data Warehousing es el proceso de centralizar la gestión y recuperación de datos.

      Con un Data Warehouse, las empresas pueden dividir los datos en segmentos específicos de usuarios para un análisis detallado. Los analistas también pueden comenzar con el tipo de datos que quieren utilizar y luego crear un almacén a partir de esos datos.

      Al igual que la Minería de Datos, el término Almacén de Datos es relativamente nuevo, mientras que el concepto en sí ha existido durante años. El almacenamiento de datos representa una visión ideal de un depósito central de datos que se mantiene continuamente. Esta centralización es necesaria para maximizar el acceso y el análisis de los usuarios.

      Gracias a los grandes avances tecnológicos, esta visión utópica se ha convertido en una realidad para muchas empresas. Del mismo modo, los avances en el campo de los programas informáticos de análisis permiten a los usuarios acceder libremente a los datos. La minería de datos se basa en estos programas informáticos de análisis.

      Métodos de minería de datos

      visualización de la minería de datos

      Hay cinco variedades de minería de datos:

      • Asociación – buscar patrones dentro de los cuales un evento está relacionado con otro evento.
      • Análisis de secuencias – buscar patrones dentro de los cuales un evento lleva a otro evento posterior.
      • Clasificación – buscar nuevos patrones, incluso si esto significa cambiar la forma en que se organizan los datos.
      • Agrupación – encontrar y documentar visualmente grupos de hechos previamente desconocidos.
      • Predicción – descubrir patrones en los datos que puedan conducir a predicciones razonables sobre el futuro. Este tipo de minería de datos también se conoce como análisis predictivo.

      ¿Para qué se utiliza la minería de datos en el marketing?

      La minería de datos se utiliza actualmente, sobre todo, en empresas centradas en el consumo en el comercio minorista, las finanzas, la comunicación o la minería de datos de marketing. Las técnicas de minería de datos también se utilizan en diferentes áreas de investigación, como las matemáticas, la cibernética o la genética. La minería web, utilizada en el ámbito de la gestión de las relaciones con los clientes, tiene como objetivo identificar patrones de comportamiento de los usuarios dentro de las enormes cantidades de datos recogidos por un sitio web.

      minería de datos web

      Con la minería de datos, las empresas pueden determinar las relaciones entre factores internos como el precio, el posicionamiento del producto, las habilidades de los empleados, y factores externos como los indicadores económicos, la competencia o la información demográfica de los consumidores.

      A continuación, pueden determinar el impacto de estas relaciones en las ventas, la satisfacción del consumidor y los beneficios de la empresa. Por último, estas relaciones pueden convertirse en conocimientos para obtener detalles sobre los datos transaccionales.

      Con la minería de datos, un minorista puede utilizar los registros de las compras de los clientes en el punto de venta para enviar promociones específicas basadas en el historial de compras de un individuo. Mediante la minería de datos demográficos en las revisiones de las tarjetas de garantía, el minorista puede desarrollar productos y promociones para atraer a determinados segmentos de consumidores.

      Ejemplos concretos de uso de la minería de datos

      Como ejemplo, una cadena de supermercados del medio oeste utilizó el software de minería de datos de Oracle para analizar los patrones de compra locales. La cadena descubrió que cuando los hombres compran pañales los jueves y los sábados, también tienden a comprar cerveza. Un análisis más detallado mostró también que estos clientes suelen hacer sus compras semanales los sábados. Los jueves, sólo compran algunos artículos. La cadena llegó a la conclusión de que los clientes están comprando sus cervezas para que estén listas para el fin de semana.

      data mining biere

      Esta información recién descubierta podría utilizarse de diferentes maneras para aumentar las ventas. Por ejemplo, el departamento de cerveza se trasladó más cerca del departamento de pañales. Del mismo modo, el minorista se aseguró de que la cerveza y los pañales ya no se agotaran los jueves.

      Sugerencias de productos

      Por ejemplo, Blockbuster Entertainment extrae su base de datos histórica de alquiler de vídeos para recomendar películas a los clientes individuales. Del mismo modo, American Express puede sugerir productos a los clientes en función de su gasto mensual.

      Relaciones con los proveedores

      Minería de datos de WalMart

      El gigante WalMart se está posicionando como precursor de la minería de datos masiva para transformar sus relaciones con los proveedores. WalMart recopila datos transaccionales de 2.900 tiendas en 6 países diferentes y los transmite a su almacén de datos de 7,5 terabytes proporcionado por Teradata. Más de 3.500 proveedores de WalMart pueden acceder a los datos de sus productos y realizar análisis de datos. Estos proveedores utilizan los datos para identificar los patrones de compra de los clientes a nivel de tienda. Utilizan la información para gestionar los inventarios de las tiendas locales e identificar nuevas oportunidades. En 1995, los ordenadores de WalMart procesaron casi un millón de consultas de datos complejos.

      Análisis de imágenes

      La Asociación Nacional de Baloncesto (NBA) está explorando un uso de la minería de datos que puede utilizarse junto con la grabación de imágenes de los partidos de baloncesto. El software Advanced Scout puede analizar los movimientos de los jugadores, para ayudar a sus entrenadores a orquestar estrategias. Por ejemplo, un análisis del partido entre los New York Knicks y los Cleveland Cavaliers del 6 de enero de 1995 reveló que John Williams anotó cuatro canastas cuando Mark Price estaba en defensa. Este patrón pudo ser detectado por Advanced Scout, así como la diferencia con el porcentaje medio de acierto de los Cavaliers durante el partido, que fue del 49,30%. Mediante el reloj mundial de la NBA, un entrenador puede ver automáticamente los vídeos de cada tiro que Williams hizo cuando Price estaba en defensa, sin tener que ver horas de captura de vídeo.

      deporte de la minería de datos

      Empoderar a los consumidores para que controlen su huella digital

      En la era digital, de las redes sociales y de la conexión, los profesionales del marketing recogen constantemente cantidades masivas de datos en tiempo real. Las empresas vigilan lo que los consumidores publican, lo que les gusta, lo que comparten en las redes sociales, los dispositivos que utilizan, las tarjetas de crédito con las que gastan, las ciudades en las que se encuentran. Por una buena razón, estos datos ayudan a promocionar y vender productos de forma personalizada.

      Ahora, muchas empresas están desarrollando su propia nube de marketing para recopilar información sobre sus clientes objetivo. Como resultado, las empresas y los gobiernos pueden utilizar fácilmente los datos personales para sus negocios sin pedir el consentimiento de los usuarios.estrella de minería de datos

      Para remediar este problema, y permitir a los consumidores controlar sus datos, se fundó en 2009 la startup Digi.me. Esta startup proporciona a los consumidores herramientas para reclamar su huella digital, recopilar y compartir información directamente con las empresas en sus propios términos. Digi.me es el líder del «Internet de mí». Una vez que los usuarios toman el control de sus datos, tienen la capacidad de ponerles precio y erigir barreras para evitar que nadie acceda a ellos sin permiso. Sin el control de sus datos personales, los consumidores simplemente están siendo explotados sin saberlo.

      La tecnología desarrollada por Digi.me permite a los usuarios subir sus datos y almacenarlos en internet. Los datos se almacenan de forma nativa en un dispositivo individual, y evitan que terceros accedan a ellos. La startup ha recaudado 10,6 millones, incluyendo 7 millones en 2016. También se asocia con Toshiba y Lenovo, y trabaja con líderes de los sectores de los seguros de salud, las finanzas y la industria farmacéutica.

      Prevención de la evasión fiscal con la minería de datos

      ministro de minería de datos india

      En la India, el gobierno está decidido a utilizar la minería de datos para prevenir la evasión fiscal. De hecho, la India está profundamente afectada por esta lacra. Para hacer frente a esto, el departamento de impuestos va a utilizar la tecnología para facilitar a los ciudadanos honestos el pago de impuestos, y para dificultar a los deshonestos. Por el momento no está claro cómo se utilizará la minería de datos, pero en los próximos meses se deberían revelar más detalles.

      Reclutar a los mejores empleados

      minería de datos de personas

      Los profesionales de la contratación utilizan cada vez más herramientas de minería de datos para localizar e identificar a los empleados más valiosos para sus empresas. En Irlanda, por ejemplo, las empresas están recopilando datos de los candidatos en línea para descubrir a los mejores talentos. Por ejemplo, los datos pueden utilizarse para determinar el nivel de productividad y satisfacción de un candidato. Por ello, LinkedIn ha optado por construir un nuevo edificio para ampliar su centro de operaciones en Irlanda, que actúa como sede europea. Se han añadido 200 nuevos empleados a un equipo que ya reúne a 1000 personas.

      ¿Cómo funciona la Minería de Datos?

      Las tecnologías informáticas han evolucionado de tal manera que los sistemas transaccionales y los sistemas analíticos están separados. La minería de datos sirve de puente entre ambas. El software de minería de datos analiza las relaciones y los patrones de los datos de las transacciones almacenadas en función de las consultas de los usuarios. Existen varios tipos de software de análisis: estadístico, de aprendizaje automático y de redes neuronales. En general, existen cuatro tipos de relaciones:

      • Clases: Los datos almacenados se utilizan para ubicar los datos en grupos predeterminados. Por ejemplo, una cadena de restaurantes puede minar los datos de compra de los clientes para determinar cuándo se producen sus visitas y cuáles son sus pedidos habituales. Esta información puede utilizarse para aumentar el tráfico ofreciendo menús diarios.
      • Clusters: Los datos se agrupan con respecto a relaciones lógicas o preferencias de los clientes. Por ejemplo, los datos pueden ser minados para identificar segmentos de mercado o afinidades de clientes.
      • Asociaciones: Los datos pueden ser minados para identificar asociaciones. El ejemplo de los pañales y las cervezas citado anteriormente es un ejemplo de minería asociativa.
      • Patrones secuenciales: los datos se minan para anticipar patrones de comportamiento y tendencias. Por ejemplo, un vendedor de artículos de exterior puede predecir la probabilidad de que se compre una mochila basándose en las compras de sacos de dormir y botas de montaña de un cliente.

      orden del caos de la minería de datos

      La minería de datos se basa en cinco elementos principales:

      • Extracción, transformación y carga de datos transaccionales en el sistema de almacén de datos.
      • El almacenamiento y gestión de datos en un sistema de base de datos multidimensional.
      • Proporcionar acceso a los datos a los analistas de negocio y a los profesionales de TI.
      • Analizar los datos a través del software de aplicación.
      • Presenta los datos en un formato útil, como un gráfico o una tabla.

      Existen diferentes niveles de análisis:

      red neuronal de minería de datos

      • Redes neuronales artificiales: Modelos predictivos no lineales que aprenden por entrenamiento y son similares a las redes neuronales biológicas en su estructura.
      • Algoritmos genéticos: Las técnicas de optimización utilizan procesos como la combinación genética, la mutación y la selección natural en un diseño basado en los conceptos de la evolución natural.
      • Árboles de decisión: Estas estructuras en forma de árbol representan conjuntos de decisiones. Estas decisiones generan reglas para la clasificación de un conjunto de datos. Entre los métodos específicos de árboles de decisión se encuentran los árboles de clasificación y regresión (CART), y la detección automática de interacción chi cuadrada (CHAID). Ambos métodos se utilizan para la clasificación de un conjunto de datos. Proporcionan un conjunto de reglas que pueden aplicarse a un nuevo conjunto de datos para predecir qué registros tendrán un resultado. CART segmenta un conjunto de datos creando una división bidireccional, mientras que CHAID segmenta el conjunto de datos utilizando pruebas de chi-cuadrado para crear resultados multidireccionales. En general, CART requiere menos preparación de los datos que CHAID.
      • Método del vecino más cercano: Esta técnica clasifica cada registro de un conjunto de datos basándose en una combinación de las clases del k, de forma similar a un conjunto de datos históricos.
      • Inducción de reglas: extracción de reglas «si-entonces» de los datos, basadas en significados estadísticos.
      • Visualización de datos: La interpretación visual de relaciones complejas en datos multidimensionales. Se utilizan herramientas gráficas para ilustrar las relaciones entre los datos.

      El proceso de minería de datos en 5 pasos

      El proceso de minería de datos se divide en 5 pasos. En primer lugar, las empresas recopilan datos y los cargan en almacenes de datos. Después, almacenan y gestionan los datos, en servidores físicos o en la nube. Los analistas de negocio, los equipos de gestión y los profesionales de TI acceden a estos datos y determinan cómo quieren organizarlos. A continuación, el software de aplicación clasifica los datos en función de las entradas del usuario. Por último, el usuario final presenta los datos en un formato fácil de compartir, como un gráfico o una tabla.

      Las 3 propiedades principales de la Minería de Datos

      Hay 3 propiedades principales de la Minería de Datos Grande:

      • Descubrimiento automático de patrones

      La Minería de Datos se basa en el desarrollo de modelos. Un modelo utiliza un algoritmo para actuar sobre un conjunto de datos. El concepto de descubrimiento automático se refiere a la ejecución de modelos de minería de datos. Los modelos de minería de datos pueden utilizarse para extraer los datos sobre los que se construyen, pero la mayoría de los tipos de modelos pueden generalizarse a nuevos datos. El proceso de aplicar un modelo a los nuevos datos se denomina puntuación.

      • Predicción de resultados probables

      Muchas formas de minería de datos son predictivas. Por ejemplo, un modelo puede predecir un resultado basado en la educación y otros factores demográficos. Las predicciones tienen una probabilidad asociada. Algunas formas de minería de datos predictiva generan reglas, que son las condiciones para obtener un resultado. Por ejemplo, una regla podría especificar que una persona con una licenciatura que vive en un barrio específico tiene una probabilidad de tener un mejor salario que la media regional.

      • Creación de información procesable

      La minería de datos puede extraer información procesable de grandes volúmenes de datos. Por ejemplo, un planificador urbano puede utilizar un modelo de predicción de ingresos basado en datos demográficos para desarrollar un plan para los hogares de bajos ingresos. Una agencia de alquiler de coches puede utilizar un modelo para identificar los segmentos de consumidores para crear una promoción dirigida a los clientes de alto valor.

      ¿Qué infraestructura tecnológica se requiere?

      data mining data miner

      Hoy en día, las aplicaciones de minería de datos están disponibles en todos los tamaños para mainframe, servidor o PC. Los precios de los sistemas oscilan entre varios miles de dólares para las aplicaciones más pequeñas y hasta un millón de dólares por terabyte para las más grandes. Las aplicaciones empresariales suelen oscilar entre 10 gigabytes y más de 11 terabytes. NCR tiene la capacidad de ofrecer aplicaciones de más de 100 terabytes. Hay dos factores tecnológicos principales:

      • Tamaño de la base de datos: Cuantos más datos haya que procesar y mantener, más potente será el sistema.
      • La complejidad de las consultas: cuanto más complejas y numerosas sean las consultas, más potente será el sistema requerido.

      Las tecnologías de almacenamiento y gestión de bases de datos relacionales son adecuadas para muchas aplicaciones de minería de datos por debajo de los 50 gigabytes. Sin embargo, esta infraestructura tiene que aumentar mucho para soportar aplicaciones más grandes. Algunos proveedores han añadido mayores capacidades de indexación para aumentar el rendimiento de las consultas. Otros utilizan nuevas arquitecturas de hardware, como los procesadores masivamente paralelos (MPP), para mejorar el tiempo de procesamiento de las consultas. Por ejemplo, los sistemas MPP de NCR enlazan cientos de procesadores Pentium para alcanzar niveles de rendimiento superiores a los de los mejores superordenadores.

      Software de minería de datos

      El software de minería de datos analiza las relaciones entre los datos y localiza patrones basados en las consultas de los usuarios. Por ejemplo, los programas informáticos pueden utilizarse para crear clases de información. Por ejemplo, un restaurante puede utilizar la minería de datos para determinar cuándo ofrecer determinados productos. Esto implicará buscar entre la información recopilada, y crear clases basadas en cuándo visitan los clientes y qué piden.

      En otros casos, los Mineros de Datos encuentran clusters de información basados en relaciones lógicas, o buscan asociaciones y patrones secuenciales para sacar conclusiones sobre el comportamiento de los usuarios. Para intentar la aventura, existe un software de minería de datos. Orange, Weka, RapidMiner o Tanagra son algunas de las herramientas de código abierto disponibles en la web. También hay disponibles licencias profesionales para Data Mining 19. Entre las más famosas, SPSS distribuido por IBM, Enterprise Miner de SAS, o Microsoft Analysis Services de la firma de Redmond.

      Cursos de minería de datos

      Muchas universidades dedicadas a las ciencias informáticas y matemáticas exploran esta técnica de probabilidad. En la red se pueden encontrar fácilmente cursos de minería de datos y moocs para entender y explorar con más detalle las posibilidades de esta ciencia asociada al Big Data. Hay muchos cursos de minería de datos en PDF que puedes descargar. Cuidado, el nivel varía según el tipo de enseñanza. Por nuestra parte, recomendamos el trabajo de Stéphane Tufféry, presidente del Comité Científico del CESP de la Universidad de Rennes 1. Especializado en este campo, incluso ha escrito un libro sobre este tema.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *