La Ciencia de Datos explicada a mi abuela (1/5): Definición y principios

Separador de líneas verticales naranja

Preamble

Ciencia de datos, aprendizaje automático, Big Data, AI / IA, analítica de datos, Business Intelligence, si te interesa el marketing web, la jerga no se te ha podido escapar. Desde el bloguero especializado hasta los grandes medios de comunicación, todos tienen su opinión más o menos ilustrada. La profusión y complejidad de los temas puede incluso haberte desanimado o asustado, por no hablar de la miríada de aplicaciones mencionadas.

En Empirik, creemos que la divulgación no es una palabra sucia y que es necesario llevar al conocimiento del mayor número de personas una definición sencilla de las técnicas de análisis de datos más avanzadas del momento.

Las primeras innovaciones, de hecho, ya están en tus manos desde hace tiempo. Tu smartphone ya incorpora el aprendizaje automático para sugerirte el restaurante que más te va a gustar, la última película que sueñas con ver, esa nueva serie que no te puedes perder…

Un ejemplo: Spotify es capaz de analizar tus streams de música en tiempo real, emparejándolos con otros datos, para deducir o predecir tu estado de ánimo actual. Esta información se utilizará para recomendarte una canción que se ajuste a tus gustos y a tu estado de ánimo. Pero esta información también es monetizable (y, de hecho, se monetiza en cuanto se hace clic en «Play») para ser utilizada por terceros con fines publicitarios, por ejemplo. Es más probable que el seguro de decesos se dirija a ti si acabas de escuchar el largo de Michel Sardou que el de Jul.

Las aplicaciones pueden ser mucho más variadas, desde la predicción del comportamiento de los usuarios de una web, el análisis de tendencias, la predicción meteorológica, hasta la salud (clasificación de enfermedades benignas o malignas, por ejemplo), el deporte (análisis del rendimiento individual) y, por supuesto, la industria (mantenimiento predictivo, reducción de riesgos, reducción de costes). Abordaremos las aplicaciones al web-marketing en el próximo artículo de esta serie.

Intentaremos aquí un ejercicio de divulgación sobre un tema vasto y complejo, pero antes, un poco de historia.

Las aplicaciones de estos métodos científicos, algunas de cuyas teorías existen desde los años 30, estaban restringidas por la falta de datos, relacionada con la capacidad de memoria disponible, y por los límites de las máquinas en cuanto a potencia y tiempo de computación.a explosión, desde finales de los años 2000, de esta potencia disponible (con los progresos en el cálculo en coma flotante aportados por las tarjetas gráficas de nuestros amigos jugadores), asociada a la disminución de los costes de almacenamiento de datos, permitió la aplicación concreta de estas teorías dormidas. Con datos que se vuelven masivamente accesibles a distancia al mismo tiempo, la aceleración ha sido meteórica.

Un algoritmo que requería un edificio tan alto como la Torre Eiffel para su almacenamiento y 100 años de computación ininterrumpida en 1970 se ejecuta ahora en 2 horas con tu smartphone chino, su tarjeta SD y la conexión 4G a la nube de la nación startup.

Así comienza la era de los Datos para Todos.

Separador de línea vertical naranja

Definición de Data Science

Empecemos por desmitificar todos estos términos: a riesgo de hacer aullar a los puristas, Data Science, Big Data y Data Mining son, en definitiva, un mismo concepto. Estos campos utilizan métodos científicos similares: el Big Data se centra en conjuntos de datos masivos (las 3 V: Volumen / Variedad / Velocidad de los datos), la Minería de Datos busca analizar automáticamente estos datos, el Aprendizaje Automático es un conjunto de métodos que permiten, entre otras cosas, este análisis, etc…

Principios

La Ciencia de los Datos es ante todo un enfoque multidisciplinar en la intersección de las matemáticas, la estadística, el análisis de datos, la teoría de la información y la programación informática que tiene como objetivo extraer conocimiento de los datos. El uso de herramientas informáticas para acceder a conocimientos inaccesibles para el ser humano por sí solo.

El término ciencia se utiliza en referencia a la creación y uso histórico de estos métodos por parte de la investigación básica en matemáticas e informática. La idea original del método científico es formalizar un proceso de observación de la naturaleza (o de los datos) a través del ciclo de Observación / Hipótesis / Experimentación / Análisis de resultados / Observación…
Uno de los puntos es también formalizar los experimentos, por tanto los algoritmos y los datos que manipulan, para facilitar la replicación de los experimentos y la comparación de los resultados.

El objetivo del científico de datos es siempre la modelización de un sistema, con las siguientes motivaciones principales: automatización, control de riesgos/errores, predicción, clasificación.

Por modelización entendemos la representación matemática de un fenómeno, es decir, la creación de una relación matemática entre los valores medidos en relación con el fenómeno.
Por ejemplo, si estás estudiando el tráfico diario de tu página web, tienes muchos indicadores proporcionados por tus herramientas. El modelo intentará establecer una relación matemática entre estos indicadores para permitirle predecir el tráfico futuro.

Un modelo acepta como entrada un conjunto de datos observados, normalmente sus indicadores preferidos.
Produce como salida una respuesta deseada (output) que puede compararse con un valor esperado (aprendizaje), o que se utiliza para predecir el comportamiento del fenómeno (inferencia).

En la modelización estadística, la relación matemática definida entre las variables describe algunas propiedades estadísticas de una muestra de datos. La idea es que la hipótesis confirmada por la muestra pueda generalizarse a la población.
Por ejemplo, usted ha creado un modelo basado en los últimos 3 años de datos de Analytics. Espera que los hallazgos se puedan generalizar a los días venideros.

Método
El científico de datos, por tanto, identificará los datos de interés, los normalizará, configurará los sistemas de recolección, almacenamiento y agregación de datos (ETL, APIs, data warehouses/data lakes, etc.). En los proyectos de gran envergadura, estas tareas se delegan en especialistas en infraestructura y arquitectura de datos (ingenieros de datos)
El científico de datos considerará finalmente los métodos de análisis y luego preparará los datos antes de la aplicación de los algoritmos.
También puede contar con el apoyo en este nivel de ingenieros especializados en la optimización de algoritmos, en particular paralelizándolos en varias máquinas para acelerar su ejecución.

La caja de herramientas del científico de datos cubrirá un espectro que se extiende desde la estadística descriptiva estándar (sí, incluso la media y la desviación estándar…) hasta los métodos más avanzados (aprendizaje automático, redes neuronales artificiales, inferencia bayesiana, árboles de decisión…) pasando por la visualización de datos.

Así que él o ella tiene al menos algunos conocimientos en matemáticas, estadística, desarrollo, computación fundamental, manipulación de datos y visualización.

El científico de datos es también un analista de datos, la mayoría de las veces. Más allá de la caja de herramientas de métodos que escoge en función de los problemas a resolver, es capaz de analizar los resultados, extraer patrones para futuras predicciones, seleccionar variables de interés (features) y extraer insights de las fuentes de datos que tiene a su alcance.

Un buen científico de datos no es aquel que domina a la perfección todos los métodos, algoritmos y teorías posibles, pero sí que conoce lo suficiente como para elegir el método que más posibilidades tiene de resolver el problema con los datos que tiene.

Revisar la totalidad de los métodos disponibles para un científico de datos es imposible, pero nos centraremos en las dos estrellas de los últimos años, el aprendizaje automático y el aprendizaje profundo.

Separador Línea Vertical Naranja

Definición de Aprendizaje Automático / Minería de Datos

Los dos campos se presentan a veces en oposición. Sin embargo, están relacionados y suelen utilizar los mismos métodos matemáticos. Su enfoque es significativamente diferente:

  • El aprendizaje automático tiende a utilizar datos de la vida real (llamados datos de entrenamiento) para evaluar el rendimiento de los modelos. Así se compara la respuesta del algoritmo con el valor realmente observado para evaluar el error y mejorar el aprendizaje en fases posteriores (parametrización del modelo).
  • La minería de datos busca en cambio descubrir patrones o propiedades desconocidas de los datos, mediante métodos exploratorios, llamados no supervisados.
    • En todos los casos, todos los métodos agrupados bajo el término Machine Learning se basan en un proceso de aprendizaje automático, es decir, en modelos cuyas propiedades matemáticas les permiten generalizar el conocimiento a partir de la observación de datos. Igual que usted y su cerebro hacen a diario sin esfuerzo.

      Hay tres tipos principales de aprendizaje:

      • Aprendizaje supervisado
      • El algoritmo funciona construyendo una relación entre las entradas y las salidas que ya se conocen (entrenamiento)
      • Su rendimiento se evalúa entonces en datos para los que no conoce las salidas, pero el humano sí (cálculo de la tasa de error)
      • Si el aprendizaje es exitoso, el algoritmo puede presentarse con datos para los que el humano no conoce las salidas, para la predicción (inferencia)
      • En la alternativa, parametrizaremos el modelo poco a poco para obtener mejores resultados
    • Aprendizaje no supervisado
      • El algoritmo funciona mediante un análisis automático de los datos sin a priori
      • Se dedicará, por ejemplo, al descubrimiento de similitudes en los datos para derivar agrupaciones (clustering, clasificación, autoorganización)
      • También puede buscar las variables más importantes (explicativas) de los datos (reducción de dimensiones, componentes principales, extracción de características)
    • Aprendizaje por refuerzo
    • Este campo es más general y el refuerzo puede aplicarse potencialmente a los dos tipos de aprendizaje anteriores
    • La idea se inspira, en particular, en la psicología animal y en los circuitos de recompensa del cerebro (liberación de diferentes sustancias químicas en función del éxito o no de una acción)
    • Aquí el algoritmo recibirá una recompensa (o no) en función de su resultado. El método matemático subyacente pretende producir un algoritmo que busque maximizar las recompensas recibidas (y, por tanto, su eficacia) además de su objetivo inicial de modelado.
  • Las dos principales aplicaciones del aprendizaje automático son la predicción y la clasificación. He aquí algunos ejemplos, lejos de ser exhaustivos.

    Predicción / Regresión

    • Predecir el valor de la futura cesta de la compra de un visitante conociendo su historial de compras y el de todos los clientes
    • Predecir el precio de Bitcoin en 2 meses
    • Predecir el tiempo
      • Clasificación

        • Asociar un género a cada canción en Spotify
        • Clasificar una enfermedad maligna o benigna, una seta mortal o comestible…
        • Clasificar a los visitantes en la categoría de marketing que elijas
        • Clasificar una imagen en la categoría de perro o gato

        Separador de líneas verticales naranja

        Definición de Deep Learning

        Debajo del pomposo nombre se encuentra en realidad una categoría particular de aprendizaje automático, basada en una teoría que se remonta a los años 40 y cuya aplicación se ha disparado en los últimos años: redes neuronales artificiales.

        Inspirándose en la observación de la neurona biológica, la creación de un modelo matemático de una neurona se remonta efectivamente a 1943. La idea es, en definitiva, la interconexión de un gran número de pequeñas unidades computacionales que permiten una gran potencia de cálculo.

        No entraremos en los detalles matemáticos pero las redes neuronales construirán una función no lineal que representa la asociación entre sus entradas y salidas. Las propiedades matemáticas de las funciones estudiadas definen el tipo de red neuronal, el aprendizaje y el modelado que es capaz de realizar. Se consideran aproximadores universales, pueden representar teóricamente todas las relaciones posibles entre variables.

        La organización de las neuronas en múltiples capas interconectadas produce, sin embargo, un importante efecto de borde: la relación entre la entrada y la salida aprendida por la red es imposible de entender para un humano, como se ilustra a continuación. Estamos ante una caja negra cuya eficacia es innegable pero a veces inexplicable.

        Sin embargo, no hay que dudar de la eficacia de las redes neuronales. Muchas aplicaciones ya se utilizan ampliamente y con éxito en campos tan variados como la medicina (diagnóstico automático), la traducción automática, el control de vehículos, el reconocimiento facial, el reconocimiento de caracteres escritos, y también en el marketing (segmentación, segmentación, gestión de churn…)

        Separador de línea vertical naranja

        Definición de Inteligencia Artificial (IA/AI)

        Los términos de «catch-all», IA, Inteligencia Artificial son frecuentemente mal utilizados, ya que la búsqueda de la inteligencia global y/o consciente no es el campo de investigación más activo. Sin embargo, sigue siendo el campo más vendido por los aficionados a la ciencia ficción y las víctimas del síndrome de Frankenstein.

        El tema merecería toda una serie de artículos por sí solo, pero el campo científico de la inteligencia artificial históricamente pretende replicar las capacidades cognitivas humanas utilizando máquinas. Coexisten dos enfoques:

        • Imitar exactamente el comportamiento humano (modelado)
        • Obtener el mismo resultado que un humano por algún otro medio

        Así las cosas, por muy potentes y eficientes que sean, la mayoría de los algoritmos y métodos son altamente especializados y están muy alejados de las capacidades del cerebro humano. El algoritmo de recomendación musical de Spotify será bastante incapaz de conducir un coche autónomo o reconocer tu cara en una foto.

        Actualmente, estos términos se utilizan sobre todo para agrupar un gran número de aplicaciones de las técnicas tratadas en este artículo: coches autónomos, robótica, reconocimiento facial/de voz, en definitiva todas las tareas en las que la máquina parece sustituir al humano.

        Separador de línea vertical Naranja

        Por continuar…

        ¿Te ha gustado este artículo sobre Ciencia de Datos? Consulta los demás artículos de la serie:

        2. Beneficios y casos de uso en el marketing digital
        3. Ciclo de vida del proyecto

        Nota: las opiniones, simplificaciones, omisiones y errores son responsabilidad exclusiva de su autor que estará encantado de responder a sus comentarios aquí -> [email protected]

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *