Data Science explained to my avó (1/5): Definição & Princípios

Orange Vertical Line Separator

Preamble

Data Science, Machine Learning, Big Data, AI / IA, Data Analytics, Business Intelligence, se estiver interessado em web-marketing, o jargão não lhe pode ter escapado. Desde o blogueiro especializado aos principais meios de comunicação social, cada um tem a sua opinião mais ou menos esclarecida. A profusão e complexidade dos temas pode até ter-te adiado ou assustado, para não mencionar a miríade de aplicações mencionadas.

No Empirik, acreditamos que a popularização não é uma palavra suja e que é necessário trazer ao conhecimento do maior número de pessoas uma simples definição das técnicas de análise de dados mais avançadas do momento.

As primeiras inovações já estão de facto nas tuas mãos há já algum tempo. O seu smartphone já incorpora a aprendizagem mecânica para sugerir o restaurante de que mais provavelmente gostará, o último filme que tem sonhado ver, aquela nova série que não pode perder…

Um exemplo: Spotify é capaz de analisar os seus fluxos musicais em tempo real, emparelhando-os com outros dados, para deduzir ou prever o seu estado de espírito actual. Esta informação será utilizada para recomendar uma canção que corresponda ao seu gosto e disposição. Mas esta informação é também monetizável (e de facto monetizada assim que clica em ‘Jogar’) para ser utilizada por terceiros para fins publicitários, por exemplo. É mais provável que seja alvo de um seguro funerário se tiver acabado de ouvir a duração completa de Michel Sardou do que a de Jul.

As aplicações podem ser muito mais variadas, desde a previsão do comportamento dos utilizadores de um website, análise de tendências, previsão do tempo, até à saúde (classificação de doenças benignas ou malignas, por exemplo), desporto (análise do desempenho individual) e, claro, indústria (manutenção preditiva, redução de riscos, redução de custos). Abordaremos as aplicações ao web-marketing no próximo artigo desta série.

Tentaremos aqui um exercício de popularização sobre um tema vasto e complexo, mas antes disso, um pouco de história.

As aplicações destes métodos científicos, algumas das quais existem desde os anos 30, foram restringidas pela falta de dados, relacionados com a capacidade de memória disponível, e pelos limites das máquinas em termos de potência e tempo de computação. explosão desde o final dos anos 2000 deste poder disponível (com nomeadamente o progresso nos cálculos de ponto flutuante trazido pelas cartas gráficas dos nossos amigos jogadores) associado à diminuição dos custos de armazenamento de dados permitiu a aplicação concreta destas teorias inactivas. Com os dados a tornarem-se massivamente remotamente acessíveis ao mesmo tempo, a aceleração tem sido meteórica.

Um algoritmo que exigiu um edifício tão alto como a Torre Eiffel para armazenamento e 100 anos de computação sem parar em 1970 é agora executado em 2 horas pelo seu smartphone chinês, o seu cartão SD e a sua ligação 4G à nuvem do país de arranque.

Assim começa a era dos Dados para Todos.

Separador de Linha Vertical Laranjah2>Definição de Ciência de Dados

Comecemos por desmistificar todos estes termos: correndo o risco de fazer uivar puristas, Ciência de Dados, Grandes Dados e Mineração de Dados são, em última análise, um e o mesmo conceito. Estes campos utilizam métodos científicos semelhantes: Big Data centra-se em conjuntos de dados massivos (os 3 V’s: Volume / Variedade / Velocidade dos dados), Data Mining procura analisar automaticamente estes dados, Machine Learning é um conjunto de métodos que permitem, entre outras coisas, esta análise, etc…

Principles

Data Science é sobretudo uma abordagem multidisciplinar na intersecção da matemática, estatística, análise de dados, teoria da informação e programação informática que visa extrair conhecimento dos dados. A utilização de ferramentas informáticas para aceder ao conhecimento inacessível apenas aos humanos.

O termo ciência é utilizado em referência à criação histórica e à utilização destes métodos pela investigação básica em matemática e informática. A ideia original do método científico é formalizar um processo de observação da natureza (ou dos dados) através do ciclo de Observação / Hipótese / Experimentação / Análise dos resultados / Observação…
Um dos pontos é também formalizar as experiências, assim os algoritmos e os dados que manipulam, para facilitar a replicação das experiências e a comparação dos resultados.

O objectivo do cientista de dados é sempre a modelação de um sistema, com as seguintes motivações principais: automatização, controlo de risco/erro, previsão, classificação.

Por modelação, entendemos a representação matemática de um fenómeno, ou seja, a criação de uma relação matemática entre valores medidos em relação ao fenómeno.
Por exemplo, se estiver a estudar o tráfego diário no seu website, tem muitos indicadores fornecidos pelas suas ferramentas. O modelo tentará estabelecer uma relação matemática entre estes indicadores para lhe permitir prever o tráfego futuro.

p>Um modelo aceita como entrada um conjunto de dados observados, tipicamente os seus indicadores preferidos.
Produz como output uma resposta desejada (output) que pode ser comparada a um valor esperado (aprendizagem), ou que é utilizada para prever o comportamento do fenómeno (inferência).

Na modelação estatística, a relação matemática definida entre variáveis descreve algumas propriedades estatísticas de uma amostra de dados. A ideia é que a hipótese confirmada pela amostra pode ser generalizada à população.
Por exemplo, criou-se um modelo baseado nos últimos 3 anos de dados analíticos. Espera-se que os resultados possam ser generalizados para os dias vindouros.

Método
O cientista de dados identificará os dados de interesse, normalizá-los-á, criará sistemas de recolha, armazenamento e agregação de dados (ETL, APIs, armazéns de dados/ lagos de dados, etc.). Em projectos de grande escala, estas tarefas são confiadas a especialistas em infra-estruturas de dados e arquitectura (engenheiros de dados)
O cientista de dados finalmente considerará métodos de análise e depois preparará os dados antes da aplicação de algoritmos.
Ele também pode ser apoiado a este nível por engenheiros especializados na optimização de algoritmos, particularmente através da sua paralelização em várias máquinas para acelerar a sua execução.

A caixa de ferramentas dos cientistas de dados cobrirá um espectro que vai desde a estatística descritiva padrão (sim, mesmo a média e o desvio padrão…) até aos métodos mais avançados (aprendizagem de máquinas, redes neurais artificiais, inferência Bayesiana, árvores de decisão…) através da visualização de dados.

Por isso ele ou ela tem pelo menos alguns conhecimentos em matemática, estatística, desenvolvimento, computação fundamental, manipulação de dados e visualização.

O cientista de dados é também um analista de dados, a maior parte do tempo. Para além da caixa de ferramentas dos métodos que escolhe em função dos problemas a resolver, ele ou ela é capaz de analisar os resultados, extrair padrões para futuras previsões, seleccionar variáveis de interesse (características), e extrair insights a partir das fontes de dados disponíveis.

Um bom cientista de dados não é aquele que tem um domínio perfeito de todos os métodos, algoritmos, e teorias possíveis, mas sim aquele que sabe o suficiente sobre eles para escolher o método que mais provavelmente resolverá o problema com os dados que tem.

É impossível rever a totalidade dos métodos disponíveis para um cientista de dados, mas vamos concentrar-nos nas duas estrelas dos últimos anos, aprendizagem da máquina e aprendizagem profunda.

Separator Vertical Line Orange

Definition of Machine Learning / Data Mining

Os dois campos são por vezes apresentados em oposição. No entanto, estão relacionados e utilizam frequentemente os mesmos métodos matemáticos. A sua abordagem é significativamente diferente:

  • A aprendizagem da máquina tende a utilizar dados reais (chamados dados de treino) para avaliar o desempenho dos modelos. Assim, compara-se a resposta do algoritmo com o valor efectivamente observado para avaliar o erro e melhorar a aprendizagem nas fases subsequentes (parametrização do modelo).
  • A mineração de dados procura, em vez disso, descobrir padrões ou propriedades desconhecidas dos dados, através de métodos exploratórios, chamados não supervisionados.

Em todos os casos, todos os métodos agrupados sob o termo Aprendizagem Automática dependem de um processo de aprendizagem automática, ou seja, modelos cujas propriedades matemáticas lhes permitem generalizar o conhecimento a partir da observação de dados. Tal como você e o seu cérebro fazem diariamente, sem esforço.

Existem três tipos principais de aprendizagem:

  • Aprendizagem supervisionada
    • O algoritmo funciona construindo uma relação entre entradas e saídas que já são conhecidas (treino)
    • O desempenho do humano é então avaliado em dados para os quais não conhece as saídas, mas o humano conhece (cálculo da taxa de erro)
    • Se a aprendizagem for bem sucedida, o algoritmo pode ser apresentado com dados para os quais o humano não conhece as saídas, para previsão (inferência)
    • Na alternativa, iremos parametrizar o modelo pouco a pouco para obter melhores resultados
  • Aprendizagem sem supervisão
    • O algoritmo funciona através de uma análise automática dos dados sem a priori
    • Será dedicado, por exemplo, à descoberta de semelhanças nos dados para derivar agrupamentos (clustering), classificação, auto-organização)
    • li> Também pode procurar as variáveis (explicativas) mais importantes nos dados (redução de dimensão, componentes principais), extracção de características)

  • Aprendizagem de reforço
    • Este campo é mais geral e o reforço pode potencialmente ser aplicado aos dois tipos anteriores de aprendizagem
    • A ideia é inspirada em particular pela psicologia animal e circuitos de recompensa no cérebro (libertação de diferentes químicos dependendo do sucesso ou não de uma acção)
    • Aqui o algoritmo receberá uma recompensa (ou não) dependendo do seu resultado. O método matemático subjacente visa produzir um algoritmo que procura maximizar as recompensas recebidas (e portanto a sua eficácia) para além do seu objectivo inicial de modelação.

  • As duas principais aplicações da aprendizagem de máquinas são a previsão e a classificação. Aqui estão alguns exemplos, longe de serem exaustivos.

    Previsão / Regressão

    • Previsão do valor do futuro carrinho de compras de um visitante conhecendo o seu histórico de compras e o histórico de todas as compras de todos os clientes
    • Previsão do preço de Bitcoin em 2 meses
    • Prever o tempo

    p>Classificação

    • Associar um género a cada canção em Spotify
    • Classificar uma condição maligna ou benigna, um cogumelo mortal ou comestível…
    • li>Classificar visitantes na categoria de marketing da sua escolhali>Classificar uma imagem na categoria de cão ou gato

    Separador de Linha Vertical Laranja

    Definição de Aprendizagem Profunda

    Baixo do nome pomposo está na realidade uma categoria particular de aprendizagem mecânica, com base numa teoria que remonta aos anos 40 e cuja aplicação tem explodido nos últimos anos: redes neurais artificiais.

    Traçando a sua inspiração a partir da observação do neurónio biológico, a criação de um modelo matemático de um neurónio data de facto de 1943. A ideia é, em última análise, a interligação de um grande número de pequenas unidades computacionais permitindo uma grande potência computacional.

    Não vamos entrar nos detalhes matemáticos mas as redes neurais construirão uma função não linear representando a associação entre as suas entradas e saídas. As propriedades matemáticas das funções estudadas definem o tipo de rede neural, aprendizagem e modelação da qual é capaz. São considerados aproximadores universais, podem teoricamente representar todas as relações possíveis entre as variáveis.

    A organização dos neurónios em múltiplas camadas interligadas produz, contudo, um efeito de borda significativo: a relação entre entrada e saída aprendida pela rede é impossível de compreender por um humano, como ilustrado abaixo. Estamos perante uma caixa negra cuja eficiência é inegável mas por vezes inexplicável.

    A eficiência das redes neurais não deve, contudo, ser posta em causa. Muitas aplicações são já amplamente e com sucesso utilizadas em campos tão variados como a medicina (diagnóstico automático), tradução automática, controlo de veículos, reconhecimento facial, reconhecimento de caracteres escritos, e também em marketing (segmentação, segmentação de alvos), churn management…)

    Orange Vertical Line Separatorh2>Definition of Artificial Intelligence (AI/AI)

    Catch-all terms, AI, AI, Inteligência Artificial são frequentemente mal utilizados, uma vez que a procura de inteligência global e/ou consciente não é o campo de investigação mais activo. No entanto, continua a ser o campo mais vendido para fãs de ficção científica e vítimas da síndrome de Frankenstein.

    O tópico mereceria uma série inteira de artigos por si só, mas o campo científico da inteligência artificial tem historicamente como objectivo replicar as capacidades cognitivas humanas utilizando máquinas. Duas abordagens coexistem:

    • imitando exactamente o comportamento humano (modelagem)
    • obter o mesmo resultado que um humano por algum outro meio

    como é, por muito poderosos e eficientes que sejam, a maioria dos algoritmos e métodos são altamente especializados e afastados das capacidades do cérebro humano. O algoritmo de recomendação musical de Spotify será bastante incapaz de conduzir um carro autónomo ou de reconhecer o seu rosto numa fotografia.

    Correntemente, estes termos são utilizados principalmente para agrupar um grande número de aplicações das técnicas discutidas neste artigo: carros autónomos, robótica, reconhecimento facial/voz, em suma, todas as tarefas em que a máquina parece substituir o humano.

    Selecionador de linha vertical Laranja

    Para continuar…

    Gostou deste artigo sobre Data Science? Veja os outros artigos da série:

    2. Benefícios e casos de utilização em marketing digital
    3. Ciclo de vida do projecto

    Nota: opiniões, simplificações, omissões e erros são da inteira responsabilidade do seu autor que terá todo o prazer em responder aos seus comentários aqui -> [email protected]

    Deixe uma resposta

    O seu endereço de email não será publicado. Campos obrigatórios marcados com *