BLOG

BLOG DO ATLÂNTICO

Data Science e Machine Learning: entenda a diferença

06/08/2018 | Por admin

A área de Inteligência Artificial e de Machine Learning (Aprendizado de Máquina) pode se converter em um mercado de U$ 47 bilhões até 2020. Esse número comprova que ela é cada vez mais importante não só para as empresas tecnológicas, como também para companhias de outros segmentos, especialmente as impactadas pela tendência chamada de Indústria 4.0.

Nesse contexto, é fundamental compreender os conceitos de Data Science e Machine Learning, porque esses dois encabeçam as grandes mudanças na computação atual, contribuindo para muitas das inovações e soluções que vemos em nosso dia a dia. Isso acontece tanto no mundo físico (máquinas autônomas), quanto no virtual (mídias sociais e assistentes virtuais).

Também é necessário entender as diferenças entre elas para, assim, saber exatamente qual o papel de ambas nas necessidades e desafios das organizações. Se quiser encontrar as respostas para esses questionamentos, continue lendo este post e veja o que preparamos para você sobre essas soluções!

Conceito de Data Science

A Data Science (Ciência de Dados) é uma área interdisciplinar de processos e sistemas que tem o intuito de extrair informações a partir de dados por meio de múltiplos modos. Ela envolve o desenvolvimento e modificação de programas de Inteligência Artificial para conseguir esse propósito.

Normalmente, as empresas contam com grandes volumes de dados estruturados e não estruturados, completos ou não, que podem servir de fontes para a obtenção de conteúdos valiosos, como análises e previsões.

Para converter esse material, de certa forma “bruto”, em algo estratégico, faz-se necessário empregar a Data Science, contando preferencialmente com a ajuda de um dos profissionais mais importantes dessa área: o cientista de dados.

Para conseguir uma compreensão mais ampla dos dados, ele pode utilizar ferramentas simples — como gráficos de linha, tendo por base consultas SQL— ou métodos mais complexos — por exemplo, técnicas estatísticas avançadas.

Além disso, as soluções, tecnologias e conhecimentos empregados em Data Science para o processamento e avaliação dos dados são variadas, como:

  • linguagem Python;

  • linguagem SQL;

  • análise e combinação estatística;

  • conhecimento de domínio;

  • engenharia de software;

  • visualização de dados;

  • arquitetura distribuída, entre outros.

A Data Science tem por objetivo a percepção e a compreensão em relação aos dados trabalhados, gerando diferentes insights para a organização. Um exemplo é a probabilidade de clientes renovarem um serviço.

Vale destacar que, em Ciência de Dados, existe sempre uma pessoa envolvida, ou seja, o indivíduo que entenderá ou verá o insight, podendo até se beneficiar dele.

Data Science nas empresas

Podemos dizer que a Data Science tem uma finalidade semelhante ao Business Intelligence (BI) nas organizações: transformar dados brutos em informações valiosas e em insights de negócios que os gestores podem utilizar para embasarem suas tomadas de decisões.

Ela também integra múltiplas disciplinas que podem ser úteis no ambiente empresarial, como:

  • quantitative analysis (análise quantitativa) — esse grupo envolve o uso de técnicas/processos como modelagem matemática, realização de previsões/simulações e avaliação estatística. A modelagem estatística e as simulações podem ajudar nos testes de hipóteses dos cientistas de dados;

  • programming skills (habilidades de programação) — é importante contar com elas para conseguir analisar adequadamente dados brutos, bem como torná-los acessíveis aos demais envolvidos;

  • business knowledge (conhecimento de negócios) — é essencial um conhecimento prévio do ambiente de negócio, a fim de melhorar a compreensão da relevância dos resultados obtidos.

A Ciência de Dados, em um contexto de negócios, é comumente composta de:

Tecnologias, soluções e ferramentas

Como vimos, existem muitos instrumentos que são usados por Data Science para processar dados e extrair informações importantes. Além do que já foi apontado, podemos citar programação matemática, estatística e o próprio Aprendizado de Máquina.

Outro item importante a ressaltar é o Big Data, pois, em boa parte dos casos, os resultados da Ciência de Dados são gerados a partir dele. Inclusive, envolvendo o uso de plataformas baseadas em nuvem.

Um exemplo de solução que produz dados que podem ser empregados em Data Science é o Hadoop. Essa plataforma de software em Java, de computação distribuída e de código aberto, é focada em clusters e no processamento de grandes montantes de dados, tendo especial atenção à tolerância a falhas.

Ela foi inspirada no MapReduce, um modelo de programação do Google. Esse modelo, por sinal, tem a capacidade de separar volumes gigantescos de dados em porções menores, que, então, são dispersas por milhares de computadores, sendo processadas em paralelo. Os dados derivados dessa solução também podem ser usados em Data Science.

Muitos cientistas de dados costumam buscar soluções de código aberto disponíveis para realizarem seus trabalhos, o que, a partir de uma perspectiva de custo, beneficia as empresas nas quais esses profissionais trabalham.

Portanto, graças a soluções que utilizam essa ciência e ao trabalho dos cientistas de dados, qualquer negócio pode melhorar suas operações, estratégias comerciais e forma de atuação. Consequentemente, poderá crescer no mercado e se tornar mais bem gerenciado, ficando atento a tendências e oportunidades.

Profissionais de dados

Cientistas de dados focados no ambiente empresarial podem desenvolver conhecimentos estratégicos, muitas vezes, explorando anomalias, padrões e outras manifestações em dados de negócios. Além do mais, geram “produtos de apoio” valiosos para os líderes empresariais, como tabelas, analytics dashboards e relatórios não tabulares.

Esses profissionais colaboram com a empresa ao:

  • empregar Machine Learning para melhorar a pesquisa de dados, achar padrões e obter insights de volumosos conjuntos de dados relacionados a um segmento de negócio ou ao setor em que a empresa atua;

  • detectar anomalias e fraudes na empresa graças à análise de dados;

  • prever ações de clientes por meio da estatística. Por exemplo, quais poderão ser os próximos cliques de um usuário em uma loja virtual;

  • estimar prejuízos e lucros;

  • aperfeiçoar estratégias para atingir propósitos organizacionais.

Há ainda o engenheiro de dados, cuja função envolve usar o conhecimento em ciência da computação para desenvolver sistemas e solucionar desafios de processamento de dados. Ele também pode trabalhar com grande quantidade de dados para Big Data.

Um de seus objetivos é fornecer plataformas e soluções de Big Data escaláveis e modulares para cientistas de dados realizarem seus trabalhos de análise de forma adequada. Esses engenheiros costumam trabalhar com Hadoop e MapReduce, construindo aplicações a partir deles.

Conjuntos de dados externos e internos

São utilizados, em Data Science, dados corporativos estruturados e não estruturados de fontes internas e externas, como veremos no próximo tópico. No entanto, vale destacar o uso de dados mashup.

Eles correspondem a combinações de duas ou mais fontes avaliadas em conjunto com o propósito de entregar aos usuários uma visão mais ampla da situação empresarial que está sendo tratada.

Tipos de dados usados em Data Science

Dá para conseguir insights de negócios a partir do processamento e análise de grupos de dados com tamanhos padronizados, que são provenientes de:

  • negócios estruturados, tal como ocorre com BI;

  • conjuntos estruturados;

  • conjuntos semiestruturados;

  • conjuntos não estruturados;

  • Big Data.

As soluções de Data Science costumam usar diversos tipos de fontes, como os dados de negócio transacional. Eles consistem no mesmo tipo de conteúdo estruturado empregado em BI tradicional, tendo relação com o que é gerado em uma organização. Isso inclui dados de desempenho de colaboradores, de vendas e marketing, de atendimento ao cliente etc.

De forma geral, processos operacionais e gerenciais fornecem dados utilizados por esses sistemas. Além deles, podemos citar outras fontes, como:

  • dados não estruturados produzidos de forma automática por máquinas, como os advindos de sensores;

  • dados não estruturados provenientes de e-mails, mídias e redes sociais, mensageiros instantâneos etc.

  • dados comuns, como áudios, vídeos, arquivos de PDF, entre outros.

Conceito de Machine Learning

O Aprendizado de Máquina é um campo da computação que trabalha conferindo a sistemas informacionais e dispositivos a capacidade de aprender sem necessitar de programação explícita. Em resumo, essas soluções podem aprender de forma autônoma, modificando suas atuações tendo por referência suas próprias experiências.

Elas evoluem a partir do reconhecimento e da análise de padrões nos dados processados, estabelecendo regras lógicas para melhorar, por exemplo, a performance de atividades. Uma solução do tipo usa por base a teoria de aprendizagem computacional na Inteligência Artificial.

Por meio desse método, soluções de Machine Learning desenvolvem modelos analíticos de maneira automatizada com inputs (dados de entrada), podendo tomar decisões, realizar estimativas, descobrir tendências etc.

Para tanto, eles empregam algoritmos e outros recursos informacionais, funcionando por meio do aprendizado de cálculos prévios a fim de tomar decisões. Dessa maneira, conseguem resultados confiáveis e repetíveis, que também se baseiam em técnicas estatísticas de aprendizagem.

Vale destacar que esses sistemas são capazes de reconhecer e compreender padrões de modo indutivo, adaptando-se de maneira independente à proporção que são expostos a novos conteúdos. Normalmente, o processo de aprendizado ocorre com uma participação humana mínima ou inexistente.

Contudo, esse processo requer uma intervenção manual na escolha dos recursos que serão processados. A extração deles, no Machine Learning, necessita da atuação do cientista de dados para pré-processar os dados, entregando aos algoritmos aqueles que podem, de fato, serem explorados à procura de padrões.

Modelagem preditiva em ação

Como visto, o Machine Learning possibilita que um sistema ou equipamento tenha a capacidade de aprender e, de certa maneira, ensinar-se a evoluir conforme é exposto a dados novos.

Um exemplo de sistema assim é o feed de notícias do Facebook. Seu objetivo é customizar o que aparece para cada indivíduo, decidindo o que é mais relevante ao usuário. Para isso, baseia-se no que ela gosta e em seu comportamento na rede social.

Sistemas de Machine Learning têm se destacado em análises estatísticas e preditivas, sendo usados para se descobrir insights significativos e padrões que podem virar oportunidades. Com o avançar dos anos, eles aumentaram suas capacidades de processamento, podendo “peneirar” volumes de dados complexos (Big Data).

Outro exemplo de Aprendizado de Máquina na atualidade é o IBM Insights, uma solução cuja modelagem preditiva busca identificar e revelar padrões para auxiliar na tomada de decisões nos negócios.

Por meio dela, é possível obter previsões de propensões para fraudes, definir como uma estratégia de precificação afeta as vendas ou determinar perigos potenciais de atividades específicas no setor de seguros.

A Netflix, serviço de streaming de vídeo, também usa esse tipo de solução para sugerir séries e filmes para seus usuários. Isso é feito graças a algoritmos de modelagem que aprendem o comportamento de milhões de assinantes.

Diferença entre Data Science e Machine Learning

De forma resumida, podemos dizer que o Machine Learning integra a Data Science. Enquanto o Aprendizado de Máquina gera previsões, a Ciência de Dados produz insights.

O Machine Learning envolve muitas técnicas e algoritmos para que ocorra a “aprendizagem” e se obtenha um resultado. Mas, por exemplo, ao se trabalhar com aprendizado de palavras, por mais que técnicas como análise de regressão e clustering supervisionado sejam empregadas, haverá métodos que não fazem parte dessa solução e que também poderão ser usados.

Um caso é o clustering não supervisionado, que tem o intuito de detectar clusters e estruturas de cluster sem que haja um conhecimento prévio ou, ainda, um conjunto de treinamento para auxiliar o algoritmo usado para classificação. Também será preciso a presença de uma pessoa para rotular os clusters achados. Além disso, há a classificação semisupervisionada, que é uma técnica híbrida.

Em Data Science, é possível que os dados sejam provenientes ou não de máquinas ou processos mecânicos, inclusive, sendo obtidos manualmente. Aliás, eles podem não ter relação com o aprendizado.

A Ciência de Dados é mais ampla, abarcando todo o panorama de processamento de dados, não somente aspectos estatísticos ou algorítmicos. Ela engloba:

  • integração de dados;

  • Business Intelligence;

  • arquitetura distribuída;

  • engenharia de dados;

  • decisões automatizadas, com base em dados, entre outros.

Data Science e Machine Learning na Indústria 4.0

A Indústria 4.0 é uma nova tendência tecnológica em que os sistemas e equipamentos de uma fábrica estão interligados, automatizados e integrados. Ela envolve o funcionamento de “fábricas inteligentes”, que conseguem:

  • tomar decisões descentralizadas;

  • monitorar processos físicos com o uso de sistemas ciberfísicos;

  • criar cópias virtuais de suas instalações, processos e maquinários (gêmeos digitais), entre outras atividades.

Graças à Internet das Coisas (IoT) — e mais especificamente à Internet Industrial das Coisas (IIoT) —, software, hardware e outros tipos de equipamentos conseguirão se comunicar entre si e com as pessoas em tempo real. O objetivo é conseguir otimizar os processos e possibilitar a personalização em massa dos produtos fabricados.

O papel do Big Data nesse contexto

Todos os elementos que se conectam via web produzem dados, gerando um volume gigantesco que precisa ser armazenado. Nesse contexto de Big Data, uma ferramenta dessa área pode fornecer uma estrutura ampla para os gestores acessarem as informações e, assim, terem maior base para suas decisões. Também será possível a existência de atividades autônomas durante o processo, graças ao Aprendizado de Máquina.

Devido ao grande montante de dados, um sistema de Machine Learning terá muito material para evoluir, isto é, aprender e se aperfeiçoar, inclusive, gerando previsões mais precisas.

Ainda em relação ao Big Data, é interessante destacar que uma solução do tipo pode ser programada para múltiplas funções de avaliação de dados. No setor industrial, por exemplo, podemos utilizá-la para atividades como:

  • tomada de decisões — os dados analisados fornecerão um resultado amparado em cenários reais e no comportamento da cadeia produtiva, proporcionando suporte para os gestores da planta fabril;

  • prognóstico — as informações geradas contêm análises dos comportamentos e causas das variáveis processadas. É possível deixar de se tomar decisões com base em diagnósticos que demonstram apenas o efeito de situações. O sistema ainda conseguirá realizar análises de comportamentos e de cenários;

  • Aprendizado de Máquina — os dados de cada processo fabril são transformados em informações, que são aprendidas pelo sistema que faz uso de Machine Learning. O aprendizado, bem como as informações, trafegam pela planta por meio de conexão M2M (Máquina a Máquina).

Machine Learning e o processo de nutrição de dados na Indústria 4.0

Como vimos, os modelos de Machine Learning se baseiam nas informações que eles absorvem de modo a aprenderem sobre elas. Esse conteúdo pode ser proveniente de processos organizacionais internos, informações conhecidas, bancos de dados, entre outras fontes.

O ponto-chave é que sistemas assim se aperfeiçoam, podendo entregar resultados de maneira automática e repetida. Eles pegam informação conhecidas, avaliam comportamentos e produzem resultados.

Alguns sistemas que seguem essa lógica e que fazem parte da Indústria 4.0 são os presentes em carros autônomos e controles de produção inteligentes, que são interconectados, via IoT, a outras soluções.

Dessa forma, os dados produzidos nesses equipamentos podem ser compartilhados com vários softwares de monitoramento e, sobretudo, com soluções externas a eles, que também tenham por foco a criação de modelos preditivos.

Graças a isso, poderemos ter uma rede de Aprendizado de Máquina gigantesca, sendo alimentada por dados gerados em tempo real provenientes de diversas fontes — como os sensores instalados nos equipamentos e em todo o parque fabril.

Com as informações levantadas, um sistema que usa Machine Learning poderá prever quando peças deverão ser trocadas e quais máquinas precisam de manutenção. Também terá como estimar a capacidade máxima de determinados dispositivos e por quanto tempo aguentam funcionando no limite.

Isso ocorre após as informações serem coletadas, guardadas e processadas para fins de análise (por meio de modelos matemáticos e estatísticos).

Aplicando Data Science e Machine Learning na Indústria 4.0

Para entender a aplicação dessa relação, é preciso usar um exemplo. Digamos que uma indústria tecnológica está desenvolvendo veículos internos de transporte e carregamento de produtos para fábricas, como empilhadeiras automatizadas. Contudo, elas não conseguem desviar de objetos ou outras empilhadeiras que venham a bloquear suas movimentações usuais dentro das indústrias.

Para resolver esse problema, seria necessário se valer de Machine Learning. Nesse caso, o sistema da máquina precisaria monitorar e “entender”, por meio de sensores e câmeras, que o caminho à sua frente está bloqueado, independentemente da rota a ser feita, necessitando calcular outro trajeto.

Para isso, o programa poderia ser alimentado com milhares de imagens de itens que podem barrar o avanço de uma empilhadeira. Também seria necessário inserir informações como peso, resistência, tamanho etc. de objetos que podem realmente fazer isso, ou seja, serem obstáculos. Caso contrário, a máquina pode parar, por exemplo, quando houver um saco plástico no caminho — um item que, em tese, não atrapalharia seu trajeto.

O equipamento precisaria prever que objetos poderiam interromper seu avanço, podendo até calcular trajetos de itens que, estando em movimento, viriam a barrar seu caminho momentos depois — tudo para continuar operando sem interrupções, de forma rápida e eficiente.

Para melhorar sua atuação, é importante contar com uma Inteligência Artificial que possa tomar decisões, como frear nos casos em que um objeto, vindo em direção perpendicular, possa se chocar com a empilhadeira.

Ela também poderá decidir em continuar caso avalie outras variáveis, como velocidade do outro objeto, possibilidade de ele frear (se for outra empilhadeira) e potencial de danos — caso seja algo pequeno, como uma bolinha de borracha que foi arremessada, não há por que parar.

Quando os testes com o veículo apontam problemas, indicando paradas em momentos indevidos, entra em cena a Ciência de Dados. Essa área será responsável por realizar análises profundas dos dados coletados nos testes, no modelo preditivo, na programação do software de automação e em outras fontes.

Após as verificações, chega-se ao resultado: as empilhadeiras apresentam problemas quando passam por curvas muito fechadas, pois isso prejudica seus sensores já que prateleiras, paletes, estantes etc. ficam na frente delas quando manobram. A situação piora com baixa iluminação, pois isso prejudica as imagens captadas pelas câmeras.

Com base nessas informações, é possível montar um banco de dados otimizado, incluindo instruções para os veículos ignorar estantes, paletes, prateleiras, entre outros, em curvas, por exemplo. Também é possível acrescentar imagens dos objetos em ambientes escuros, para que o sistema de cada empilhadeira saiba quais itens devem ser evitados na baixa luminosidade.

Como visto, Data Science e Machine Learning são duas tecnologias que podem gerar muitas oportunidades de aperfeiçoamento e potenciais de negócios para as empresas. Se considerarmos a grande movimentação financeira esperada nesses segmentos tecnológicos para os próximos anos, é possível que muitas empresas passem a apostar nessas soluções em busca de oportunidades, de boas ideias e de maior eficiência operacional.

Gostou de saber sobre Machine Learning e Data Science? Compartilhe o post nas suas redes sociais para que seus amigos e contatos também possam descobrir mais sobre essas duas soluções!

 

Posts relacionados

Blog

Sistemas ciber físicos na indústria 4.0: como a tecnologia pode ajudar o crescimento do setor industrial

29/08/2022
Blog

Gestão de Identidade e Acesso: confira como esses processos podem ser benéficos para segurança da informação

18/07/2022
Blog

Cloud computing e Edge Computing: qual a relação e diferenças entre as duas tecnologias

04/07/2022

Conteúdo rico no seu e-mail

Assine nosso conteúdo e receber os melhores conteúdos sobre tecnologia e inovação.

    São mais de 15 anos entregando soluções tecnológicas e inovadoras