Data Science, ou Ciência de dados é o cruzamento das tecnologias de computação e programação com estatística, matemática e métodos científicos que tem o objetivo de analisar dados estruturados e ou dados não-estruturados, a fim de processar, analisar e disponibilizar de maneira gráfica e compreensível ao olhar humano grandes volumes de informações, ou dados, também chamados de ‘’Big Data’’, de maneira que facilitem e otimizem a tomada de decisão sobre problemas do mundo real, que por muitas vezes ajudam empresas a tomar melhores decisões, reduzir custos, reduzir riscos e aumentar seus lucros.
- Como funciona Data Science?
- O que faz um profissional de Data Science?
- Quanto ganha um Data Scientist?
- O que Data Science tem a ver com Big Data?
Estima-se que 90% dos dados do mundo tenham sido criados nos últimos dois anos. Os usuários do Facebook, por exemplo carregam 10 milhões de fotos a cada hora. O mundo que vivemos geramos, estima-se que em todo planeta geramos em torno de 2,5 quintilhões de bytes por dia. É muita coisa, rs !
Todos esses dados podem ser muito interessantes para as empresas. Com isso criam-se diversos de novos paradigmas, como os de cyber-segurança, privacidade e segurança de dados, que acarretam na necessidade de adaptarmos o mundo que vivemos à essa nova realidade. Foi o caso da criação da lei LGPD ou Lei Geral de Proteção de Dados no Brasil. Outro possível problema a ser resolvido através das tecnologias de Ciência de Dados.
Data Science, não é só programação. Na verdade, essa habilidade, que cada vez mais vem ganhando espaço além dos mercados de tecnologia hoje, se torna dia após dia uma área estratégico das empresas. Data Science, cruza não só habilidades de tecnologia, mas também com conhecimentos oriundos da matemática, análise de dados (obviamente, rs), conhecimento de negócios e modelos de negócio, estatística, e dependendo do tipo de análise que você for fazer, pode ser usada para desde estudar e realizar previsões desde no mercado financeiro com bibliotecas de Machine Learning até segmentação de campanhas de Marketing com métodos de K-Means e Clusterização.
Pra você que está aí curioso querendo saber se Data Science é pra você, acompanha comigo até o final desse conteúdo por que selecionamos as principais habilidades para se dar bem com Data Science! Vamos lá:
Data Science e Programação
Saber programar é uma das principais habilidades para atuar com Data Science, através de linguagens de programação, você consegue automatizar as análises de grandes quantidades de dados, que um ser humano, normalmente não conseguiria processar sozinho em um curto espaço de tempo ! - Até aqui nada novo sob o sol, fazem décadas que nós humanos utilizamos de computadores para processar dados...
Hoje em dia, a linguagem de programação mais popular no mercado de Data Science atualmente é o
Python. O Python se tornou querido por ter uma sintaxe simples (uma linguagem de alta abstração, ou seja, é bem parecida com a linguagem humana. - Inglês, no caso) e devido as suas diversas bibliotecas disponíveis para se trabalhar com Data Science, como NumPy, Pandas ela tem uma facilidade de com simples métodos e poucas linhas de código interpretar dados com funções matemáticas rapidamente.
Data Science e NumPy
NumPy vem da abreviação de Number +
Python e é uma biblioteca que se popularizou por ser capaz de processar e analisar arrays e matrizes multi-dimensionais facilmente.
Data Science e Pandas
Pandas é uma biblioteca, também de
Python que permite analisar estruturas e operações de dados para manipular tabelas numéricas e séries temporais. Ou seja, ela te permite processar bancos de dados estruturados (SQL) em tabelas (como as que você já conhece do Excel) rapidamente, sem ter que selecionar ''linhas'', e com capacidade de processamento muito superior ao número de 1.048.576 linhas máximo suportado pelo Excel para descobrir informações chave de um conjunto de dados.
Data Science e MatplotLib ou Seaborn
Com essas linguagens, quando utilizadas em conjunto com NumPy e Pandas, além de analisar seus dados, você consegue facilmente montar gráficos personalizados com bibliotecas como Matplotlib ou Seaborng (aí vai do seu gosto qual você preferir) para visualização de dados, e transformar todos seus resultados em story telling!
Data Science e programação na linguagem R
Muitas pessoas perguntam se é melhor aprender R ou
Python, e a verdade é que, não tem resposta certa ! Cada linguagem vai ser melhor para um tipo de análise, e se você for ver, os melhores Data Scientists do mercado, sabem desenvolver em ambas.
Programar em R, ainda é relevante e é uma linguagem super querida por estatísticos e matemáticos.
Data Science e Bancos de Dados
O conhecimento na principal linguagem de banco de dados é necessário também, afinal para trabalhar com Data Science é necessário mexer com muitas bases de dados, portanto é importante saber trabalhar bem com o SQL e também bancos NoSQL.
Claro, que cada empresa vai ter suas demandas particulares, e também um nível diferente de maturidade em Data Science, mas é importante pelo menos conhecer um pouco de tudo. Quando se trata de banco de dados, temos os Bancos de Dados Estruturados ou SQL e os bancos de dados NoSQL que significam Not Only SQL (muita gente ainda confunde e acha que é No SQL, rs um equívoco muito comum até hoje em dia...) Os bancos de dados SQL mais famosos são MySQL e o PostgreSQL. Os bancos de dados mais famosos em NoSQL hoje em dia, diria que o MongoDB, Cassandra, Redis e também o Neo4J...
Ainda sim, temos várias e várias outras tecnologias sobre as quais, eu poderia passar horas citando e explicando aqui pra vocês, mas como prometi esse conteúdo é só a pontinha do ice-berg e vai caber a você, caro exímio e famigerado leitor, fazer seu dever de casa pesquisar no Dr. Google o que lhe interessar para mais informações. Alguns exemplos de ferramentas para Big Data, são o Hadoop ou Spark que são softwares robustos para processamentos de grandes volumes de dados e também processos de data-streaming, ou processamento de dados em tempo real, que convêm para empresas com alto nível de maturidade em Data Science.
Data Science e Big Data: Hadoop e Apache Spark
Hadoop é um framework para processamento de aplicações distribuídas, para garantir alta escalabilidade, confiabilidade e tolerância de falhas, inspirada na tecnologia de MapReduce
MapReduce é um modelo ou padrão de programação dentro da estrutura do Hadoop que é usado para acessar dados armazenados no Hadoop File System (HDFS). Ele facilita o processamento simultâneo dividindo petabytes de dados em pedaços menores e processando-os em paralelo em servidores Hadoop.
Apache Spark é uma ferramenta de análise unificada para processamento de big data, com módulos integrados para streaming, SQL, aprendizado de máquina (machine learning) e processamento de gráficos.
Data Science, Matemática e Estatística
Não basta decorar métodos, funções e sintaxe de programação, é importante também, compreender a lógica e robustez dos algoritmos matemáticos por detrás das fórmulas complexas de Machine Learning, como por exemplos as funções de Clustering e K-Means.
Um mesmo conjunto de dados pode ter diversas interpretações. A estatística, quando bem utilizada, junto da matemática te ajudam a trabalhar eles da melhor forma. Para isso é importante ter noções básicas na área de exatas e cálculo.
Mesmo que ainda seja possível executar certas análises sem ela, é esses fundamentos das ciências exatas que vão te garantir a plena compreensão do passo a passo das lógicas e processos implementados.
É muito fácil mentir com estatística, gráficos e dados. É o conhecimento sólido da matemática e estatística, que vai te garantir que você está entendendo o passo a passo do processamento e análise de dados, por detrás de cada método, de cada função, para compreender o passo a passo que o computador realiza para chegar a determinado output, e ter o trabalho insubstituível do ser humano de validar se o método X ou a análise Y ou o recorte ou amostragem Z são as mais apropriadas para uma análise mais próxima de explicar a realidade.
Data Science, Análise e Visualização de Dados
Todo dia, um grande volume de dados é criado. Nem todos esses dados são processados. Quanto menos analisados. Menos ainda, estão estruturados. Vivemos na Era da Informação. A Humanidade passou pela Revolução Agrícola, Industrial e vivemos a Revolução Digital.
Ao realizar um trabalho de Data Science, dentro de uma empresa, é importante que os resultados da sua análise, seja compreensíveis, para qualquer um que pegar e ler o relatório/apresentação, e não somente você, ou um Cientista de Dados.
Por isso, é importante também ter soft-skills e boas habilidades de comunicação, para ''vender seu peixe''. Explicar cada ponto ao público que você deseja atingir, para não apenas apresentar gráficos, mas contar histórias, que tenham significado e relevância para as métricas do seu negócio. Sua análise tem que entregar o valor de interpretar como é a realidade, mas também oferecer um caminho de apontar o que deve ser feito com essas informações que temos agora!
The Best Story Wins ;)
Data Science e Machine Learning
Machine Learning tá ná moda, não é mesmo? Hoje todo mundo quer ler e ouvir sobre aprendizado de máquina, mas na verdade, são poucas as pessoas que realmente entendem como ela funciona rsrs..
Machine Learning, se trata de um campo de estudo de inteligência artificial (IA), que atua na construção de sistemas que se evoluem e se auto-otimizam, conforme consomem novos dados, ou seja os sistemas aprendem através dos dados disponíveis e às vezes, dos próprios dados gerados. Alguns exemplos simples de tecnologias de Machine Learning, com as quais temos contato, em situações banais do dia-a-dia, acontecem, por exemplo, quando fazemos compras online ou utilizamos um aplicativo de banco, como o Nubank..
A aplicação está ali lendo e mapeando cada interação e rastro de pixel que você deixa dentro do programa, para interpretar o seu comportamento como usuário, e extrair informações estratégicas que podem melhorar o aplicativo pra cada um de nós, quando esses dados são analisados em massa. No final do dia, vai ser ou mudar um botão de lugar, ou desaparecer com determinada funcionalidade, ou redesenhar a navegação de experiência do usuário. Podem parecer coisas pequenas, não é mesmo? Mas geram grandes resultados de negócio e constroem melhores e mais inteligentes aplicativos para nós seres humanos.
Utilizando as técnicas de Machine Learning e Inteligência Artificial, é possível ter campanhas de marketing diretamente segmentados e personalizadas por cada tipo de usuário. Outro exemplo, é a forma como você digita no seu celular, e as sugestões do corretor automático, que utilizam tecnologia de NPL ou Natural Language Processing e já advinham o que iríamos falar em seguida, não é mesmo?
É importante ressaltar que se o programa ''decora'' uma resposta de output, sempre que você, como usuário, dá X input, isso não é considerado Aprendizado de Máquina, e sim um programa pobre que vai sempre dar o mesmo resultado. Para ser considerado Machine Learning, a máquina, ou o programa recebe um conjunto de dados de treino para alimentar seu modelo de Machine Learning, em seguida, recebe um novo conjunto de dados para testar seu modelo, e aí sim, avaliar se a máquina aprendeu a dar as respostas esperadas com base no conjunto de dados de treino, e para finalizar, será avaliado o nível de assertividade, ou acurácia do seu modelo. Normalmente modelos bons de Machine Learning ficam nas casa entre 95%-99% de acurácia, mas também é algo que vai variar muito dependendo dos dados que você inputa.
Seu modelo de Machine Learning será tão bom quanto os dados que você utilizar para alimentá-lo
Dentro de Machine Learning, existem diferentes tipos de aprendizado de máquina, são eles:
Machine Learning e Aprendizagem Supervisionada
Machine Learning com aprendizagem supervisionada, é uma técnica, onde estabelecem-se modelos de entrada de dados conhecidos e saída de previsões.
A Aprendizagem Supervisionada trabalha apenas com dados conhecidos, ou seja, classifica as suas informações através dos rastros que você já deixou anteriormente. Através de entradas de dados anteriores ele pode fazer previsões e deduções.
Machine Learning e Aprendizagem Não-Supervisionada
Machine Learning com aprendizagem não-supervisionada trabalha com padrões ocultos, também chamada de "Clustering", essa especificação permite construir estimativas para informações complexas e sem registros no sistema, pois o cruzamento das respostas mais bem-sucedidas configura a condição de "conhecimento" da máquina.
Data Science como Carreira
Se programador de sistemas é a profissão do século, um cientista de dados é a profissão do milênio. Por muito tempo o petróleo foi um dos bens mais valiosos e cobiçados do mundo. Hoje, é a informação. Data is the New Oil.
Procuram-se profissionais no mercado com essas habilidades. E advinha? São pouquíssimos os especialistas em Data Science, quanto mais no Brasil. Claro não existe cientista de dados ''unicórnio'', como chamam no mercado, capaz de dominar todas as tecnologias e linguagens citadas acima, e que seja capaz de realizar uma análise completa, de ponta à ponta. Pra isso, você vai precisar de um time, cada um com uma especialidade diferente e complementar.
De acordo com ComputerWorld, a Comissão Europeia estima que até 2020 serão criadas 100 mil novas vagas para
Data Scientists no continente.
Um estudo realizado pela IBM também indica um crescimento bastante acelerado da carreira, com 364 mil novas vagas esperadas até 2020 nos EUA. Em 2018, o crescimento do número de vagas para Data Scientist, foi previsto para aproximadamente, 56%, de acordo com o LinkedIn, que considera ‘Cientista de Dados’ a carreira mais promissora da nova década de 2020.
E aí, acha que Ciência de Dados é pra você, mas ainda tem dúvida?
Agenda um call comigo para conversarmos sobre Carreira & Tecnologia, sem compromisso
aqui neste link!
Mas, se você já tem certeza que quer aprender essa skill para adicionar ao seu ''stack'' e não sabe por onde começar? A Le Wagon tem um
bootcamp completíssimo de Data Science começando do zero. From zero to Hero. Sem pegadinhas. E melhor, sem pré-requisitos.
Spoiler, um dos professores por tras da criação do curriculo é o Kevin Robert, PHD Researcher pelo Centro Nacional de Ciência da França. É mole? Se liga no Linkedin dele
aqui. Mas nao foi so ele, tambem contribuiram data scientists de empresa como airbnb ou instacart. Não é a toa que o programa ja entrou no ranking de melhores bootcamps de Data Science do mundo no
Course Report.
Começamos a aprender desde a mexer no terminal e pegamos o básico até o avançado de
Python, passando por NumPy e Pandas e análise de dados, Web Scraping até Machine Learning e Deep Learning com redes neurais e esteiras completas de ML !
Curtiu?
Só se increver nesse link. E corre viu? As vagas estão sempre acabando...