O que faz um Cientista de Dados?

Você já ouviu falar na carreira de cientista de dados? É uma área que cresceu muito nos últimos anos. Você está iniciando sua carreira de tecnologia e não sabe bem para onde quer ir? Ou está na área já algum tempo e quer perseguir algo diferente? Quem sabe a área de ciência de dados não é a certa para você?

Atividades do cientista de dados

Um cientista de dados tira valor de dados brutos e os transforma em informações, este processo é conhecido como “data mining” ou “mineração de dados”. Ele tem este nome pois é necessário encontrar as pedras preciosas que estão escondidas na grande quantidade de dados que os sistemas atuais mantém.

Estes dados estão separados em diversos sistemas e o cientista de dados agrega todos os dados em um único lugar para que possa fazer análises. Com essas análises é possível entender como o negócio está funcionando, entender pontos onde pode melhorar, criar novas funcionalidades, analisar comportamentos de usuários, descobrir desperdícios. O cientista de dados utiliza um pouco de programação focado em transformação de dados. Por exemplo transformar os dados que obtém de um sistema no formato em que outro sistema compreende. Há também um grande peso em análise estatística para identificação de padrões e tendências e para isto ele também utiliza programação.

Este profissional é responsável por criar relatórios visuais com gráficos que mostram diferentes áreas da empresa. As empresas se baseiam em informações para tomar decisões inteligentes sobre o negócio e como a quantidade de dados que temos hoje é gigantesca, o profissional especializado nisto tem grande valor. O resultado do trabalho expõe oportunidades escondidas que podem dar idéias de um novo produto ou uma nova funcionalidade e fazem a diferença para o futuro da empresa. É preciso também ser cuidadoso para garantir que os dados estejam completos e corretos pois qualquer erro pode significar um resultado completamente diferente da realidade.

Machine Learning

Também é comum a prática de machine learning por esses profissionais. O aprendizado de máquina é um dos ramos da área de Inteligência Artificial. Em vez de um ser humano criar modelos analíticos eles são criados automaticamente pelo software de machine learning. O software aprende com os dados e cria esses modelos automaticamente. Porém o mais interessante é que esses modelos são atualizados incrementalmente de acordo com os dados recebidos, por isto o termo aprendizado, é literalmente o software se alterando e se adaptando conforme são expostos a novos dados.

Este tipo de software já está presente no nosso dia-a-dia sem nos darmos conta, um exemplo fácil de entender é o algoritmo de recomendações do Netflix. Outro exemplo são sistemas de detecção de fraudes. Como os mal intencionados estão sempre inventando novas maneiras de fraude, estes sistemas são preparados para aprenderem e identificarem novos tipos de fraude sozinhos.

Qual é a área de estudo de um cientista de dados?

Você deve estar se perguntando qual é a área de estudo de um cientista de dados. O mais comum é que o cientista de dados tenha um background em ciência da computação, engenharia da computação ou matemática aplicada. Mas não vejo por que profissionais de outras áreas não possam se especializar em ciência de dados por um mestrado ou pós-graduação por exemplo.

Minha experiência com ciência de dados

Na empresa onde trabalho atualmente temos duas mulheres que são cientistas de dados. Trabalhei com uma delas em uma análise de um experimento que fizemos. Havíamos criado uma maneira diferente de exibir informações para os usuários e queríamos saber se essa maneira era mais eficiente. Nosso software coleta diversos eventos gerados pelos usuários, como cliques em botões, tempo entre uma ação e outra e a efetivação de uma compra. O resultado que obtivemos com o experimento não foi suficiente para gerar conclusões definitivas sobre a nova versão, então pedimos ajuda à ela para investigar melhor. E ela nos deu várias pistas do que havia acontecido e nos mostrou um subconjunto específico de usuários para o qual a nova interface havia obtido melhores resultados. E aí vem o poder do cientista de dados, nós estávamos analisando os dados como um todo, pois este era o relatório que tínhamos acesso. Mas ela, como tinha acesso aos dados brutos foi capaz de identificar uma categoria de usuários que havia se beneficiado do novo modelo.

Esta carreira é para você?

Gostou do que viu até agora? Então se faça as perguntas abaixo para descobrir se seu perfil é compatível com o perfil de um cientista de dados.

  • Gosta de matemática, estatística, ciência da computação, gerenciamento de informações ou marketing?
  • Tem interesse em análise e coleta de dados?
  • Gosta de trabalhar em solução de problemas?
  • Tem facilidade de se comunicar verbalmente e visualmente?
  • Gostaria de expandir suas habilidades e aceitar novos desafios?

Você deve estar pensando por que marketing está na lista de interesse. Acontece que uma das áreas da empresa que se beneficia muito das análises feitas pelos cientistas de dados é justamente a área de Marketing. Uma pessoa que está na área de Marketing e que tem interesse por esta área mais analítica pode se dar muito bem.

E por que a comunicação é tão importante? Por que é preciso conseguir expressar conceitos complexos de formas simples. Este profissional se comunica com todas as áreas da empresa com perfis de pessoas totalmente distintos, é preciso saber expressar suas idéias de forma simples para pessoas que não são técnicas compreenderem.

Em alta em 2020

Esta profissão está em alta em 2020. O relatório do LinkedIn sobre as quinze profissões emergentes no Brasil em 2020, lista o cientista de dados em quinto lugar apontando empresas de Tecnologia, Serviços e Bancos como os mais interessados neste profissional. Atualmente as linguagens mais utilizadas pelos cientistas de dados são as linguagens Python e R.

E então o que achou? Faz sentido para você? Nunca é tarde para começar os estudos em uma nova área!

Relatório completo LinkedIn: Profissões Emergentes no Brasil em 2020.