Faz apenas oito anos desde que DJ Patil – então líder de dados e análises no LinkedIn – cunhou o termo “cientista de dados”, mas a profissão já se tornou uma das mais popular do país .
Patil está há muito tempo envolvida na indústria de dados. Como estudante de doutorado e membro subsequente do corpo docente da Universidade de Maryland, ele usou conjuntos de dados abertos da NOAA para ajudar a melhorar a previsão numérica do tempo. Por quase dois anos, ele foi diretor de estratégia, análise e produtos do eBay, Inc.; ele passou quase três anos no LinkedIn; e ele está escrito livros sobre a cultura de dados e a construção de produtos de dados. No ano passado, a Casa Branca declarou seu próprio apoio à ciência de dados por nomeação Patil como seu primeiro Cientista de Dados Chefe dos EUA e como Vice-Diretor de Tecnologia para Política de Dados no Escritório de Política de Ciência e Tecnologia.
Por que o governo decidiu que precisava de um cientista de dados chefe e o que essa posição implica? A Science Friday conversou com Patil sobre o que o fez se interessar por dados, o que significa ser um “cientista de dados” e para onde ele vê a indústria indo.

Como você começou a trabalhar com dados?
Eu sou péssimo em matemática, em geral. Mal passei nas aulas de matemática no ensino médio e tive muita sorte de ir para uma faculdade na mesma rua [na Califórnia] chamada De Anza College. A melhor decisão que tomei foi fazer a mesma aula que minha namorada [risos], e ela fez cálculo, então eu fui e fiz essa aula de cálculo. E eu fiquei tipo, ‘Puta merda, eu não sei nada; isso é extremamente embaraçoso.” Eu realmente tive esse momento de decidir realmente aprender, e também para impressionar minha namorada. Eu meio que aprendi muito rapidamente e me apaixonei pela matemática.
De lá, me transferi para a UCSD, onde comecei realmente a trabalhar em muitos aspectos de dados em torno da teoria do caos. De lá, fui para a Universidade de Maryland, a casa da teoria do caos, e um dos meus conselheiros foi Jim [James] Yorke, que cunhou o termo ‘ teoria do caos .'
Começamos a trabalhar na previsão do tempo . Nós realmente tropeçamos em que o clima não era tão caótico quanto as pessoas acreditavam anteriormente. A maneira como fizemos isso foi eu entrando todas as noites por volta das 20h, 21h, assumindo secretamente todos os computadores do departamento de matemática e depois baixando todos esses dados do Serviço Nacional de Meteorologia, separando-os, reunindo-os em maneiras diferentes - e depois sair antes das 8 da manhã, quando alguém entrava. E isso nos permitiu encontrar esses padrões realmente interessantes. Esse foi um momento 'a-ha!' para mim, oh uau, você pode fazer coisas realmente incríveis se conseguir obter dados. Depois que fizemos isso, essa se tornou uma das principais técnicas usadas na previsão do tempo.
Você então ajudou a cunhar o termo ' cientista de dados ’ (com Jeff Hammerbacher, então gerente de dados do Facebook), certo?
Sim. É bom e ruim. Acho que há essa questão interessante de: Bem, o que é um cientista de dados? Não é apenas um cientista? Os cientistas não usam apenas dados? Então, o que esse termo significa mesmo?
Você teve um dos meus co-autores, Hilary Mason, no show, e a coisa sobre a qual brincamos e escrevemos juntos é que a primeira coisa sobre a descrição do trabalho dos cientistas de dados é que é amorfo. Não há nada específico que você faça; o trabalho meio que incorpora todas essas coisas diferentes. Você faz o que precisa fazer para resolver um problema.
Se você está construindo um carro autônomo, quem são essas pessoas que estão construindo o carro autônomo? Eles são cientistas de dados – sejam eles gerentes de produto, designers, o que quer que sejam. São as pessoas que estão usando essas técnicas e ideias da economia, da estatística, do aprendizado de máquina, da inteligência artificial, de todas essas disciplinas para fazer funcionar especificamente, para fazer o carro dirigir de uma maneira que o mantenha seguro e outros seguros também.
Os melhores cientistas de dados têm uma coisa em comum: curiosidade inacreditável.
Como o setor de dados mudou e por que você acha que se tornou popular ser um cientista de dados?
Acho que a razão pela qual o aspecto da ciência de dados realmente floresceu agora é que as pessoas são capazes de coletar dados com muito mais facilidade do que antes; não é muito esforço para fazê-lo. A segunda é, agora que as pessoas podem coletar uma quantidade suficiente de dados, há essa questão de, ok, então o que devemos fazer com isso? E quem vai realmente fazer isso?
Como você acha que a Casa Branca percebeu que precisava de um cientista-chefe de dados?
Bem, uma das coisas que as pessoas nem sempre levam em consideração é quanto foco esse presidente colocou nos dados desde o primeiro dia. Mesmo se você recuar em sua campanha, ele está muito focado em usar dados de novas maneiras de se envolver com o público. Entrando na administração, ele se concentrou em tudo, desde como os pacientes obtêm mais acesso aos dados, até como garantir que estamos usando dados para transparência – [ou seja,] aumentando a quantidade de dados abertos por aí. Nós criamos data.gov , onde há quase 200.000 conjuntos de dados disponíveis para todos. Como usamos os dados para melhorar os serviços para todos? Na verdade, [o presidente Obama] uma ordem executiva que todos os dados governamentais por padrão são abertos e legíveis por máquina, e que os dados publicados usando dólares de pesquisa federais devem ser gratuitos, porque quem pagou por eles? Os contribuintes. (Há uma janela de tempo em que queremos que os periódicos [de saúde] tenham acesso exclusivo, mas, a longo prazo, o público não deveria pagar por isso.)
Assim como ele foi o primeiro presidente a ter um diretor de tecnologia, ele reconheceu que é preciso haver uma equipe focada em como podemos liberar o poder dos dados para realmente beneficiar todos os americanos.
Você já ocupou essa posição por mais de um ano. Qual é a sua conquista de maior orgulho até agora?
A conquista da qual mais me orgulho até agora é que os cientistas de dados estão agora fortemente engajados em trabalhar nesses problemas, e muitas das agências federais agora têm uma equipe de dados ou um cientista-chefe de dados ou um diretor de dados. Pegue o transporte, por exemplo. Eles têm um diretor de dados focado em: Como o Departamento de Transportes pensa de uma maneira inovadora sobre isso? O National Institutes of Health tem uma pessoa focada em novas formas de pensar sobre dados. O mesmo acontece com o Departamento de Agricultura dos EUA. Até a USAID. Então, todos estão pensando nos dados como um multiplicador de força.
“Os melhores cientistas de dados têm uma coisa em comum: uma curiosidade inacreditável.”
Para onde você vê o futuro da indústria de dados?
A coisa mais empolgante para mim sobre o futuro é como os dados farão parte de cada conversa e que, como resultado, tomaremos decisões mais rápidas e de maior qualidade. O que acontecerá é que não analisaremos os dados apenas uma vez a cada 10 anos para avaliar alguma coisa - estaremos analisando os dados com muita regularidade e corrigindo o curso em muito mais tempo real. E isso vai permitir que o governo preste melhores serviços e seja mais ágil.
Que conselho você daria para quem quer se tornar um cientista de dados?
Nunca há um momento melhor para começar. Basta ir para data.gov . Existem quase 200.000 conjuntos de dados onde, se você começar a baixá-los, brinque com eles. Uma das coisas mais legais que você pode fazer agora é trabalhar com dados no nível de sua cidade local. Há um Dia Nacional do Civic Hacking [em 4 de junho de 2016], e o que vai acontecer naquele dia em todo o país é que as pessoas farão um hackathon em sua cidade local, trabalharão em dados em nível local. Eles podem usar esses dados para melhorar suas comunidades locais.
Quais você acha que são alguns dos maiores desafios enfrentados pelo setor de dados?
Algo que eu acho muito importante, que eu pedi, é que todo programa de treinamento – seja graduação, pós-graduação ou cursos on-line em ciência de dados – deve ter ética de dados não como algo eletivo, mas como um princípio central de como fazemos coisas. Quando trabalhamos com dados, você tem oportunidades incríveis de fazer grandes coisas com eles e também tem a capacidade de fazer algo que pode ser muito problemático. Estamos vendo onde as pessoas usaram dados de maneiras que achamos fundamentalmente erradas. As pessoas começaram a falar sobre isso e o que devemos fazer sobre isso. Acho que temos que ter uma conversa muito mais forte. Os componentes de privacidade são igualmente importantes.
Também acho que temos que treinar muito mais pessoas para usar os dados. 'Usar dados' significa como ler um gráfico no nível mais básico, até fazer coisas muito sofisticadas. Capacitar as pessoas com dados em suas vidas diárias faz com que as pessoas tenham melhor controle de seu destino. Isso poderia ser algo tão simples como: Como você escolhe a faculdade? É por isso que trabalhamos tanto com o Departamento de Educação para construir o Scorecard da faculdade , que dá transparência às pessoas de uma forma inovadora.
Você já teve alguma reação negativa em seu papel?
A maior reação que acho que existe é como gerenciamos o aspecto de privacidade disso e como pensamos simultaneamente em segurança cibernética? A razão pela qual eu não acho que reação seja a palavra certa é porque todos reconhecem o valor aqui, então não é um 'mas' - é um 'e'. Como usar dados e preservar a privacidade e garantir a cibersegurança? Não tenho ninguém que esteja bravo com os problemas em que estamos trabalhando; Acho que o que temos como problema é: Por que você não está trabalhando este ? Talvez essa seja a maior reação.
Então, como você lida com essas preocupações sobre privacidade e segurança cibernética?
Estou muito focado neles. Na verdade, eles estão integrados em tudo o que fizemos. Por exemplo, no Iniciativa de Medicina de Precisão , nós lançamos Princípios de privacidade e confiança que, acreditamos, será o aplicativo para qualquer pessoa que esteja fazendo esse tipo de pesquisa biomédica. E então lançamos o rascunho da estrutura de segurança para qualquer um desses tipos de pesquisa daqui para frente, e finalizaremos isso muito em breve. Então, praticamos o que pregamos, pois a ética dos dados é um componente incrível de cada coisa que fazemos.
Este artigo foi editado por questões de espaço e clareza.