Ana Paula Appel é pesquisadora e cientista de dados da IBM Research, o laboratório de pesquisas da IBM no Brasil, além de ter uma carreira acadêmica cheia de realizações e sempre focada no universo dos dados. O tema virou paixão na universidade, no curso de Computação onde foi parar seguindo o sonho de ajudar George Lucas a criar os efeitos especiais das sequências da franquia Star Wars. Não chegou a ver seu trabalho nas telonas, mas acabou se tornando uma das profissionais mais gabaritadas atualmente no país em sua área de atuação e hoje ajuda indústrias como a de finanças, da agricultura e de recursos naturais por meio de ciência e dados e ainda contribui para maior participação feminina na área de tecnologia. Na entrevista a seguir, concedida a nós na inconfundível sede da IBM em São Paulo, ela fala sobre sua trajetória, a questão do gênero no mercado e os conselhos para as empresas que queiram começar a usar dados para melhorar seus negócios. Confira:

Você trabalha na IBM Research do Brasil há quase oito anos. Nos últimos dois, esteve dedicada ao grupo de Visual Analytics e Insight da empresa. O que pode nos contar sobre o trabalho que desenvolve atualmente nessa área?

Deixa só eu trazer um pouco de contexto primeiro. O Laboratório (IBM Research) hoje tem cinco grandes áreas. Temos o grupo de Recursos Naturais, que trabalha com a parte de petróleo, gás e mineração. Sabe-se que para perfurar um poço de petróleo custa milhões de dólares, o mesmo para mineração, então temos pesquisas voltadas para questões de análise de imagens sísmicas, dados sísmicos e ajudar os geocientistas a tomar essas decisões e usar tecnologias a seu favor, como inteligência artificial. A gente tem um grupo de Tecnologia e Ciência Industrial que desenvolve pesquisa e desenvolvimento de ponta em materiais, tecnologias e processos para aplicações em escala industrial, as áreas foco incluem: Análise Química Móvel, um exemplo disso é o Agropad, que é um paper-based­ device que você pinga a água e ele consegue, baseado na coloração que vai ficar, dizer como é que está aquela água. Além disso há pesquisa em nanotecnologia para recuperação aprimorada de petróleo. (Ver artigo publicado na nature) Hoje, a gente também tem o grupo de Agricultura, que tem a ideia de trabalhar com dados, georreferenciados ou não, envolvendo a agricultura, modelo de clima para prever plantio. Tem o grupo a que eu pertencia antes, que se chamava Social Data Analytics e hoje se chama Conversational Interfaces, ou Interfaces Conversacionais, e eles estão voltados para a parte de diálogo dos bots e suas interações. E foi por conta dessa mudança que acabei indo para outro grupo, como o foco deixou de ser Social Data Analytics e eu venho disso, meu mestrado e meu doutorado foram na área de Mineração de Dados, acabei indo para o grupo que estava mais interessado em dados. Nessa época, quando eu mudei, ainda se falava da questão de saúde, ainda trabalhávamos com isso. Hoje, com o redirecionamento da estratégia da IBM Brasil, não focamos mais em dados de pacientes, de imagem, e sim no aspecto financeiro, seguradoras de saúde e pagamentos. E aí foi por isso que eu acabei mudando para o grupo de Visual Analytics e Insights. Ele também está ligado a essas duas indústrias (recursos naturais e agricultura). Hoje, o laboratório da IBM é um laboratório de pesquisa, mas para aplicações industriais. Então, temos muito foco em fazer pesquisa aplicada para uma indústria, seja para a indústria de recursos naturais, seja para a indústria agrícola, seja para a indústria de finanças, setores que usem esses dados. Então, o meu grupo acaba trabalhando um pouco com essa questão de dados de recursos naturais, com dados de agricultura. Eu tenho trabalhado com dados financeiros e modelos de predição de pagamentos. Imagina que você tenha faturas e você quer, por exemplo, saber se as pessoas irão pagar em dia ou irão atrasar pra você saber o seu balanço de caixa, quanto vai ter de dinheiro, que ação você deve tomar, por exemplo, se deve ligar para cobrar e quando ligar. O grupo de Visual Analytics e Insights é um grupo que está muito focado nessa questão de dados, de modelos de dados, mas tendo sempre como base essas indústrias e aplicações práticas.

Você falou sobre essa mudança de foco, deixando de lado a área da saúde, mas várias das suas publicações e pesquisas giram bastante em torno dessa área. Pode falar um pouco sobre elas?

Fizemos esse trabalho em 2015 com uma seguradora de saúde. Foi um projeto interessante, com duração de três meses. Eles compartilharam com a gente uma base de dados de pagamentos e disseram: “Olha, a gente quer ver o que vocês conseguem tirar disso aqui”. Eu tinha dados de pagamentos para médicos e reembolsos. Nós não tínhamos dados de outcome de pacientes, de laudos, de consultas, nada disso. Então, como era algo mais exploratória e com pouco tempo, resolvemos fazer algo totalmente fora da caixa: usamos redes complexas, grafos, para mapear isso. Nós criávamos relacionamento entre médicos, porque não sabíamos se esses médicos se conheciam ou não. No nosso grafo, os nós eram os médicos e se eles tinham pacientes em comum nós criávamos uma ligação, uma aresta. E aí tinha uma questão temporal, se foi primeiro em um médico ou em outro, isso trazia um peso diferente. Então, por conta do volume de dados, você conseguia perceber que existia muito o fator indicação, de forma direta ou indireta. Também conseguíamos ver o fluxo do paciente, e a partir disso identificar possíveis fraudes, por exemplo. Havia pacientes que iam de um médico para outro com zero dias de diferença. Além disso, nós víamos coisas como uma ida e muitas voltas no mesmo médico, mas isso numa área em que essa seguradora tinha pouca representatividade, então provavelmente isso indicava que eles tinham poucos médicos na rede credenciada e as pessoas acabam tendo que ficar circulando nos mesmos. Em São Paulo e no Rio de Janeiro, que a presença era maior, você já via que tinha médicos que despontavam. E aí, surge o questionamento: como faço para levar pacientes para outros médicos? E é importante dizer que anteriormente esses dados eram completamente descartados, eram dados que eles não usavam para nada. E isso acabou rendendo publicações, a gente fez todo um trabalho com grafos, interface, visualização de dados, então foi um trabalho bem bacana que gerou uma significativa produção de propriedade intelectual.

Legenda: Exemplo de visualização de rede complexa, com grafos (Crédito: ICMC USP São Carlos)

Além do que você relatou, o que considera como principal insight que conseguiram tirar desse trabalho com a área de saúde?

No meu ponto de vista, esse é um mercado que ainda tem muita coisa pra desenvolver. Há um grande problema de privacidade dos dados, além desses dados estarem muito espalhados, em formatos muito diferentes, principalmente se você olharmos para os dados de pacientes e de sistemas de hospitais. Eles têm diversos protocolos, sejam de imagem ou de dados do paciente, então só para fazer essas coisas conversarem já é difícil. Hoje, dependendo do lugar em que você faz exame de sangue, eles já começam a manter um histórico, você vê se o seu colesterol melhorou ou piorou, mas se você muda o lugar, você perde isso. Hoje ainda não resolveram a integração desses dados, de como compartilhar com outros hospitais, caso o paciente migre, por serem dados sensíveis.

Então, é uma área que tem muito potencial por ter um volume de dados muito grande, ou seja, é uma área onde a ciência de dados tem muito a contribuir. Hoje já temos trabalhos, seja em detecção de imagem, para tratamento e combate do câncer, etc, temos iniciativas como Watson Health, e o Watson for Oncology.. Mas eu acho que aqui no Brasil as coisas como um todo demoram um pouco pra chegar. É aquela coisa, não adianta você vir com um sistema complexo, com modelos super avançados, se você não tem essa cultura de armazenar os dados e tê-los estruturados. Se você colocar lixo na frente de um modelo ele vai cuspir lixo, por melhor que seja o modelo (risos). Tem um problema de cultura. Acho que os grandes hospitais e os grandes laboratórios já estão no caminho, estão pensando nisso, mas o principal ponto da saúde é que você não tem o negócio bem unificado. Para as empresas onde eu peço comida, por exemplo, não interessa o que eu pedi via o concorrente, mesma coisa com os serviços de streaming. Para a saúde já não. O resultado que eu tive naquele hospital ou laboratório continua sendo importante. Existe um grande problema de colaboração e integração de dados. E talvez haja outras tecnologias, como blockchain por exemplo, que possam vir resolver isso, porque você consegue combinar a integridade dos dados e segurança.

Você faz parte da organização do workshop Women in Data Science (WinDS) e está envolvida com iniciativas STEAM voltadas para ajudar mulheres a chegarem aos campos da tecnologia, ciência, dados e matemática. Como vê a participação das mulheres nesses segmentos hoje?

Eu acho que ainda é pequena. Como tudo na tecnologia. Eu acho que tem crescido, os estudos dizem que na área de ciência de dados ela é maior do que em outras áreas, como desenvolvimento. Então eu acredito que isso está melhorando, mas ainda é uma corrida a longo prazo, porque é um trabalho que você tem que começar na base. Claro que a promoção de fóruns, comunidades, role models para mulheres se inspirarem é interessante. Mas você também tem todo um trabalho mais de base que é relevante, para inspirarem meninas ainda na escola. Aqui na IBM temos iniciativas para isso, A Eliana Basso, gerente do programa de Iniciativas Acadêmicas, promove visitas técnicas de universidades e escolas de ensino médio. Os alunos vêm, passam uma tarde, conhecem a IBM. A IBM tem um programa chamado P-TECH também, tudo isso para incentivar essa meninada a ir para a área de tecnologia.

Especificamente para a área de ciência de dados, eu e algumas colegas criamos o workshop Women in Data Science (WinDS), que sempre acontece em uma grande conferência. No caso dos últimos dois anos foi na The Web Conference. No primeiro ano foi muito engraçado porque recebemos algumas mulheres do Oriente Médio e uma delas falou assim: “Onde eu moro não tem esse problema. Como falta mão de obra, as pessoas não ficam preocupadas se é homem ou mulher. Eu preciso de uma pessoa com os skills para trabalhar, independente do gênero dessa pessoa”. Então, eu acho que com essa grande demanda da área de ciência de dados, isso vai acabar acontecendo. Não interessa se é homem ou mulher, interessa que eu preciso de uma pessoa com os skills adequados para trabalhar naquilo. Uma pessoa competente. Isso tudo tende a melhorar num futuro próximo. O gargalo ainda acontece, porque ainda precisamos formar essas pessoas, ou seja, ter pessoas caminhando para essa área.

No meu caso, especificamente, hoje existe uma certificação para ciência de dados do The Open Group, e a IBM foi uma das primeiras empresas a entrar como membro pra tirar a certificação, que começou no final do ano passado. E eu fui a primeira pessoa, não só mulher, da IBM no Brasil, a conseguir a certificação L2 (nível 2 de 3) em ciência de dados. Agora estou trabalhando nos requisitos para conseguir a L3. Então, eu acho que quando você faz isso, você dá exemplo para as pessoas, mostra que é possível, é o caminho. Não adianta só ficar no discurso.

Legenda: Primeiro Workshop Women in Data Science em Houston, Texas (EUA) (Crédito: WinDS)

Como foi para você, pessoalmente, ingressar nessa profissão? Como surgiu o interesse e por quais etapas você passou antes de chegar onde está?

Eu sempre gostei muito da área de Exatas. Sempre fui muito melhor com Matemática e Física do que com Português. E eu sempre fui apaixonada por filmes de ficção científica. Então, eu fui fazer Computação porque o meu sonho era trabalhar com o George Lucas para fazer a continuação do Star Wars (risos). Esse era o meu sonho! Eu lembro que eu nem tinha computador, nunca tinha mexido num computador, eu não fazia ideia, eu só tinha visto joguinhos no computador de uma colega. Mas aí eu passei na UFSCar, em São Carlos, cidade onde nasci e morava, e fui fazer Computação. E no primeiro ano eu arrumei uma iniciação científica em Realidade Virtual. Detestei. Odiei. Porque não tinha máquina. Naquela época, para você trabalhar com Realidade Virtual você precisava de uma Silicon Graphics, você não tinha GPU a torto e a direito como você tem hoje, eu entrei na faculdade em 1997. Aí achei que aquilo não tinha futuro.

Depois eu fui fazer a disciplina de banco de dados. E me apaixonei por banco de dados, por toda essa questão de SQL, modelo relacional… Quando eu terminei a faculdade eu fui fazer estágio no CPQD em Campinas, mas eu não dei muito certo porque eu gostava da parte de banco de dados, mas pra contratar eles só tinham vagas para suporte e para teste de software. Assim, acabei me decidindo por adquirir mais conhecimento e fui aceita no mestrado na área de Banco de Dados e indo pra USP de São Carlos para experimentar uma universidade diferente, já que a UFSCar eu já conhecia por conta da graduação.

Para mim, naquela época, trabalhar com banco de dados era ser DBA (administrador de banco de dados), e eu não queria por isso fui para o mestrado para a parte de pesquisa. Então em 2000 fazendo uma das disciplinas do mestrado eu me deparei com um artigo de 1996 do Usama M. Fayyad e do Gregory Piatetsky-Shapiro sobre mineração de dados. E quando eu li aquele artigo, eu me apaixonei pela área. Falei, “É isso que eu quero fazer! É com isso que eu quero trabalhar”. E então eu fui direcionando o meu mestrado, o meu doutorado para essa área. Hoje, as pessoas do mercado, costumam chamar isso de CRISP-DM, que é o processo desde quando você coleta ou fala com o cliente até você entregar uma solução de ciência de dados, machine learning, data mining, ou o nome que você queira dar. Para a parte acadêmica isso se chama KDD (Knowledge-discovery in Databases). Na época, quando os autores pensaram o processo, eles pensaram em bancos de dados, porque na época as informações só ficavam nos bancos de dados, você mal tinha internet, então os dados eram estruturados. Você fazia data warehouse, trabalhava com cubo para analisar. Era o que hoje o povo gosta muito de chamar de BI (Business Intelligence).

Eu fiz o mestrado e decidi trabalhar com isso, queria fazer pesquisas, e engatei o doutorado. Passei um ano fora, na Universidade Carnegie Mellon (EUA), com o professor Christos Faloutsos em 2008. Nisso, estava acontecendo o boom de análise de redes sociais, e o Christos Faloutsos é um dos grandes pesquisadores na área. Eu acabei direcionando a minha linha de pesquisa para trabalhar com grafos. E aqui no Brasil são pouquíssimas pessoas que trabalham com essa área. Seja em banco de dados, seja em mineração, tem um ou outro professor. Tem pessoas mais voltadas para as redes sociais, para análise de padrões de comportamento, mas pra fazer mineração mesmo ou até usar questão de deep learning, tem poucas pessoas que trabalham com isso no país. Tem até muita gente aqui na IBM que, principalmente por esse trabalho na área de saúde, com os grafos, que fala, “Ah, é a Ana Paula dos grafos” (risos). Porque não é todo mundo que trabalha com isso. Mas, de fato, eu cair nessa área não foi nada planejado.

E para chegar na IBM? Você chegou a dar aulas também, certo?

Quando eu terminei o doutorado foi uma época que estava difícil para concursos e eu acabei indo parar na Federal do Espírito Santo, no campus de São Mateus, que é quase divisa com a Bahia. Fiquei um ano e pouco lá, só que meu marido já trabalhava na USP, na área de TI, em São Carlos, e dificilmente lá em São Mateus no Espírito Santo ele arrumaria emprego, a não ser que ele virasse professor também, só que ele não curte dar aula (risos). Eu tinha prestado concurso para a UNB, estava programada para ir para Brasília, quando vi a chamada para o Laboratório (IBM Research), ou seja, que estavam começando a contratar e precisavam de uma pessoa na área de data mining — naquela época ninguém falava cientista de dados. Então resolvi arriscar, nunca tinha trabalhado em empresa, mas como eles estavam querendo alguém com doutorado nessa área, me candidatei, fui chamada para a entrevista e acabou dando certo. Voltei para São Paulo porque ficava bem mais perto da minha família e meu marido conseguiria a transferência para a USP de São Paulo.

Pensei em ver o que ia dar, como era trabalhar em empresa, fazer pesquisa dentro de empresa, que era algo novo no Brasil. Acabei adorando, porque a parte de ciência de dados é uma das áreas com mais ligação com a indústria. Eu brinco que se você pegar esse artigo do Fayyad de 1996, ele começa falando, “Existe um grande volume de dados com que as pessoas não conseguem trabalhar e esse grande volume de dados pertence às indústrias”. Mesmo o artigo sendo de 20 anos atrás, o primeiro parágrafo continua sendo totalmente verdadeiro e atual. Porque continuamos não conseguindo lidar com o volume de dados, porque ele cresce exponencialmente, e os dados continuam concentrado nas indústrias. Então, se você quer fazer pesquisa em ciência de dados, a academia é muito boa para fazer a pesquisa teórica, modelos e arquiteturas de modelos, mas os dados interessantes estão na indústria, ou seja, estão nos clientes. Eles têm os problemas interessantes. Para a ciência de dados é preciso essa ligação com a academia porque você precisa estar sempre vendo modelos novos, sempre estudando, indo à conferências e publicando, e você precisa da indústria porque você tem que trabalhar com os dados do cliente. Hoje você tem a internet, claro, consegue pegar um monte de dados online, mas os dados interessantes são os dados do cliente, muitas vezes confidenciais, ou seja, são os problemas reais.

Quais são as suas recomendações para uma empresa que queira utilizar dados hoje para alavancar seus negócios? Como ela tem que planejar?

Acho que a primeira coisa é fazer um planejamento para coletar e guardar os dados com cuidado e de forma estruturada. Porque não adianta ela querer fazer análise sem pensar nos seus bancos de dados, ou seja, nos dados que gostaria de usar. Existe muita desinformação, as pessoas acham que você pode pegar qualquer dado na internet, não é bem assim, não é porque o dado está lá que pode pegar, que ele é público. Ou que dados do Twitter e de redes sociais vão ajudar. Às vezes, não.

Nesse projeto de saúde, uma das grandes coisas que a gente mostrou para a empresa foi que eles tinham muitos dados dentro de casa que podiam ajudar. Não adianta querer pegar dado de fora, às vezes aquele seu dado que você não dá bola pode te ajudar a descobrir um monte de coisa sobre o seu negócio. Muitas vezes a empresa não vê importância porque não armazena da melhor forma. Ou porque alguém não coletou da melhor forma, ou porque não armazenou. Não adianta guardar um monte de coisas que depois eu não sei onde está e não consigo trabalhar com aquilo. Então é preciso guardar de uma maneira estruturada para que eu possa utiliza-lo. E o que a gente vê hoje é muitos confundem machine learningdata mining e ciência de dados com mágica. Como se fosse vir alguém e fazer alguma coisa super grandiosa, te dar um super resultado e resolver todos os seus problemas. E não é bem assim.

Outro ponto aí é que muitas vezes os clientes vêm com as perguntas, mas não têm os dados que respondam àquelas perguntas. Você tem duas abordagens: você pode olhar pros dados e ver o que aquele dado diz, uma análise exploratória, descobrir um padrão; e às vezes você tem uma pergunta que esse dado precisa responder. E se você não tem aquele dado, precisa descobrir como conseguir ou como coletar. Então, como tudo na vida, você precisa ter um planejamento. Na maioria das vezes, o que existe ali já dá para começar. Você não vai precisar de 10 anos de dados históricos na maioria das vezes. Até porque, de lá para cá, muita coisa mudou. Talvez eu precise de dois anos ou até um ano só. Mas aí você precisa saber o que foi que guardou. Se não guardou nada, não vai ter o que fazer.

#ibmresearch #justalittledata #cienciadedados #datascientist #datascience #cientistadedados #dados #data #research #pesquisas