top of page

Problemas de Data science: o mito do Big Data e o perigoso retorno do positivismo

O texto abaixo foi extraído integralmente do porta D-Van

Nos últimos tempos, os termos Big Data, Data Science e Machine Learning são repetidos à exaustão e vendidos como cura universal, panaceia para a solução de problemas. Elas vão além do uso desnecessário e inescrupuloso dos conceitos. Minha principal objeção é de cunho lógico-filosófico.

Um dos pensadores que admiro bastante é o Karl Popper. Ele deve ganhar um espaço maior aqui no futuro, mas vou resumir algumas ideias para a discussão.

Popper trabalhou de forma contundente na teoria do conhecimento e foi responsável por um golpe duro nos positivistas, escola filosófica forte no século passado. De quebra, bateu de frente com a psicanálise, o marxismo e até mesmo o evolucionismo de Darwin.

Karl Popper, foi um filósofo da ciência austríaco naturalizado britânico. É considerado por muitos como o filósofo mais influente do século XX a tematizar a ciência

O positivismo nasceu com Comte e tem uma série de características próprias. Uma delas é a defesa de uma expansão gradual da ciência, cujo corpo de conhecimento se beneficiaria de um exame sistemático do universo. Segundo essa linha de pensamento, a observação sequencial de fenômenos permite derivar leis de uma forma indutiva.

Um exemplo trivial de erro nessa abordagem é apresentado no “A lógica da pesquisa científica”. Os cisnes negros.

A ilustração de Popper é simples. Por milênios, acreditamos que todos os cisnes eram brancos, uma vez que a observação sequencial deles sugeria essa inferência. Somente em 1697, uma expedição na Austrália observou a existência de cisnes negros. A propósito, essa observação inesperada deu origem ao título do best seller de Nassim Taleb.

Expandindo o exemplo para outros contextos, concluímos que não é seguro tirar conclusões de forma indutiva em ciência. Isto porque, ao contrário de conceitos matemáticos, a natureza não é uma entidade regular. Existe sempre a possibilidade de irregularidades, exceções em algum lugar do universo.

Já que é impossível garantir a veracidade de uma teoria com base em observações prévias, a melhor alternativa é pensar no sentido contrário. As melhores teorias são aquelas que fazem previsões úteis e explicam não só fatos conhecidos no momento da criação, como também aqueles que surgem depois.

A física de Newton descreve em leis a trajetória de corpos celestes. Estas regras se adequaram aos corpos observados à época de Newton e também se mostraram úteis diversas vezes quando aplicadas a novos astros descobertos. Ela seria frágil se os novos casos não confirmassem suas predições.

Os positivistas acreditavam em alcançar o conhecimento através da coleta sistemática de observações e da posterior interpretação racional e lógica. Popper coloca holofotes na estrutura a priori e na capacidade dessa estrutura para fazer predições futuras.

A qualidade de uma teoria não está na capacidade de se adequar aos fatos conhecidos. Dado um conjunto de dados, é possível bolar infinitas explicações a posteriori. Dado um conjunto de pontos, é possível traçar infinitas curvas que passem por eles. No fim das contas, o que determina a adequação de uma bom modelo teórico (ou de uma curva) é o desempenho futuro: prever novos fatos (ou pontos/observações).

Entra o “Big Data”

A princípio, a análise de grandes volumes de dados é uma ferramenta valorosa. Entretanto, tenho críticas importantes dentro do tema.

Foco na ferramenta e panaceia.
A principal consequência negativa do hype em torno de Big Data é a atenção dada ao brinquedo. Um paralelo legal é com a tecnologia de neuroimagem para a psiquiatria. A aquisição de imagens por ressonância magnética foi um importante avanço instrumental para a área e permitiu testar hipóteses interessantes. Entretanto, a sofisticação do método e o consequente prestígio em torno do uso acabam ofuscando a identidade real do objeto, que é uma ferramenta. Cria-se uma cultura desproporcional em torno do utensílio e espera-se que ele resolva questões fundamentais da área. O mesmo está acontecendo com Big Data. Uma má notícia: não vai acontecer.
Ferramentas permitem avanços, mas não garantem mudanças de paradigma. Cada área do conhecimento evolui em seu próprio ritmo.
Da mesma forma, vemos o Big Data ser vendido como panaceia e, repetidamente, frustrando expectativas. Talvez uma das mais famosas seja a do genoma humano. O Human Genome Project foi um projeto financiado pelo NIH americano, levando 13 anos para mapear todo o genoma de nossa espécie.

A esperança e o barulho em torno das revoluções que essa grande quantidade de dados traria eram gigantes. 6 bilhões de nucleotídeos depois e aqui estamos. Foi um avanço importante? Sim. Correspondeu ao que se esperava? Não. Ao contrário do que propõe a intuição positivista, ter acesso ao código genético inteiro não significa descobrir um modelo útil para explicar os mecanismos importantes. Sem mudanças de paradigma.

Menos aparatos foram usados por Francis Crick e alguns colaboradores para revolucionar a genética alguns anos antes. Mostraram como se dá a codificação genética numa série de experimentos em 1961 (“Crick, Brenner et al. experiment”, 1961), alguns anos depois de a mesma equipe ter descoberto a estrutura de dupla-hélice em 1953.

O empirismo ingênuo e o retorno do positivismo

Contudo, a fábula vendida sugere que grandes insights surjam de modelos por não especialistas no espaço de meses. Tal qual na filosofia positiva, espera-se que a observação sistemática de dados traga a luz. Como argumentei antes, sem um modelo teórico sólido e hipóteses testáveis, é logicamente ingênuo achar que grandes quantidades de dados e machine learning vão garantir respostas.

Você vai chegar a resultados satisfatórios com essa fórmula, mas é realmente tudo que temos a oferecer? Quais feitos trouxeram atenção para esta área e como eles se deram?

Recentemente, o grupo de pesquisa do GoogleDeepMind apresentou grandes façanhas em inteligência artificial, como criar um agente de arquitetura única que aprende a jogar diferentes videogames em nível profissional apenas com imagens da tela ou um programa capaz de um campeão mundial de Go (jogo chinês complexo). Eles não fizeram isso somente alimentando um algoritmo padrão com centenas de jogo do Atari ou partidas de Go. A equipe trabalhou para desenhar modelos adequados (um modelo híbrido e Deep Q-Learning, respectivamente).

Os dados são necessários, mas, por si, não dizem muito. É o esmero na integração entre tecnologia e área de conhecimento que produz soluções extraordinárias.

Papel do Data Scientist

O papel do cientista de dados está em integrar machine learning e tecnologias atuais com o conhecimento específico em cada área. E vai além. Quando possível, traduzir os modelos aplicados para extrair novas perspectivas significativas no contexto da área de pesquisa ou aplicação comercial.

Isso é fundamental para fomentar o progresso do conhecimento. De que maneira os resultados de uma análise mudam a percepção dos agentes sobre o campo de estudo? O projeto genoma humano mudou a forma como estudamos genética? O modelo preditivo ajudou o hospital/plano de saúde a olhar para os pacientes certos? Como o sistema de informações modificou o dia-a-dia dos profissionais?

A propagação global de Big data e machine learning tem o potencial de mudar muitos campos, mas depende fortemente da integração entre ferramenta e expertise.

Essas são as minhas grandes questões para os dados grandes.

Para ler o texto em sua origem clique aqui

Para saber mais:

  • Crick FH, Barnett L, Brenner S, Watts-Tobin RJ (December 1961). “General nature of the genetic code for proteins”. Nature. 192 (4809): 1227–32. Bibcode:1961Natur.192.1227C. doi:10.1038/1921227a0. PMID13882203.

  • J. Craig Venter1,The Sequence of the Human Genome. Science 16 Feb 2001: Vol. 291, Issue 5507, pp. 1304–1351 DOI:10.1126/science.1058040

  • Zugman, André, Sato, João R., & Jackowski, Andrea P.. (2016). Crisis in neuroimaging: is neuroimaging failing 15 years after the decade of the brain?. Revista Brasileira de Psiquiatria, 38(4), 267–269. https://dx.doi.org/10.1590/1516-4446-2016-2071

bottom of page