Destaque, OxPol, Política O que o “big data” pode ensinar aos cientistas políticos
Luckey_sun / Creative Commons / Flickr

Destaque, OxPol, Política

O que o “big data” pode ensinar aos cientistas políticos

Share on FacebookTweet about this on TwitterShare on TumblrShare on Google+Share on LinkedInEmail this to someonePrint this page

Os megadados podem ser a transformação mais significante deste século no campo da pesquisa

Por Niels Goet*

Big Data, ou megadados em português, se tornou um jargão na área da ciência política. Alguns podem considerar isso uma hipérbole. Outros enxergam liberar o poder dos megadados como a transformação mais significante deste século no campo da pesquisa.

No universo da pesquisa, os megadados parecem estar fazendo jus a sua promessa. E os resultados incluem uma onda de novos e inspiradores projetos.

O que é Big Data, ou megadados?

Big Data não é apenas a pesquisa que utiliza um vasto conjunto de observações. É possível pensá-lo como a reinterpretação de indagações “large-n” (termo referente ao conceito de pesquisa que busca padrões em um grande número de casos para comparação), lidando com centenas de milhares e, em alguns casos, milhões de observações. Big Data significa um N (variável que se refere ao tamanho de uma amostra de pesquisa) gigante.

Mas é uma questão maior do que quantidade. Em sua conhecida palestra no Ted Talk, Erez Lieberman Aiden e Jean-Baptiste Michel prestativamente distinguem o tópico entre dois eixos de pesquisa: o prático, e, por falta de uma melhor definição, “incrível”. Eles sugerem que praticidade ainda é o centro dos megadados, o que amplia os limites do que é tecnicamente factível. Análise de megadados como um campo estimula avanços em computação, métodos, disponibilidade de dados, matemática, etc. Esses avanços nos permitem levar projetos ainda mais adiante.

Com a palavra “incrível”, Aiden e Michel aproveitam um “americanismo” por uma boa causa: os megadados nos permitem engajar com grandes transformações em longo prazo. Agora podemos investigar tendências prolongadas, que cientistas políticos estão geralmente mal preparados para mapear por meio de bases de dados tradicionais.

Ademais, os megadados afetaram a natureza e a nuance de possíveis questões de pesquisa. Ao invés de concentrarmo-nos naquilo que um político diz, podemos avaliar milhões de discursos ao longo de centenas de anos para mostrar como a linguagem política muda ao longo do tempo, ou como um tipo específico de tema contencioso se desenvolve. Se aplicado corretamente, com milhões de observações à nossa disposição, podemos observar modelos inéditos; analisar o comportamento político tanto no nível agregado quanto no de base; e capturar fenômenos nunca antes explorados.

Embora a análise de megadados force profissionais ao extremos, tanto da viabilidade e dos eixos “incríveis”, ela o faz com menos barreiras à entrada. O que era impossível há duas décadas é factível em questão de minutos com pouco mais que um laptop, um software estatístico livre, como o R, ou o conhecimento de linguagens de programação simples, como o Python.

Não é surpreendente, portanto, que um número crescente de artigos empregue métodos de megadados. Isso engloba desde o uso de discursos da House of Commons (equivalente à Câmara dos Deputados no Brasil) para delinear a capacidade de resposta ministerial (Eggers e Spirling, 2014), a novas medidas de ideologia política baseadas em 100 milhões de observações de registros de contribuição financeira (Bonica 2014).

Os benefícios dos megadados

O futuro da ciência exploratória se encontra ao longo dos extremos destes dois eixos. Usando os megadados podemos nos engajar com algumas das maiores perguntas em uma variedade de disciplinas científicas, incluindo as ciências sociais, humanas e ciências naturais. Esta tendência febril é impulsionada por dois interessantes desenvolvimentos. Em primeiro lugar, a melhora na velocidade da captação de dados, que atualmente duplica a cada ano. Em segundo, os “rápidos avanços das técnicas de inteligência artificial, seja o processamento de linguagem natural, reconhecimento de padrões ou aprendizagem automática (machine learning, em inglês)”.

Mais especificamente, os megadados melhoram a pesquisa de ciência política em três aspectos importantes. Primeiro, auxiliam na geração de hipóteses. Com a disponibilidade em massas de novos dados, além de nossa recém-descoberta habilidade de manipular e investigá-los rapidamente e de forma barata, podemos observar modelos não antes observados. Desta capacidade melhorada para descrever e explorar dados vem a possibilidade de gerar novas e interessantes hipóteses.

Em segundo lugar, os megadados ajudam a identificar variáveis instrumentais. Quando cientistas políticos não podem medir o fenômeno de interesse diretamente, eles tendem a utilizar um proxy (ou “instrumento”) intimamente correlacionado com a variável de interesse. De acordo com Clark e Golder, “os megadados podem ajudar na medida em que tornam visíveis variáveis antes não observáveis, reduzindo assim a necessidade de um instrumento, ou disponibilizando potenciais novos instrumentos”.

Em terceiro lugar, os megadados nos permitem dimensionar pesquisas para cima ou para baixo de forma mais eficaz. Podemos projetar experimentos em uma escala previamente impossível nas ciências sociais graças a “dados granulares” (Grimmer 2015), enquanto expandimos informações codificadas à mão em conjuntos de dados maiores com aprendizagem automática. Ao mesmo tempo, com mais dados em meio a uma maior variedade de contextos, pesquisadores podem formular e testar hipóteses em um nível mais detalhado.

Sebastian Sikora / Creative Commons / Flickr

Sebastian Sikora / Creative Commons / Flickr

Exemplos: O que podemos fazer com os megadados?

A análise de megadados pode ser aplicada em diversas formas interessantes. Abaixo temos dois exemplos.

Previsão: Mensurando sentimento político 

Um número crescente de cientistas políticos apoiam-se em dados do Twitter para medir preferências políticas. O Twitter é uma corrente de dados enorme, com cerca de 200 bilhões de tweets por ano.

Podemos avaliar esses dados de maneira barata com algo chamado análise de sentimento supervisionado e agregado (SASA, em inglês). Primeiramente, um grande subconjunto de textos (neste caso, tweets) são analisados por codificadores humanos e classificados com base no sentimento que transmitem. Em geral, a codificação distingue entre sentimentos negativos e positivos, mas um esquema mais complexo também pode ser adotado. Em seguida, esses dados são inseridos em um algoritmo que “instrui-se” sobre o que é um texto positivo e negativo e, finalmente, o algoritmo é aplicado a todo o conjunto de dados.

Como cientistas políticos podem usar esta informação? Se podemos avaliar como as pessoas se sentem sobre um determinado fenômeno baseado em tweets, podemos semelhantemente usar tweets para medir os seus sentimentos em relação a candidatos políticos. Isso é útil para prever resultados de eleições. Em um post anterior no OxPol, por exemplo, Andrea Ceron, Luigi Curini, e Stefano M. Iacus discutem o uso de SASA para analisar a eleição primária italiana de 2012.

Mensurando ideologia política 

A análise computacional de texto foi recentemente aplicada a grandes conjuntos de discursos dos parlamentos para medir a posição ideológica de legisladores (Lowe e Benoit, 2013; Schwarz et al, 2015). Tradicionalmente, cientistas políticos têm se baseado em registros de votos para estimar pontos ideais. Mas em sistemas parlamentaristas, no qual a disciplina partidária é elevada e o debate é relativamente aberto, tais métodos não são particularmente eficazes: o voto é frequentemente estratégico e revela pouco em termos de ideologia.

Debates, por outro lado, costumam fornecer dados textuais significativos que podem ser analisados e utilizados para estimar posições ideológicas. Os esforços de digitalização de alguns parlamentos (incluindo o Reino Unido e os legisladores dos EUA) disponibilizaram para pesquisadores grandes conjuntos de discursos que datam desde o início do século XIX. Com os algoritmos existentes, milhões de discursos podem ser dimensionados em questão de horas.

Pesquisadores usam algoritmos de computador, tais como Wordscores ou Wordfish,  para codificar essa massa de dados textuais. Ambos os programas se baseiam em frequências de palavras relativas. O primeiro é o chamado método “supervisionado” e requer um especialista para codificar dois textos de referência (cada um em ambos os extremos do espectro político). O algoritmo posteriormente dimensiona discursos (“textos virgens”) de acordo com a similaridade de uso da palavra em comparação com os textos de referência.

Com Wordfish, que se enquadra na categoria “sem supervisão”, o algoritmo calcula uma própria dimensão latente subjacente, e coloca discursos (ou outros textos) neste espaço unidimensional. Aqui, o desafio de validação de medidas encontra-se na fase de pós-avaliação, onde os investigadores têm de demonstrar que estão realmente capturando uma dimensão de conflito.

Apesar dos esperados desafios de qualquer novo regime de pesquisa, os megadados oferecem uma nova promissora via para aferir preferências políticas no parlamento –  uma informação que deve beneficiar pesquisas sobre mudança institucional, tomada de decisão e diversas outras áreas.

Aproveitando o poder dos megadados

Os megadados não estão imunes a críticas. Um dos desafios mais importantes com megadados é, um tanto paradoxalmente, a sua escala. Conforme o número de observações aumenta, o mesmo ocorre com o risco de falsos positivos (erros tipo I). É por isso que Justin Grimmer, professor-assistente na Universidade de Princeton (EUA), pede que cientistas de megadados se tornarem cientistas sociais. Eu não poderia concordar mais. Técnica é necessária para fazer sentido de todos os dados: nenhum algoritmo de computador pode substituir uma profunda compreensão de um assunto, nem pode substituir uma sólida inferência causal.

Como cientistas políticos, precisamos pensar profundamente sobre como ampliar nossa pesquisa e pensar criticamente sobre as perguntas que estamos fazendo, as hipóteses que formulamos, as afirmações causais que asseveramos, e, em geral, como projetamos nossas pesquisas.

Se acertarmos, podemos aproveitar o poder de milhões, ou até bilhões de observações. E apenas imagine a quais perguntas poderemos responder. “Nós realmente estamos apenas começando”, diz Gary King, renomado estatístico de Harvard. “Mas a marcha de quantificação, tornada possível por enormes novas fontes de dados, vai se espalhar pela academia, empresas e governo. Não há nenhuma área que ficará intocada. “

*Niels Goet é doutorando em Política no Departamento de Política e Relações Internacionais da Universidade de Oxford. Os interesses de pesquisa de Goet incluem mudança institucional em parlamentos, debates parlamentares e métodos quantitativos. Ele é professor-assistente no Oxford Q-Step Centre.

Artigo publicado originalmente em OxPolAcesse o texto original aqui.

Este artigo foi traduzido para o português por Gabriel Bonis sob a orientação do Politike. 

___

Outras referências

Lohr, Steve (11th February 2011). “The Age of Big Data.” The New York Times. Available at: http://www.nytimes.com/2012/02/12/sunday-review/big-datas-impact-in-the-world.html.

Monroe, Burt L. (2011). “The Five Vs of Big Data Political Science Introduction to the Virtual Issue on Big Data in Political Science.” Political Analysis 19: 66-86.

Proksch, Sven-Oliver and Jonathan B. Slapin (2008). “A Scaling Model for Estimating Time-Series Party Positions from Texts”. American Journal of Political Science 52 (3), pp. 705–722.

Deixe um comentário