O blog Guerrilheiro do Entardecer levantou uma intrigante questão quanto à última pesquisa eleitoral do Datafolha: a amostra estratificada por regiões não era proporcional à população de cada região.
Fui até o site do TSE, onde é possível pesquisar o plano amostral das pesquisas eleitorais (o protocolo da pesquisa em questão é 6617/2010).
A amostra é estratificada por região geográfica, Unidade da Federação e porte dos municípios. Em cada estrato, num primeiro estágio, são sorteados os municípios que farão parte do levantamento. Num segundo estágio, são sorteados os bairros e pontos de abordagem onde serão aplicadas as entrevistas. Por fim, os entrevistados são selecionados aleatoriamente para responder ao questionário, de acordo com cotas de sexo e faixa etária. Os dados utilizados para definição e seleção da amostra são baseados no IBGE (censo 2000 e estimativas 2009).
Vê-se, pois, que, no plano amostral, não há previsão de que a estratificação seja proporcional à população das regiões do país, mas para corrigir estes dados, prevê-se uma ponderação dos resultados:
No processamento dos dados é realizada ponderação referente à proporção de cada cidade na amostra para correta representação das regiões. Está prevista a eventual ponderação para correção nos tamanhos dos segmentos da tabela acima considerando as variáveis sexo e faixa etária. Para as variáveis grau de instrução e nível econômico do entrevistado (renda familiar mensal), o fator previsto para ponderação é 1 (resultados obtidos em campo).
Vê-se, pois, que o número bruto de pessoas pesquisadas no sudeste é proporcionalmente maior do que as pesquisadas no nordeste, mas, ao final, a base ponderada mantém a proporcionalidade em relação à população total das regiões.
O grande problema da pesquisa, me parece ser a forma de abordagem dos entrevistados: na rua. Como bem ponderou @ALuizCosta no Twitter:
A questão é que nem todos têm a mesma chance de serem achados na rua em dia de semana. Operários menos que estudantes, p. ex.
Pessoas ocupadas têm menos chance de serem achadas na rua e, mesmo que saiam, de ter tempo para parar e serem entrevistadas
Deficientes físicos, doentes crônicos e outras pessoas retidas em casa por diferentes motivos também ficam sub-representadas
Além do viés do pesquisador, que pode pular pessoas que encontra na rua se não vai com a cara delas
Acrescento a isso a maior facilidade de fraude em uma pesquisa com este tipo de abordagem. É muito simples descartar questionários indesejáveis. Já uma pesquisa com visita a domicílios, previamente sorteados e registrados em um relatório, permitiria a auditoria dos dados com uma simples nova visita ao domicílio pesquisado.
O controle das pesquisas eleitorais ainda é muito incipiente no Brasil, mas é reconfortante perceber que mais e mais pessoas não estão se contentando em receber apenas os números da pesquisa, mas buscam entender sua metodologia de forma crítica.
