maio 25, 2014

Ainda R e a PNAD

Duas dicas para o trabalho com microdados usando o pacote em R criado pelo professor Anthony Damico e devidamente linkado no site do IBGE na página da pesquisa:

1) Para os usuários Mac, podem ocorrer problemas com a tradução de certas palavras na pesquisa quando os códigos são baixados direto do site do professor Damico. Este problema de "encoding" pode ser (ao menos parcialmente) resolvido acrescentando uma linha no começo do código principal:

options( encoding="LATIN-9" )

O professor Damico já tinha sugerido algo parecido em outras bases de dados, mas usar o mesmo "encoding" sugerido ("WINDOWS-1252") não funcionava para a pesquisa brasileira. Com o "LATIN-9", tudo funciona direito. Para que a "tradução" dos códigos para o Mac seja completa, é necessário também alterar os links quando os comandos "source_url" e "download" são chamados, substituindo espaços por "%20".

A propósito, o professor Damico é muito atencioso com o feedback que oferecem sobre o uso dos códigos e eventuais problemas: além de responder os e-mails com dúvidas muito rapidamente, ele tem um pequeno aplicativo com chat disponível no site que permite um contato mais eficiente quando ele está no ar.

2) A respeito do código da PNAD, um pequeno truque para os interessados na parte de rendimentos: para calcular o rendimento médio dos entrevistados, é necessário excluir os "NAs" das respostas ao questionário. Eu, neófito no trabalho com microdados, e ainda mais neófito no trabalho com o R, demorei para aprender que, nas opções do comando "svymean", existe uma chamada "na.rm=TRUE", que elimina os "NAs" da amostra ao calcular a média. O comando deve ser usado com cuidado: se for generalizado no código, todas as amostras que possuem algum valor inválido terão elementos descartados, o que nem sempre é apropriado.

Se você, leitor, já conhecia a opção do comando, desculpe, mas é o papo de criança que ganhou brinquedo novo, tem que dar um desconto.

Saudações!

maio 03, 2014

R: Elogio ao IBGE

Possivelmente o pessoal de microeconomia, desenvolvimento, entre outras áreas, já sabe do que vou falar por aqui, mas acho que vale o registro, de toda a forma. Estava precisando fazer algumas inferências com base na PNAD do IBGE e notei um pequeno link colocado bem embaixo da página da pesquisa, no próprio site do IBGE.


Achei interessante a idéia de manipular os microdados, isto ajudaria bastante na pesquisa que estou fazendo e resolvi tentar. O link leva para um blog com um repositório significativo de códigos em R desenvolvidos para operar com pesquisas populacionais do mundo inteiro, e as principais pesquisas na área do IBGE (PNAD, POF e PME) estão por lá, com códigos bastante simples para fazer o download, organizar os dados e extrair os elementos desejados. Os exemplos são muito intuitivos também, ensinando como trabalhar com totais da população, médias de outras variáveis associadas às observações de indivíduos, formação de subamostras categorizadas, entre outros.

Neste aspecto, também, colabora muito a qualidade dos microdados divulgados pelo IBGE: todos os dicionários, conceitos e definições estão disponíveis no site, deixando tudo mais fácil para operar. Outro ponto bacana é a variedade de códigos disponibilizada pelo IBGE: existe uma versão alternativa do programa, (se entendi bem) desenvolvida por técnicos da instituição, mas nem por isto a versão alternativa deixa de ganhar destaque no site.

Este bom trabalho da instituição me permite economizar tempo e possibilita uma análise mais apurada do que quero fazer. Em uma época tão tumultuada para os técnicos de lá, fica aqui registrado mais um elogio (já tinha feito em outra oportunidade) ao IBGE.

Saudações!