maio 25, 2014

Ainda R e a PNAD

Duas dicas para o trabalho com microdados usando o pacote em R criado pelo professor Anthony Damico e devidamente linkado no site do IBGE na página da pesquisa:

1) Para os usuários Mac, podem ocorrer problemas com a tradução de certas palavras na pesquisa quando os códigos são baixados direto do site do professor Damico. Este problema de "encoding" pode ser (ao menos parcialmente) resolvido acrescentando uma linha no começo do código principal:

options( encoding="LATIN-9" )

O professor Damico já tinha sugerido algo parecido em outras bases de dados, mas usar o mesmo "encoding" sugerido ("WINDOWS-1252") não funcionava para a pesquisa brasileira. Com o "LATIN-9", tudo funciona direito. Para que a "tradução" dos códigos para o Mac seja completa, é necessário também alterar os links quando os comandos "source_url" e "download" são chamados, substituindo espaços por "%20".

A propósito, o professor Damico é muito atencioso com o feedback que oferecem sobre o uso dos códigos e eventuais problemas: além de responder os e-mails com dúvidas muito rapidamente, ele tem um pequeno aplicativo com chat disponível no site que permite um contato mais eficiente quando ele está no ar.

2) A respeito do código da PNAD, um pequeno truque para os interessados na parte de rendimentos: para calcular o rendimento médio dos entrevistados, é necessário excluir os "NAs" das respostas ao questionário. Eu, neófito no trabalho com microdados, e ainda mais neófito no trabalho com o R, demorei para aprender que, nas opções do comando "svymean", existe uma chamada "na.rm=TRUE", que elimina os "NAs" da amostra ao calcular a média. O comando deve ser usado com cuidado: se for generalizado no código, todas as amostras que possuem algum valor inválido terão elementos descartados, o que nem sempre é apropriado.

Se você, leitor, já conhecia a opção do comando, desculpe, mas é o papo de criança que ganhou brinquedo novo, tem que dar um desconto.

Saudações!

Nenhum comentário: