Sou assistente de pesquisa de um laboratório (voluntário). Eu e um pequeno grupo fomos encarregados da análise de dados para um conjunto de dados extraídos de um grande estudo. Infelizmente, os dados foram coletados com um aplicativo on-line de algum tipo e não foram programados para gerar os dados da forma mais utilizável.
As figuras abaixo ilustram o problema básico. Foi-me dito que isso é chamado de "Remodelar" ou "Reestruturar".
Pergunta: Qual é o melhor processo para passar da Figura 1 para a Figura 2 com um grande conjunto de dados com mais de 10 mil entradas?
r
excel
data-cleaning
Wilkoe
fonte
fonte
data.table
,dplyr
,plyr
, ereshape2
- eu recomendo evitar Excel e tabelas dinâmicas, se possível.Respostas:
Como observei no meu comentário , não há detalhes suficientes na pergunta para que uma resposta real seja formulada. Como você precisa de ajuda para encontrar os termos certos e formular sua pergunta, posso falar brevemente em generalidades.
Em certo sentido, a limpeza de dados pode ser feita em qualquer software e no Excel ou no R. Haverá prós e contras nas duas opções:
R: R exigirá uma curva de aprendizado acentuada. Se você não estiver muito familiarizado com R ou com programação, coisas que podem ser feitas com muita rapidez e facilidade no Excel serão frustrantes ao tentar em R. Por outro lado, se você precisar fazer isso novamente, esse aprendizado terá sido tempo bem gasto. Além disso, a capacidade de escrever e salvar seu código para limpar os dados em R aliviará os contras listados acima. A seguir, estão alguns links que ajudarão você a iniciar essas tarefas no R:
Você pode obter muitas informações boas sobre o Stack Overflow :
O Quick-R também é um recurso valioso:
Colocando números no modo numérico:
Outra fonte inestimável para aprender sobre o R é o site de ajuda de estatísticas da UCLA :
Por fim, você sempre pode encontrar muitas informações com o bom e velho Google:
Atualização: esse é um problema comum em relação à estrutura do seu conjunto de dados quando você tem várias medidas por 'unidade de estudo' (no seu caso, uma pessoa). Se você tiver uma linha para cada pessoa, seus dados estarão em formato "amplo", mas você terá necessariamente várias colunas para sua variável de resposta, por exemplo. Por outro lado, você pode ter apenas uma coluna para sua variável de resposta (mas, como resultado, várias linhas por pessoa); nesse caso, seus dados são considerados na forma 'longa'. Mover-se entre esses dois formatos geralmente é chamado de "remodelar" seus dados, especialmente no mundo R.
reshape()
no site de ajuda de estatísticas da UCLA.reshape
é difícil trabalhar. Hadley Wickham contribuiu com um pacote chamado reshape2 , cujo objetivo é simplificar o processo. O site pessoal de Hadley para reshape2 está aqui , a visão geral do Quick-R está aqui e há um tutorial bonito aqui .fonte
Tente seguir usando R:
fonte
No scala, isso é chamado de operação "explodir" e pode ser feito em um dataFrame. Se seus dados forem um primeiro, você primeiro converte em dataFrame via
toDF
comando e depois usa o.explode
métodofonte