Perguntas com a marcação «dataset»

As solicitações de conjuntos de dados não são abordadas neste site. Use esta tag para perguntas relacionadas à criação, processamento ou manutenção de conjuntos de dados.

93
Testes essenciais de verificação de dados

Na minha função, muitas vezes trabalho com conjuntos de dados de outras pessoas, os não especialistas me trazem dados clínicos e os ajudo a resumir e executar testes estatísticos. O problema que estou tendo é que os conjuntos de dados que eu trouxe são quase sempre repletos de erros de digitação,...

53
APIs / feeds de dados disponíveis como pacotes em R

EDIT: A exibição da tarefa CRAN de Tecnologias e Serviços da Web contém uma lista muito mais abrangente de fontes de dados e APIs disponíveis no R. Você pode enviar uma solicitação pull no github se desejar adicionar um pacote à exibição da tarefa. Estou fazendo uma lista dos vários feeds de...

46
Interpretação do preditor e / ou resposta transformada em log

Gostaria de saber se faz diferença na interpretação se apenas as variáveis ​​dependentes, dependentes e independentes ou apenas as independentes são transformadas em log. Considere o caso de log(DV) = Intercept + B1*IV + Error Eu posso interpretar o IV como o aumento percentual, mas como isso...

30
Visualizando as Interseções de Muitos Conjuntos

Existe um modelo de visualização bom para mostrar a sobreposição de interseção de muitos conjuntos? Estou pensando em algo como os diagramas de Venn, mas que de alguma forma podem se prestar melhor a um número maior de conjuntos, como 10 ou mais. A Wikipedia mostra alguns diagramas de Venn de...

29
Como lidar com dados hierárquicos / aninhados no aprendizado de máquina

Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2,...

28
Cálculo da repetibilidade dos efeitos de um modelo mais antigo

Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the...

27
Os graus de liberdade podem ser um número não inteiro?

Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data =...