Perguntas com a marcação «missing-data»

15
Qual é a intuição por trás de amostras intercambiáveis ​​sob a hipótese nula?

Os testes de permutação (também chamados de teste de randomização, teste de re-randomização ou teste exato) são muito úteis e úteis quando a suposição de distribuição normal exigida por, por exemplo, t-testnão é atendida e quando a transformação dos valores pela classificação do teste...

15
A precisão da máquina de aumento de gradiente diminui à medida que o número de iterações aumenta

Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <-

14
Posso reconstruir uma distribuição normal do tamanho da amostra e dos valores mínimo e máximo? Eu posso usar o ponto médio para proxy da média

Eu sei que isso pode ser um pouco complicado, estatisticamente, mas esse é o meu problema. Eu tenho muitos dados de intervalo, ou seja, o tamanho mínimo, máximo e amostral de uma variável. Para alguns desses dados, também tenho uma média, mas não muitos. Quero comparar esses intervalos entre si...

12
Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <-...

12
80% dos dados ausentes em uma única variável

Há uma variável nos meus dados que possui 80% dos dados ausentes. Os dados estão ausentes devido à inexistência (ou seja, quanto empréstimo bancário a empresa deve). Me deparei com um artigo dizendo que o método de ajuste de variável fictícia é a solução para esse problema. O que significa que eu...

12
Técnicas para lidar com dados incompletos / ausentes

My question is directed to techniques to deal with incomplete data during the classifier/model training/fitting. For instance, in a dataset w/ a few hundred rows, each row having let's say five dimensions and a class label as the last item, most data points will look like this: [0.74, 0.39, 0.14,...

11
R / mgcv: Por que os produtos tensores te () e ti () produzem superfícies diferentes?

O mgcvpacote para Rpossui duas funções para ajustar as interações do produto tensorial: te()e ti(). Entendo a divisão básica do trabalho entre os dois (ajustando uma interação não linear versus decompondo essa interação em efeitos principais e uma interação). O que não entendo é o porquê te(x1,...

11
Como lidar com dados inexistentes (não faltando)?

Eu realmente nunca encontrei um bom texto ou exemplos sobre como lidar com dados 'inexistentes' para entradas para qualquer tipo de classificador. Eu li muito sobre dados ausentes, mas o que pode ser feito sobre dados que não podem ou não existem em relação às entradas multivariadas. Entendo que...