Perguntas com a marcação «classification»

43
Suposições aleatórias da floresta

Eu sou uma espécie de floresta aleatória, então ainda estou lutando com alguns conceitos básicos. Na regressão linear, assumimos observações independentes, variação constante… Quais são as suposições / hipóteses básicas que fazemos quando usamos floresta aleatória? Quais são as principais...

42
Por que reduzir a amostra?

Suponha que eu queira aprender um classificador que prevê se um email é spam. E suponha que apenas 1% dos e-mails sejam spam. A coisa mais fácil a fazer seria aprender o classificador trivial que diz que nenhum dos emails é spam. Esse classificador nos daria 99% de precisão, mas não aprenderia...

41
Como interpretar os valores da medida F?

Eu gostaria de saber como interpretar uma diferença dos valores da medida f. Sei que f-measure é uma média equilibrada entre precisão e recordação, mas estou perguntando sobre o significado prático de uma diferença nas medidas f. Por exemplo, se um classificador C1 tem uma precisão de 0,4 e outro...

37
SVM, sobreajuste, maldição da dimensionalidade

Meu conjunto de dados é pequeno (120 amostras), no entanto, o número de recursos é grande varia de (1000 a 200.000). Embora eu esteja fazendo a seleção de recursos para escolher um subconjunto de recursos, ele ainda pode se ajustar demais. Minha primeira pergunta é: como o SVM lida com o...

35
PCA e a divisão trem / teste

Eu tenho um conjunto de dados para o qual tenho vários conjuntos de rótulos binários. Para cada conjunto de rótulos, treino um classificador, avaliando-o por validação cruzada. Quero reduzir a dimensionalidade usando a análise de componentes principais (PCA). Minha pergunta é: É possível executar...

34
Por que existe uma diferença entre calcular manualmente um intervalo de confiança de 95% da regressão logística e usar a função confint () em R?

Caro pessoal, notei algo estranho que não sei explicar, não é? Em resumo: a abordagem manual para calcular um intervalo de confiança em um modelo de regressão logística e a função R confint()fornecem resultados diferentes. Eu tenho passado pela regressão logística aplicada de Hosmer & Lemeshow...