Aqui, estou perguntando sobre o que outras pessoas costumam fazer para usar o teste do qui quadrado para a seleção de recursos com resultados errados no aprendizado supervisionado. Se bem entendi, eles testam a independência entre cada recurso e o resultado e comparam os valores de p entre os testes de cada recurso?
Em http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,
O teste qui-quadrado de Pearson é um teste estatístico aplicado a conjuntos de dados categóricos para avaliar a probabilidade de qualquer diferença observada entre os conjuntos surgir por acaso.
...
Um teste de independência avalia se as observações emparelhadas em duas variáveis, expressas em uma tabela de contingência , são independentes uma da outra (por exemplo, respostas de pesquisas de pessoas de diferentes nacionalidades para ver se a nacionalidade de alguém está relacionada à resposta).
Então, as duas variáveis cuja independência é testada pelo teste devem ser categóricas ou discretas (permitindo ordenadas além de categóricas), mas não contínuas?
Em http://scikit-learn.org/stable/modules/feature_selection.html , eles
executar uma de teste para a íris conjunto de dados para recuperar apenas as duas melhores características.
No conjunto de dados da íris , todos os recursos são avaliados numéricos e com valor contínuo, e o resultado são rótulos de classe (categóricos). Como o teste de independência do qui quadrado se aplica a recursos contínuos?
Para aplicar o teste de independência do qui-quadrado ao conjunto de dados, primeiro convertemos os recursos contínuos em recursos discretos, organizando bin (ou seja, primeiro discretizando os domínios contínuos dos recursos em compartimentos e, em seguida, substituindo os recursos por ocorrências dos valores dos recursos nos compartimentos )?
As ocorrências em várias posições formam um recurso multinomial (ocorre ou não em cada posição), para que o teste de independência do qui quadrado possa ser aplicado a elas, certo?
A propósito, acho que podemos aplicar o teste da independência do qui-quadrado a características e resultados de qualquer tipo , correto?
Para a parte do resultado, podemos selecionar recursos não apenas para a classificação, mas também para a regressão, pelo teste de independência do qui quadrado, impedindo o resultado contínuo, certo?
O site de aprendizado do scikit também diz
Calcule estatísticas do qui-quadrado entre cada recurso e classe não negativos .
Essa pontuação pode ser usada para selecionar os recursos n_features com os valores mais altos para a estatística qui-quadrado de teste de X, que deve conter apenas recursos não negativos, como booleanos ou frequências (por exemplo, contagens de termos na classificação de documentos), em relação ao Aulas.
Por que o teste requer recursos não negativos?
Se os recursos não tiverem sinais, mas forem categóricos ou discretos, o teste ainda pode ser aplicado a eles? (Veja minha parte 1)
Se os recursos forem negativos, sempre podemos classificar seus domínios e substituí-los por suas ocorrências (exatamente como eu acho que para aplicar o teste ao conjunto de dados da íris, consulte a parte 2), certo?
Nota: Eu acho que o Scikit Learn segue princípios gerais, e é isso que estou pedindo aqui. Caso contrário, ainda está tudo certo.