Para que tipo de seleção de recurso o teste Qui-quadrado pode ser usado?

Aqui, estou perguntando sobre o que outras pessoas costumam fazer para usar o teste do qui quadrado para a seleção de recursos com resultados errados no aprendizado supervisionado. Se bem entendi, eles testam a independência entre cada recurso e o resultado e comparam os valores de p entre os testes de cada recurso?
Em http://en.wikipedia.org/wiki/Pearson%27s_chi-squared_test ,

O teste qui-quadrado de Pearson é um teste estatístico aplicado a conjuntos de dados categóricos para avaliar a probabilidade de qualquer diferença observada entre os conjuntos surgir por acaso.

...

Um teste de independência avalia se as observações emparelhadas em duas variáveis, expressas em uma tabela de contingência , são independentes uma da outra (por exemplo, respostas de pesquisas de pessoas de diferentes nacionalidades para ver se a nacionalidade de alguém está relacionada à resposta).

Então, as duas variáveis cuja independência é testada pelo teste devem ser categóricas ou discretas (permitindo ordenadas além de categóricas), mas não contínuas?
Em http://scikit-learn.org/stable/modules/feature_selection.html , eles

executar uma de teste para a íris conjunto de dados para recuperar apenas as duas melhores características. $\chi^2$

No conjunto de dados da íris , todos os recursos são avaliados numéricos e com valor contínuo, e o resultado são rótulos de classe (categóricos). Como o teste de independência do qui quadrado se aplica a recursos contínuos?

Para aplicar o teste de independência do qui-quadrado ao conjunto de dados, primeiro convertemos os recursos contínuos em recursos discretos, organizando bin (ou seja, primeiro discretizando os domínios contínuos dos recursos em compartimentos e, em seguida, substituindo os recursos por ocorrências dos valores dos recursos nos compartimentos )?

As ocorrências em várias posições formam um recurso multinomial (ocorre ou não em cada posição), para que o teste de independência do qui quadrado possa ser aplicado a elas, certo?

A propósito, acho que podemos aplicar o teste da independência do qui-quadrado a características e resultados de qualquer tipo , correto?

Para a parte do resultado, podemos selecionar recursos não apenas para a classificação, mas também para a regressão, pelo teste de independência do qui quadrado, impedindo o resultado contínuo, certo?
O site de aprendizado do scikit também diz

Calcule estatísticas do qui-quadrado entre cada recurso e classe não negativos .

Essa pontuação pode ser usada para selecionar os recursos n_features com os valores mais altos para a estatística qui-quadrado de teste de X, que deve conter apenas recursos não negativos, como booleanos ou frequências (por exemplo, contagens de termos na classificação de documentos), em relação ao Aulas.

Por que o teste requer recursos não negativos?

Se os recursos não tiverem sinais, mas forem categóricos ou discretos, o teste ainda pode ser aplicado a eles? (Veja minha parte 1)

Se os recursos forem negativos, sempre podemos classificar seus domínios e substituí-los por suas ocorrências (exatamente como eu acho que para aplicar o teste ao conjunto de dados da íris, consulte a parte 2), certo?

Nota: Eu acho que o Scikit Learn segue princípios gerais, e é isso que estou pedindo aqui. Caso contrário, ainda está tudo certo.

hypothesis-testing chi-squared feature-selection independence scikit-learn Tim
fonte

Respostas:

Eu acho que parte da sua confusão é sobre quais tipos de variáveis um qui-quadrado pode comparar. A Wikipedia diz o seguinte sobre isso:

Ele testa uma hipótese nula, afirmando que a distribuição de frequência de certos eventos observados em uma amostra é consistente com uma distribuição teórica específica.

Assim, compara distribuições de frequência , também conhecidas como contagens, também conhecidas como números não negativos. As diferentes distribuições de frequência são definidas pela variável categórica; isto é, para cada um dos valores de uma variável categórica, precisa haver uma distribuição de frequência que possa ser comparada com as outras.

Existem várias maneiras de obter a distribuição de frequência. Pode ser de uma segunda variável categórica em que as co-ocorrências com a primeira variável categórica são contadas para obter uma distribuição de frequência discreta. Outra opção é usar uma variável numérica (múltipla) para diferentes valores de uma variável categórica; ela pode (por exemplo) somar os valores da variável numérica. De fato, se as variáveis categóricas são binárias, a primeira é uma versão específica da posterior.

Exemplo

Como um exemplo, veja estes conjuntos de variáveis:

x = ['mouse', 'cat', 'mouse', 'cat']
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

As variáveis categóricas xe ypodem ser comparadas contando as co-ocorrências, e é isso que acontece com um teste qui-quadrado:

                 'mouse'    'cat'
'wild'              1         0
'domesticated'      1         2

No entanto, você também pode binarizar os valores de 'x' e obter as seguintes variáveis:

x1 = [1, 0, 1, 0]
x2 = [0, 1, 0, 1]
z = ['wild', 'domesticated', 'domesticated', 'domesticated']

Contar os valores agora é igual a somar os valores que correspondem ao valor de z.

                 x1    x2
'wild'           1     0
'domesticated'   1     2

Como você pode ver, uma única variável categórica ( x) ou múltiplas variáveis numéricas ( x1e x2) são igualmente representadas por na tabela de contingência. Assim, os testes qui-quadrado podem ser aplicados a uma variável categórica (o rótulo no sklearn) combinado com outra variável categórica ou várias variáveis numéricas (os recursos do sklearn).

Pieter
fonte

Portanto, se a seleção de recurso chi_square pode ser usada apenas para recursos não negativos (freq, count, ect), o que isso significa para uma situação em que há um recurso com valores negativos? Transformar o recurso ou usar outro método de seleção de recurso? Suponha que fizemos uma nova pesquisa no conjunto de dados Iris e que tivéssemos um recurso para medir a alteração no comprimento da sépala todos os dias. Eventualmente e haveria valores negativos. A planta iria murchar e encolher, dando uma mudança negativa no comprimento. Talvez estejamos tentando classificar qual planta é pela rapidez com que ela murcha ou algo assim.

Arash Howaida

O qui-quadrado é baseado na proporção de valores (isto é, na distribuição de frequência). Isso é implementado somando os valores dos recursos (binarizados). Portanto, a parte da soma total deve ter um significado. Com valores negativos, este não é o caso.

Pieter