Medida não paramétrica da força de associação entre uma variável aleatória ordinal e uma contínua

12

Estou jogando aqui o problema como o recebi.

Eu tenho duas variáveis aleatórias. Um deles é contínuo (Y) e o outro é discreto e será abordado como ordinal (X). Coloquei abaixo o gráfico que recebi junto com a consulta.

insira a descrição da imagem aqui

A pessoa que me envia os dados deseja medir a força da associação entre X e Y. Estou procurando idéias que não viriam carregadas de suposições sobre o processo que gerou os dados. Observe que não se trata de encontrar uma maneira não paramétrica de testar a força do relacionamento (como no bootstrap), mas de encontrar uma maneira não paramétrica de medi- la.

Por outro lado, a eficiência não é um problema, pois há muitos pontos de dados.

correlation nonparametric ordinal-data association-measure user603
fonte

1

X (a variável discreta) é ordinal ou não?

Peter Flom - Restabelece Monica

@ PeterFlom: Obrigado. Sim. Eu adiciono isso à pergunta.

user603

Por "não paramétrico" você quer dizer aqui que nenhum cálculo da média ou da variação é permitido?

ttnphns

7

Por definição, a escala ordinal é o medidor em que as distâncias verdadeiras entre os entalhes 1 2 3 4são desconhecidas. É como se você estivesse apreendendo uma régua sob drogas / álcool. As verdadeiras distâncias podem ser quaisquer. Poderia ser 1 2 3 4ou 1 2 3 4ou o que for. Não podemos calcular uma estatística - como uma correlação - a menos que decida as distâncias, corrija-as.

Um raciocínio pode ser o seguinte. Como nossa escala de medição, o medidor, está distorcida de uma maneira monotônica desconhecida, não podemos acreditar nos valores dos dados. Somente a ordem de suas magnitudes é confiável. Sem mais recursos do cérebro, declare que a ordem é o valor. Assim, substituímos a distribuição observada pela distribuição uniforme, as fileiras . Depois disso, pode calcular o coeficiente de associação, digamos, Pearson . Isso será Spearman , como sabemos. Pearson mede a força da associação linear. Classificar as variáveis foi um truque para linearizar a parte da relação monotônica que é atribuída às distribuições não serem uniformes inicialmente. Assim, Spearman $r$ $rho$ $r$ $rho$ é a medida dessa monotonicidade na relação que pode ser convertida em linearidade sob a ação de uniformizar as distribuições marginais. Na questão do OP, apenas uma das duas variáveis é ordinal (e a segunda é contínua). Portanto, geralmente não há necessidade de classificar as duas variáveis. Pode apenas classificar o ordinal e depois calcular . $r$

Outra abordagem , alternativa à classificação (uniformização), pode ser a escala ideal da variável ordinal. A escala ideal é um procedimento iterativo com o objetivo de encontrar essas distâncias na escala ordinal - ou seja, encontrar uma transformação monotônica dela - de modo que linear entre as variáveis seja o mais maximizado possível. Enquanto a abordagem de classificação é baseada na premissa "a escala verdadeira corresponde a dados com distribuição uniforme", a abordagem de escala ideal é baseada na premissa "a escala verdadeira corresponde a dados com linear máximo $r$ $r$ ". O dimensionamento ideal pode ser feito na regressão categórica (CATREG). No entanto, a regressão categórica exige que a outra variável de entrada seja discreta (não necessariamente ordinal) e, portanto, se for contínua com muitos valores exclusivos, ela deverá ser arbitrariamente impedida por você .

Existem outras abordagens também. Mas, de qualquer maneira, transformamos a escala ordinal monotonicamente "de modo a ..." (alguma suposição ou objetivo), porque a escala ordinal é distorcida para nós de uma maneira desconhecida. Radicalmente outra decisão seria "ficar sóbrio" primeiro e decidir que não é distorcido (isto é, intervalo) ou distorcido de uma maneira conhecida (não é intervalo) ou é nominal.

Algumas abordagens assimétricas podem incluir regressão ordinal da variável ordinal pela outra (intervalo / contínua). Ou regressão linear desse último pelo ordinal, com o modelo em que o preditor é considerado como contraste polinomial (ou seja, inserido como b1X + b2X^2 + b3X^3,...). A fraqueza dessas abordagens é que elas são assimétricas: uma variável é dependente, a outra é independente.

ttnphns
fonte

obrigado; muito boa ideia, para calcular as classificações em apenas uma das variáveis.

user603

6

$d_{i} = x_{i} - y_{i}$ $x_{i}$ $y_{i}$

$r_{\text{S}} = 1-\frac{6\sum_{i=1}^{n}{d^{2}_{i}}}{n\left(n^{2}-1\right)}$

$X$ $Y$

Referências

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M. e Sabeti, P. (2011). Detectando novas associações em grandes conjuntos de dados. Science , 334 (6062): 1518-1524.

Reshef, D., Reshef, Y., Mitzenmacher, M. e Sabeti, P. (2013). Análise de equitabilidade do coeficiente máximo de informações, com comparações . arXiv , 14 de agosto.

Alexis
fonte

Ambos parecem boas idéias. De fato, as duas abordagens que você propõe se complementam . Deixarei a questão em aberto ainda um pouco.

user603

Medida não paramétrica da força de associação entre uma variável aleatória ordinal e uma contínua

Respostas: