Medida não paramétrica da força de associação entre uma variável aleatória ordinal e uma contínua

12

Estou jogando aqui o problema como o recebi.

Eu tenho duas variáveis ​​aleatórias. Um deles é contínuo (Y) e o outro é discreto e será abordado como ordinal (X). Coloquei abaixo o gráfico que recebi junto com a consulta.

insira a descrição da imagem aqui

A pessoa que me envia os dados deseja medir a força da associação entre X e Y. Estou procurando idéias que não viriam carregadas de suposições sobre o processo que gerou os dados. Observe que não se trata de encontrar uma maneira não paramétrica de testar a força do relacionamento (como no bootstrap), mas de encontrar uma maneira não paramétrica de medi- la.

Por outro lado, a eficiência não é um problema, pois há muitos pontos de dados.

user603
fonte
1
X (a variável discreta) é ordinal ou não?
Peter Flom - Restabelece Monica
@ PeterFlom: Obrigado. Sim. Eu adiciono isso à pergunta.
user603
Por "não paramétrico" você quer dizer aqui que nenhum cálculo da média ou da variação é permitido?
ttnphns

Respostas:

7

Por definição, a escala ordinal é o medidor em que as distâncias verdadeiras entre os entalhes 1 2 3 4são desconhecidas. É como se você estivesse apreendendo uma régua sob drogas / álcool. As verdadeiras distâncias podem ser quaisquer. Poderia ser 1 2 3 4ou 1 2 3 4ou o que for. Não podemos calcular uma estatística - como uma correlação - a menos que decida as distâncias, corrija-as.

Um raciocínio pode ser o seguinte. Como nossa escala de medição, o medidor, está distorcida de uma maneira monotônica desconhecida, não podemos acreditar nos valores dos dados. Somente a ordem de suas magnitudes é confiável. Sem mais recursos do cérebro, declare que a ordem é o valor. Assim, substituímos a distribuição observada pela distribuição uniforme, as fileiras . Depois disso, pode calcular o coeficiente de associação, digamos, Pearson . Isso será Spearman , como sabemos. Pearson mede a força da associação linear. Classificar as variáveis ​​foi um truque para linearizar a parte da relação monotônica que é atribuída às distribuições não serem uniformes inicialmente. Assim, Spearmanr h o r r h o rrrhorrhoé a medida dessa monotonicidade na relação que pode ser convertida em linearidade sob a ação de uniformizar as distribuições marginais. Na questão do OP, apenas uma das duas variáveis ​​é ordinal (e a segunda é contínua). Portanto, geralmente não há necessidade de classificar as duas variáveis. Pode apenas classificar o ordinal e depois calcular .r

Outra abordagem , alternativa à classificação (uniformização), pode ser a escala ideal da variável ordinal. A escala ideal é um procedimento iterativo com o objetivo de encontrar essas distâncias na escala ordinal - ou seja, encontrar uma transformação monotônica dela - de modo que linear entre as variáveis ​​seja o mais maximizado possível. Enquanto a abordagem de classificação é baseada na premissa "a escala verdadeira corresponde a dados com distribuição uniforme", a abordagem de escala ideal é baseada na premissa "a escala verdadeira corresponde a dados com linear máximorrr". O dimensionamento ideal pode ser feito na regressão categórica (CATREG). No entanto, a regressão categórica exige que a outra variável de entrada seja discreta (não necessariamente ordinal) e, portanto, se for contínua com muitos valores exclusivos, ela deverá ser arbitrariamente impedida por você .

Existem outras abordagens também. Mas, de qualquer maneira, transformamos a escala ordinal monotonicamente "de modo a ..." (alguma suposição ou objetivo), porque a escala ordinal é distorcida para nós de uma maneira desconhecida. Radicalmente outra decisão seria "ficar sóbrio" primeiro e decidir que não é distorcido (isto é, intervalo) ou distorcido de uma maneira conhecida (não é intervalo) ou é nominal.

Algumas abordagens assimétricas podem incluir regressão ordinal da variável ordinal pela outra (intervalo / contínua). Ou regressão linear desse último pelo ordinal, com o modelo em que o preditor é considerado como contraste polinomial (ou seja, inserido como b1X + b2X^2 + b3X^3,...). A fraqueza dessas abordagens é que elas são assimétricas: uma variável é dependente, a outra é independente.

ttnphns
fonte
obrigado; muito boa ideia, para calcular as classificações em apenas uma das variáveis.
user603
6

di=xiyixiyi

rS=16i=1ndi2n(n21)

XY


Referências

Reshef, D., Reshef, Y., Finucane, H., Grossman, S., McVean, G., Turnbaugh, P., Lander, E., Mitzenmacher, M. e Sabeti, P. (2011). Detectando novas associações em grandes conjuntos de dados. Science , 334 (6062): 1518-1524.

Reshef, D., Reshef, Y., Mitzenmacher, M. e Sabeti, P. (2013). Análise de equitabilidade do coeficiente máximo de informações, com comparações . arXiv , 14 de agosto.

Alexis
fonte
Ambos parecem boas idéias. De fato, as duas abordagens que você propõe se complementam . Deixarei a questão em aberto ainda um pouco.
user603