É "bom" plotar uma linha de regressão para dados classificados (correlação de Spearman)?

11

Eu tenho dados para os quais calculei a correlação de Spearman e quero visualizá-los para uma publicação. A variável dependente é classificada, a variável independente não é. O que eu quero visualizar é mais a tendência geral do que a inclinação real, então classifiquei a independente e apliquei a correlação / regressão de Spearman. Mas quando plotei meus dados e estava prestes a inseri-los em meu manuscrito, deparei-me com esta afirmação ( neste site ):

Você quase nunca usará uma linha de regressão para descrição ou previsão ao fazer a correlação de classificação de Spearman; portanto , não calcule o equivalente a uma linha de regressão .

e depois

Você pode representar graficamente os dados de correlação de classificação de Spearman da mesma maneira que faria para uma regressão ou correlação linear. Não coloque uma linha de regressão no gráfico ; seria enganoso colocar uma linha de regressão linear em um gráfico quando você a analisasse com correlação de classificação.

O fato é que as linhas de regressão não são tão diferentes de quando eu não classifico o independente e calculo a correlação de Pearson. A tendência é a mesma, mas devido às taxas exorbitantes de gráficos coloridos em periódicos, fui com a representação monocromática e os pontos de dados reais se sobrepõem tanto que não são reconhecíveis.

Eu poderia contornar isso, é claro, fazendo dois gráficos diferentes: um para os pontos de dados (classificado) e outro para a linha de regressão (sem classificação), mas se a fonte que citei estiver errada ou o problema não tão problemático no meu caso, facilitaria minha vida. (Eu também vi essa pergunta , mas não me ajudou.)

Edite para informações adicionais:

A variável independente no eixo x representa o número de recursos e a variável dependente no eixo y representa a classificação se os algoritmos de classificação forem comparados em seu desempenho. Agora, tenho alguns algoritmos comparáveis, em média, mas o que quero dizer com meu gráfico é algo como: "Enquanto o classificador A fica melhor, mais recursos estão presentes, o classificador B é melhor quando menos recursos estão presentes"

Edite 2 para incluir meus gráficos:

Classificações de algoritmos plotados versus o número de recursos insira a descrição da imagem aqui

Classificações de algoritmos plotados versus o número classificado de recursos insira a descrição da imagem aqui

Então, para repetir a pergunta do título:

Tudo bem traçar uma linha de regressão para dados classificados de uma correlação / regressão de Spearman?

Sentinela
fonte
Quantas categorias existem no ranking? Você testou a premissa de proporcionalidade? Existem muitos pesquisadores que estão perfeitamente bem em tratar dados ordinais (por exemplo, classificação) como contínuos. Às vezes, se houver muitas categorias, faz sentido.
Robin.datadrivers
1
Existem sete níveis, eles são usados ​​para um teste de Friedman
Sentry
1
Você pode incluir um gráfico do seu enredo?
Robin.datadrivers
Carregarei um hoje depois de editar os dados reais a serem publicados.
Sentry

Respostas:

9

Uma correlação de classificação pode ser usada para captar a associação monotônica entre as variáveis, como você observa; como tal, você normalmente não traçaria uma linha para isso.

Há situações em que faz todo o sentido usar correlações de classificação para realmente ajustar as linhas a numérico-y versus numérico-x, seja Kendall ou Spearman (ou algum outro). Veja a discussão (e, em particular, a última trama) aqui .

Essa não é a sua situação, no entanto. No seu caso, eu estaria inclinado a apenas apresentar um gráfico de dispersão dos dados originais, talvez com um relacionamento tranquilo (por exemplo, por LOESS).

Você espera que o relacionamento seja monotônico; você pode tentar estimar e traçar um relacionamento monotônico. [Há uma função R discutida aqui que pode se ajustar à regressão isotônica - enquanto o exemplo é unimodal e não isotônico, a função pode fazer ajustes isotônicos.]

Aqui está um exemplo do tipo de coisa que quero dizer:

insira a descrição da imagem aqui

O gráfico mostra uma relação monotônica entre x e y; a curva vermelha é um loess suave (neste caso, gerado em R por scatter.smooth), que também é montônico (existem maneiras de obter ajustes suaves que são garantidamente monotônicos, mas, nesse caso, o loess liso padrão era monotônico, portanto Não senti a necessidade de me preocupar.

insira a descrição da imagem aqui
Gráfico de classificação (y) vs classificação (x), indicando uma relação monotônica. A linha verde mostra as classificações dos valores ajustados da curva de loess em relação à classificação (x).

y^

Se você não está exibindo nada além de rank (Y) vs X, acho que evitaria usar linhas nas plotagens; até onde posso ver, eles não transmitem muito valor acima do coeficiente de correlação. E já disse que você está interessado apenas na tendência.

[Eu não sei se é errado traçar uma linha de regressão em um gráfico com classificação y versus com classificação x, a dificuldade seria sua interpretação.]

Glen_b -Reinstate Monica
fonte
Obrigado, sua resposta é boa e bem explicada. No entanto, isso me fez perceber que posso ter omitido informações cruciais. Ainda é válido com as informações adicionais que forneci? Os gráficos seguem hoje mais tarde quando estou no meu PC de trabalho.
Sentry
Dê uma olhada na minha atualização e veja se você acha que isso tem algum valor.
Glen_b -Reinstala Monica
Sim, é de valor, mas mais em sentido geral. Também concordo que o "erro" vem da dificuldade de interpretar o enredo. Receio que as pessoas sempre assumam que eu quero prever a classificação do recurso, mesmo que eu afirme que só quero mostrar a tendência .
Sentry
Observando suas plotagens - você mostra classificações, mas você tem medidas originais de desempenho nas quais as classificações foram baseadas?
Glen_b -Reinstala Monica 11/01
Sim, sim, mas eles não podem ser usados ​​aqui, acredite. O foco do meu estudo é comparar os algoritmos usando o teste de Friedman, que os classifica. Existem vários conjuntos de dados com intervalos de desempenho altamente diferentes, portanto, apenas a comparação entre eles é interessante aqui.
Sentry
3

ρXXXYY

Frank Harrell
fonte