Eu tenho dados para os quais calculei a correlação de Spearman e quero visualizá-los para uma publicação. A variável dependente é classificada, a variável independente não é. O que eu quero visualizar é mais a tendência geral do que a inclinação real, então classifiquei a independente e apliquei a correlação / regressão de Spearman. Mas quando plotei meus dados e estava prestes a inseri-los em meu manuscrito, deparei-me com esta afirmação ( neste site ):
Você quase nunca usará uma linha de regressão para descrição ou previsão ao fazer a correlação de classificação de Spearman; portanto , não calcule o equivalente a uma linha de regressão .
e depois
Você pode representar graficamente os dados de correlação de classificação de Spearman da mesma maneira que faria para uma regressão ou correlação linear. Não coloque uma linha de regressão no gráfico ; seria enganoso colocar uma linha de regressão linear em um gráfico quando você a analisasse com correlação de classificação.
O fato é que as linhas de regressão não são tão diferentes de quando eu não classifico o independente e calculo a correlação de Pearson. A tendência é a mesma, mas devido às taxas exorbitantes de gráficos coloridos em periódicos, fui com a representação monocromática e os pontos de dados reais se sobrepõem tanto que não são reconhecíveis.
Eu poderia contornar isso, é claro, fazendo dois gráficos diferentes: um para os pontos de dados (classificado) e outro para a linha de regressão (sem classificação), mas se a fonte que citei estiver errada ou o problema não tão problemático no meu caso, facilitaria minha vida. (Eu também vi essa pergunta , mas não me ajudou.)
Edite para informações adicionais:
A variável independente no eixo x representa o número de recursos e a variável dependente no eixo y representa a classificação se os algoritmos de classificação forem comparados em seu desempenho. Agora, tenho alguns algoritmos comparáveis, em média, mas o que quero dizer com meu gráfico é algo como: "Enquanto o classificador A fica melhor, mais recursos estão presentes, o classificador B é melhor quando menos recursos estão presentes"
Edite 2 para incluir meus gráficos:
Classificações de algoritmos plotados versus o número de recursos
Classificações de algoritmos plotados versus o número classificado de recursos
Então, para repetir a pergunta do título:
Tudo bem traçar uma linha de regressão para dados classificados de uma correlação / regressão de Spearman?
Respostas:
Uma correlação de classificação pode ser usada para captar a associação monotônica entre as variáveis, como você observa; como tal, você normalmente não traçaria uma linha para isso.
Há situações em que faz todo o sentido usar correlações de classificação para realmente ajustar as linhas a numérico-y versus numérico-x, seja Kendall ou Spearman (ou algum outro). Veja a discussão (e, em particular, a última trama) aqui .
Essa não é a sua situação, no entanto. No seu caso, eu estaria inclinado a apenas apresentar um gráfico de dispersão dos dados originais, talvez com um relacionamento tranquilo (por exemplo, por LOESS).
Você espera que o relacionamento seja monotônico; você pode tentar estimar e traçar um relacionamento monotônico. [Há uma função R discutida aqui que pode se ajustar à regressão isotônica - enquanto o exemplo é unimodal e não isotônico, a função pode fazer ajustes isotônicos.]
Aqui está um exemplo do tipo de coisa que quero dizer:
O gráfico mostra uma relação monotônica entre x e y; a curva vermelha é um loess suave (neste caso, gerado em R por
scatter.smooth
), que também é montônico (existem maneiras de obter ajustes suaves que são garantidamente monotônicos, mas, nesse caso, o loess liso padrão era monotônico, portanto Não senti a necessidade de me preocupar.Gráfico de classificação (y) vs classificação (x), indicando uma relação monotônica. A linha verde mostra as classificações dos valores ajustados da curva de loess em relação à classificação (x).
Se você não está exibindo nada além de rank (Y) vs X, acho que evitaria usar linhas nas plotagens; até onde posso ver, eles não transmitem muito valor acima do coeficiente de correlação. E já disse que você está interessado apenas na tendência.
[Eu não sei se é errado traçar uma linha de regressão em um gráfico com classificação y versus com classificação x, a dificuldade seria sua interpretação.]
fonte
fonte