Estou pensando em maneiras de calcular elipses de dados e confiança em torno de uma mediana bivariada. Por exemplo, eu posso calcular facilmente uma elipse de dados ou uma elipse de confiança para a média bivariada dos seguintes dados (aqui apenas mostrando uma elipse de dados)
library("car")
set.seed(1)
df <- data.frame(x = rnorm(200, mean = 4, sd = 1.5),
y = rnorm(200, mean = 1.4, sd = 2.5))
plot(df)
with(df, dataEllipse(x, y, level = 0.68, add = TRUE))
Mas estou lutando com como eu faria isso por uma mediana bivariada? No caso univariado, eu poderia simplesmente inicializar a amostra novamente para gerar o intervalo necessário, mas não sei como traduzir isso no caso bivariado.
Conforme apontado por @Andy W, a mediana não está definida de forma exclusiva. Nesse caso, usamos a mediana espacial , encontrando um ponto que minimiza a norma L1 das distâncias entre as observações naquele ponto. Uma otimização foi usada para calcular a mediana espacial a partir dos pontos de dados observados.
Além disso, os pares de dados x, y no caso de uso real são dois vetores próprios de uma análise de coordenadas principais de uma matriz de dissimilaridade; portanto, xey devem ser ortogonais, se isso fornecer uma via de ataque específica.
No caso de uso real, queremos calcular a elipse de dados / confiança para grupos de pontos no espaço euclidiano. Por exemplo:
A análise é um análogo multivariado do teste de Levene de homogeneidade de variâncias entre grupos. Utilizamos medianas espaciais ou centróides de grupo padrão como a medida da tendência central multivariada e desejamos adicionar o equivalente da elipse de dados na figura acima para o caso mediano espacial.
Respostas:
Esta é uma boa pergunta.
Vou seguir a sugestão de @ amoeba e inicializar as medianas espaciais, usandox e y dimensões na amostra de dados original - antes de calcular a mediana espacial.
depth::med()
withmethod="Spatial"
. No entanto, há uma ligeira complicação:med
não gosta quando há pontos de dados duplicados; portanto, não podemos fazer uma inicialização direta. Em vez disso, vou desenhar uma amostra de bootstrap e, em seguida, tremer cada ponto em uma quantidade minúscula - menor que as distâncias mínimas em cada um dosPor fim, vou calcular a menor elipse cobrindo uma proporção especificada (95%) de medianas e plotagem inicializadas .
Por fim, observe que a mediana espacial bivariada é normalmente assintoticamente distribuída (Brown, 1983, JRSS, Série B ) , para que também pudéssemos dispensar o "jittered bootstrap" acima e calcular diretamente a elipse, confiando quen=200 é "suficientemente assintótico". Posso editar este post para incluir essa elipse de confiança paramétrica, se encontrar o tempo nos próximos dias.
fonte