Se sim, o que? Se não, por que não?
Para uma amostra na linha, a mediana minimiza o desvio absoluto total. Parece natural estender a definição para R2, etc., mas nunca a vi. Mas então, eu estive no campo esquerdo por um longo tempo.
multivariate-analysis
spatial
median
phv3773
fonte
fonte
Respostas:
Não tenho certeza de que exista uma definição aceita para uma mediana multivariada. O que eu estou familiarizado é o ponto médio de Oja , que minimiza a soma dos volumes de simplicidades formados sobre subconjuntos de pontos. (Veja o link para uma definição técnica.)
Atualização: O site referenciado para a definição de Oja acima também possui um bom artigo que abrange várias definições de uma mediana multivariada:
fonte
Como o @Ars disse, não há definição aceita (e esse é um bom ponto). Existem alternativas famílias gerais de maneiras de generalizar quantiles em , acho que o mais importante são:Rd
Generalize o processo quantil SejaPn(A) a medida empírica (= a proporção de observações emA ). Então, comA um subconjunto bem escolhido dos conjuntos de Borel emRd eλ uma medida real valorizado, você pode definir a função quantil empírico:
Suponha que você pode encontrar um que lhe dá a mínima. Em seguida, o conjunto (ou um elemento do conjunto) A 1 / 2 - ε ∩ A 1 / 2 + ε dá-lhe a mediana quando ε é feito pequeno o suficiente. A definição da mediana é recuperada ao usar A = ( ] - ∞ , x ] x ∈ R ) e λ ( ] - ∞ , x ] ) = x . ArsAt A1/2−ϵ∩A1/2+ϵ ϵ A=(]−∞,x]x∈R) λ(]−∞,x])=x A resposta se enquadra nessa estrutura, eu acho ... a localização no meio espaço de tukey pode ser obtida usando e λ ( H x ) = x (com x ∈ R , um ∈ R d ).A(a)=(Hx=(t∈Rd:⟨a,t⟩≤x) λ(Hx)=x x∈R a∈Rd
definição variacional e estimação M A idéia aqui é que o quantil Q α de uma variável aleatória Y em R possa ser definido através de uma igualdade variacional.α Qα Y R
A definição mais comum é usar a função de regressão quantílica (também conhecida como perda de pinball, adivinhe por quê?) Q α = a r g inf x ∈ R E [ ρ α ( Y - x ) ] . O caso α = 1 / 2 dá ρ 1 / 2 ( y ) = | y | e você pode generalizar isso para uma dimensão superior usando l 1ρα Qα=arginfx∈RE[ρα(Y−x)] α=1/2 ρ1/2(y)=|y| l1 distâncias conforme feito no @Srikant Answer . Essa é a mediana teórica, mas fornece a mediana empírica se você substituir a expectativa pela expectativa empírica (média).
Mas Kolshinskii propõe o uso da transformação Legendre-Fenchel: desde que onde f ( s ) = 1Qα=Argsups(sα−f(s)) paras∈R. Ele dá muitas razões profundas para isso (veja o artigo;)). Generalizando este para dimensões maiores requerem trabalhar com um vectorialαe substituindosαpor⟨s,α⟩mas você pode tomarα=(1/2,...,1/2).f(s)=12E [ | s-Y| - | Y| +s] s ∈ R α s α ⟨ S , ct ⟩ α = ( 1 / 2 , ... , 1 / 2 )
Obviamente, existem pontes entre as diferentes formulações. Eles não são todos óbvios ...
fonte
Existem maneiras distintas de generalizar o conceito de mediana para dimensões superiores. Uma ainda não mencionada, mas que foi proposta há muito tempo, é construir um casco convexo, removê-lo e repetir o máximo de tempo possível: o que resta no último casco é um conjunto de pontos que são todos candidatos a serem " medianas ".
"Bater a cabeça" é outra tentativa mais recente (c. 1980) de construir um centro robusto para uma nuvem de pontos 2D. (O link está para a documentação e o software disponíveis no Instituto Nacional do Câncer dos EUA.)
A principal razão pela qual existem várias generalizações distintas e nenhuma solução óbvia é que R1 pode ser ordenado, mas R2, R3, ... não.
fonte
A mediana geométrica é o ponto com a menor distância euclidiana média das amostras
fonte
A mediana de meio espaço do Tukey pode ser estendida para> 2 dimensões usando o DEEPLOC, um algoritmo devido a Struyf e Rousseeuw; veja aqui para detalhes.
O algoritmo é usado para aproximar o ponto de maior profundidade com eficiência; Os métodos ingênuos que tentam determinar isso exatamente entram em conflito com (a versão computacional) da "maldição da dimensionalidade", onde o tempo de execução necessário para calcular uma estatística cresce exponencialmente com o número de dimensões do espaço.
fonte
Uma definição que se aproxima disso, para distribuições unimodais, é a mediana do meio-espaço tukey
fonte
Eu não sei se existe qualquer definição, mas vou tentar e estender a definição padrão da mediana para . Vou usar a seguinte notação:R2
, Y : as variáveis aleatórias associadas às duas dimensões.X Y
, m y : as medianas correspondentes.mx my
: o pdf conjunto para nossas variáveis aleatóriasf( x , y)
Para alargar a definição da mediana para , nós escolhemos m x e m y para minimizar o seguinte:R2 mx my
O problema agora é que precisamos de uma definição para o que queremos dizer com:
A descrição acima é, em certo sentido, uma métrica de distância e várias possíveis definições de candidatos são possíveis.
Eucliedan Metric
Taxicab Metric
fonte