Considere o seguinte experimento: um grupo de pessoas recebe uma lista de cidades e solicita que marque os locais correspondentes em um mapa do mundo (não marcado). Para cada cidade, você receberá uma dispersão de pontos aproximadamente centralizados na respectiva cidade. Algumas cidades, como Istambul, exibem menos dispersão do que outras, diz Moscou.
Vamos supor que, para uma determinada cidade, tenhamos um conjunto de amostras 2D , representando a posição da cidade (por exemplo, em um sistema de coordenadas local) no mapa designado pelo teste sujeito . Eu gostaria de expressar a quantidade de "dispersão" dos pontos deste conjunto como um número único nas unidades apropriadas (km).
Para um problema 1D, eu escolheria o desvio padrão, mas existe um analógico 2D que possa ser escolhido razoavelmente para a situação, conforme descrito acima?
fonte
Respostas:
Uma coisa que você pode usar é uma medida de distância de um ponto central, , como a média da amostra dos pontos , ou talvez o centróide dos pontos observados. Então, uma medida de dispersão seria a distância média desse ponto central:c=(c1,c2) (x¯¯¯,y¯¯¯)
onde . Existem muitas opções possíveis para uma medida de distância, mas a norma (por exemplo, distância euclidiana) pode ser uma escolha razoável: L 2zi={xi,yi} L2
Existem muitas outras opções em potencial. Veja http://en.wikipedia.org/wiki/Norm_%28mathematics%29
fonte
Uma boa referência sobre métricas para a distribuição espacial de padrões de pontos é o manual CrimeStat (em particular para esta questão, o capítulo 4 será de interesse). Semelhante à macro métrica sugerida, o desvio padrão da distância é semelhante ao desvio padrão 2D (a única diferença é que você dividiria por "n-2" e não "n" na primeira fórmula fornecida pela macro).
Seu exemplo de experiência me lembra um pouco de como os estudos avaliam o perfil do agressor geográfico e, portanto, as métricas usadas nesses trabalhos podem ser interessantes. Em particular, os termos precisão e exatidão são usados bastante e seriam pertinentes ao estudo. As suposições podem ter um pequeno desvio padrão (ou seja, preciso), mas ainda assim têm uma precisão muito baixa.
fonte
Eu acho que você deve usar 'Distância Mahalanobis' em vez de normas de distância euclidiana, pois leva em conta a correlação do conjunto de dados e é 'invariável em escala'. Aqui está o link:
http://en.wikipedia.org/wiki/Mahalanobis_distance
Você também pode usar 'Half-Space Depth'. É um pouco mais complicado, mas compartilha muitas propriedades atraentes. A profundidade do meio espaço (também conhecida como profundidade de localização) de um determinado ponto a em relação a um conjunto de dados P é o número mínimo de pontos de P localizado em qualquer semiplano fechado determinado por uma linha através de a. Aqui estão os links:
http://www.cs.unb.ca/~bremner/research/talks/depth-survey.pdf http://depth.johnhugg.com/DepthExplorerALENEXslides.pdf
fonte
Na verdade, eu tive um problema semelhante recentemente. Parece que você deseja uma maneira de medir o quão bem os pontos estão espalhados por área. Obviamente, para uma determinada medida, você teria que perceber que, se todos os pontos estiverem em uma linha reta, a resposta será zero, pois não há uma variedade bidimensional.
Pelos cálculos que fiz, é isso que eu criei:
Nesse caso, Sxx e Syy são as variações de xey de respectivamente, enquanto Sxy é como a variação mista de xey.
Para elaborar, assumindo que existem n elementos, e representa o valor médio de x e representa a média de y:xμ yμ
Espero que isso funcione para você.
Além disso, se você está se perguntando como fazê-lo em dimensões mais altas, como medir a propagação do volume ou volume de surteron em 4 dimensões, é necessário formar uma matriz como esta:
Sxx Sxy Sxz ...
Syx Syy Syz ...
Szx Szy Szz ...
... ... ... ...
E continue por quantas dimensões você precisar. Você deve conseguir descobrir os valores S, dadas as definições fornecidas acima, mas para variáveis diferentes.
Depois que a matriz for formada, pegue o determinante, encontre a raiz quadrada e pronto.
fonte
Para este exemplo específico - onde há uma resposta "correta" predeterminada - eu retrabalharia as coordenadas x / y como coordenadas polares em torno da cidade que estavam sendo solicitadas a marcar no mapa. A precisão é então medida contra o componente radial (média, sd, etc.). Um "ângulo médio" também pode ser usado para medir o viés.
Para mim, ainda estou procurando uma boa solução para quando não há um ponto central predeterminado e não gosto da ideia de uma pré-passagem sobre os dados para criar um centróide.
fonte