Eu tenho mais de 3000 vetores em uma grade bidimensional, com uma distribuição discreta aproximadamente uniforme. Alguns pares de vetores cumprem uma determinada condição. Nota: a condição é aplicável apenas a pares de vetores, não a vetores individuais. Eu tenho uma lista de cerca de 1500 pares, vamos chamá-lo de grupo 1. O grupo 2 contém todos os outros pares de vetores. Quero descobrir se a distância entre vetores em um par no grupo 1 é significativamente menor da distância média entre dois vetores. Como eu posso fazer isso?
Teste estatístico : o teorema do limite central é aplicável ao meu caso? Ou seja, posso tirar médias de amostras de distâncias e usar o teste t de Student para comparar médias de amostras que atendem à condição com médias de amostras que não atendem à condição? Caso contrário, que teste estatístico seria apropriado aqui?
Tamanho da amostra e número de amostras : Eu entendo que existem duas variáveis aqui. Para cada um dos dois grupos, preciso colher n amostras do tamanho m e medir a média de cada uma das amostras. Existe alguma maneira de princípios para escolher n e m ? Eles devem ser o maior possível? Ou devem ser o mínimo possível, desde que mostrem a significância estatística? Eles devem ser iguais para cada um dos dois grupos? Ou eles devem ser maiores para o grupo 2, que contém muito mais pares de vetores?
Respostas:
A questão de "significativamente" diferente sempre, sempre pressupõe um modelo estatístico para os dados. Esta resposta propõe um dos modelos mais gerais que é consistente com as informações mínimas fornecidas na pergunta. Em resumo, ele funcionará em uma ampla variedade de casos, mas nem sempre pode ser a maneira mais poderosa de detectar uma diferença.
Três aspectos dos dados são realmente importantes: a forma do espaço ocupado pelos pontos; a distribuição dos pontos dentro desse espaço; e o gráfico formado pelos pares de pontos com a "condição" - que chamarei de grupo "tratamento". Por "gráfico", quero dizer o padrão de pontos e interconexões implícitos pelos pares de pontos no grupo de tratamento. Por exemplo, dez pares de pontos ("arestas") do gráfico podem envolver até 20 pontos distintos ou até cinco pontos. No primeiro caso, duas arestas não compartilham um ponto em comum, enquanto no último caso as arestas consistem em todos os pares possíveis entre cinco pontos.
(Vale ressaltar que essa abordagem funcionará, com apenas pequenas modificações, com qualquer distância ou qualquer quantidade que esteja associada a todos os pares de pontos possíveis. Também funcionará para qualquer resumo das distâncias, e não apenas a média.)
Para ilustrar, aqui estão duas situações envolvendo pontos e arestas em um grupo de tratamento. Na linha superior, os primeiros pontos em cada aresta foram escolhidos aleatoriamente entre os pontos e, em seguida, os segundos pontos de cada aresta foram escolhidos de forma independente e aleatória entre os pontos diferentes de seu primeiro ponto. No total, pontos estão envolvidos nessas arestas.n = 100 28. 100 100 - 1 39. 28.
Na linha inferior, oito dos pontos foram escolhidos aleatoriamente. As arestas consistem em todos os pares possíveis.100 28.
Os histogramas à direita mostram as distribuições de amostragem para permutações aleatórias das configurações. As distâncias médias reais dos dados são marcadas com linhas vermelhas tracejadas verticais. Ambos os meios são consistentes com as distribuições de amostragem: nenhuma fica muito à direita ou à esquerda.10000
As distribuições amostrais diferem: embora, em média, as distâncias médias sejam as mesmas, a variação na distância média é maior no segundo caso, devido às interdependências gráficas entre as arestas. Essa é uma das razões pelas quais nenhuma versão simples do Teorema do Limite Central pode ser usada: calcular o desvio padrão dessa distribuição é difícil.
Geralmente, a proporção de distâncias médias de tanto a simulação e o grupo de tratamento que são iguais ou maiores do que a distância média no grupo de tratamento pode ser tomada como o valor de p deste teste não paramétrico de permutação.
Este é o
R
código usado para criar as ilustrações.fonte
mean(c(sim, stat) <= stat)
oumean(c(sim, stat) >= stat)
conforme apropriado.stat
do meio da distribuição, em qualquer direção? Algo comop.value <- mean(abs(c(sim, stat)-mean(sim)) >= abs(stat-mean(sim)))
.