Eu processos a partir do qual eu recebo pequenas amostras (normalmente distribuída n tipicamente 10-30) que eu quero usar para estimar a variância. Mas frequentemente as amostras estão tão próximas que não podemos medir pontos individuais perto do centro.
Tenho um entendimento vago de que deveríamos ser capazes de construir um estimador eficiente usando amostras ordenadas: por exemplo, se eu souber que a amostra contém 20 pontos e que 10 estão agrupados perto do centro com muita força para serem medidos individualmente, mas tenho medições discretas de 5 em cada uma das extremidades, existe uma abordagem padrão / fórmula para estimar a variação do processo que faz uso otimizado dessas amostras?
(Observe que eu não acho que posso apenas ponderar a média central. Por exemplo, é possível que 7 amostras se agrupem firmemente, enquanto outras três são assimetricamente inclinadas para um lado, mas perto o suficiente, não podemos dizer isso sem uma amostragem única mais tediosa .)
Se a resposta for complicada, qualquer dica sobre o que eu deveria pesquisar seria apreciada. Por exemplo, isso é um problema estatístico de pedidos? É provável que exista uma resposta formulada ou este é um problema computacional?
Detalhes atualizados: O aplicativo é uma análise de alvos de tiro. Uma única amostra subjacente é o ponto de impacto ( x, y ) de um único tiro no alvo. O processo subjacente tem uma distribuição normal bivariada simétrica, mas não há correlação entre eixos, portanto, podemos tratar as amostras { x } e { y } como desenhos independentes da mesma distribuição normal. (Também podemos dizer que o processo subjacente é distribuído por Rayleigh, mas não podemos medir as variáveis de amostra de Rayleigh porque não podemos ter certeza das coordenadas do centro "verdadeiro" do processo, que para n pequeno pode ser significativamente distante do centro da amostra ( , ˉ y ).)
Recebemos um alvo e o número de tiros disparados contra ele. O problema é que, para n >> 3, armas precisas normalmente disparam em um "buraco irregular" cercado por tiros distintos. Podemos observar o x - e y -width do buraco, mas não sabemos onde o buraco os tiros não-distintas impactado.
Aqui estão alguns exemplos de destinos mais problemáticos:
(É verdade que, em um mundo ideal, alterávamos / trocávamos de alvos após cada disparo e, em seguida, agregávamos as amostras para análise. Há várias razões que geralmente são impraticáveis, embora sejam feitas sempre que possível .)
Para facilitar a solução, acredito que será mais fácil reduzi-lo a um conjunto de amostras unidimensionais do normal, com um intervalo central de largura w > d , em que d é o diâmetro do projétil, contendo amostras c < n "censuradas".
fonte
Respostas:
Esse é um problema interessante. Primeiro, eu não assumiria uma distribuição normal. Parece que o que você está realmente procurando é uma estimativa da dispersão que você aplica razoavelmente a muitos atiradores, armas, munições ou qualquer outra coisa.
Eu tentaria mudar isso. Você não sabe exatamente para onde foram todas as balas, a menos que veja 10 buracos separados (assumindo 10 tiros). Mas você sabe para onde eles não foram. Isso pode ser usado para restringir a distribuição, assumindo estatísticas bayesianas, se você deseja começar com uma distribuição.
Uma idéia que pode ser melhor aqui é parar de tentar fazê-lo matematicamente e fazer algo sensato assim. Pegue o alvo e execute uma rotina de processamento de imagem para marcar a área da foto que pode estar desconectada. Meça a média e o segundo momento disso e use-os como um estimador. Se você quiser ir um pouco mais longe e tentar Gaussianizá-lo, poderá executar um experimento simples de monte carlo para obter um fator de calibração.
fonte
De outro ponto de vista, é possível ver isso à luz do campo Estatísticas espaciais, que criou uma variedade de métricas, muitas das quais foram colocadas em caixas de ferramentas (veja, por exemplo, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).
A Wikipedia (link: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) na verdade tem uma boa página introdutória discutindo conceitos como medidas de tendência central espacial e dispersão espacial. Para citar a Wikipedia neste último:
"Para a maioria das aplicações, a dispersão espacial deve ser quantificada de maneira invariável às rotações e reflexões. Diversas medidas simples de dispersão espacial para um conjunto de pontos podem ser definidas usando a matriz de covariância das coordenadas dos pontos. O traço, o determinante , e o maior valor próprio da matriz de covariância pode ser usado como medida de dispersão espacial. Uma medida de dispersão espacial que não se baseia na matriz de covariância é a distância média entre os vizinhos mais próximos. [1] "
Os conceitos relacionados incluem medidas de homogeneidade espacial, funções K e L de Ripley e, talvez, mais relevantes para a análise de grupos de marcadores, o teste de Cuzick-Edwards para agrupar subpopulações em populações agrupadas. O último teste é baseado na comparação (usando análises de "vizinho mais próximo" para tabular estatísticas) com uma população de controle, que no contexto atual pode ser baseada em metas reais observadas, classificadas como não exibindo agrupamento, ou por uma simulação teórica, de dizem a distribuição Rayleigh.
fonte