Estimativa da variação de amostras normais censuradas ao centro

11

Eu processos a partir do qual eu recebo pequenas amostras (normalmente distribuída n tipicamente 10-30) que eu quero usar para estimar a variância. Mas frequentemente as amostras estão tão próximas que não podemos medir pontos individuais perto do centro.

Tenho um entendimento vago de que deveríamos ser capazes de construir um estimador eficiente usando amostras ordenadas: por exemplo, se eu souber que a amostra contém 20 pontos e que 10 estão agrupados perto do centro com muita força para serem medidos individualmente, mas tenho medições discretas de 5 em cada uma das extremidades, existe uma abordagem padrão / fórmula para estimar a variação do processo que faz uso otimizado dessas amostras?

(Observe que eu não acho que posso apenas ponderar a média central. Por exemplo, é possível que 7 amostras se agrupem firmemente, enquanto outras três são assimetricamente inclinadas para um lado, mas perto o suficiente, não podemos dizer isso sem uma amostragem única mais tediosa .)

Se a resposta for complicada, qualquer dica sobre o que eu deveria pesquisar seria apreciada. Por exemplo, isso é um problema estatístico de pedidos? É provável que exista uma resposta formulada ou este é um problema computacional?

Detalhes atualizados: O aplicativo é uma análise de alvos de tiro. Uma única amostra subjacente é o ponto de impacto ( x, y ) de um único tiro no alvo. O processo subjacente tem uma distribuição normal bivariada simétrica, mas não há correlação entre eixos, portanto, podemos tratar as amostras { x } e { y } como desenhos independentes da mesma distribuição normal. (Também podemos dizer que o processo subjacente é distribuído por Rayleigh, mas não podemos medir as variáveis ​​de amostra de Rayleigh porque não podemos ter certeza das coordenadas do centro "verdadeiro" do processo, que para n pequeno pode ser significativamente distante do centro da amostra ( , ˉ y ).)x¯y¯

Recebemos um alvo e o número de tiros disparados contra ele. O problema é que, para n >> 3, armas precisas normalmente disparam em um "buraco irregular" cercado por tiros distintos. Podemos observar o x - e y -width do buraco, mas não sabemos onde o buraco os tiros não-distintas impactado.

Aqui estão alguns exemplos de destinos mais problemáticos:

[Alvo de amostra com n = 10]

Exemplo de destino com n = 100

(É verdade que, em um mundo ideal, alterávamos / trocávamos de alvos após cada disparo e, em seguida, agregávamos as amostras para análise. Há várias razões que geralmente são impraticáveis, embora sejam feitas sempre que possível .)

xi

Para facilitar a solução, acredito que será mais fácil reduzi-lo a um conjunto de amostras unidimensionais do normal, com um intervalo central de largura w > d , em que d é o diâmetro do projétil, contendo amostras c < n "censuradas".

footwet
fonte
(1) A distribuição Normal é uma suposição ou você tem boas evidências para apoiá-la? (2) O problema é que você não pode contar com precisão os dados perto do centro? (Isso seria diferente do que o significado usual de "censura", o que é que você pode contar com esses dados, mas você só sei que seus valores estão dentro de determinados intervalos.)
whuber
@whuber: Sim, temos evidências empíricas e fundamentais de que o processo é normalmente distribuído. E sim, sabemos a contagem exata de pontos no grupo total e podemos observar o (s) intervalo (s) em que existem muitas amostras para determinar valores individuais.
feetwet
Obrigado, isso é útil. A natureza da incerteza ainda não está clara, e um bom modelo para isso pode motivar uma boa solução. Você poderia fornecer uma ilustração ou exemplo ou, pelo menos, descrever o processo de medição com um pouco mais de detalhes?
whuber
@whuber: Atualizado. Se isso ajudar, também trabalharei na publicação de links para algumas amostras reais.
feetwet
xi,(μ,σ2)σiB(xi,r)rB(x,r)rx

Respostas:

2

Esse é um problema interessante. Primeiro, eu não assumiria uma distribuição normal. Parece que o que você está realmente procurando é uma estimativa da dispersão que você aplica razoavelmente a muitos atiradores, armas, munições ou qualquer outra coisa.

Eu tentaria mudar isso. Você não sabe exatamente para onde foram todas as balas, a menos que veja 10 buracos separados (assumindo 10 tiros). Mas você sabe para onde eles não foram. Isso pode ser usado para restringir a distribuição, assumindo estatísticas bayesianas, se você deseja começar com uma distribuição.

Uma idéia que pode ser melhor aqui é parar de tentar fazê-lo matematicamente e fazer algo sensato assim. Pegue o alvo e execute uma rotina de processamento de imagem para marcar a área da foto que pode estar desconectada. Meça a média e o segundo momento disso e use-os como um estimador. Se você quiser ir um pouco mais longe e tentar Gaussianizá-lo, poderá executar um experimento simples de monte carlo para obter um fator de calibração.

Dave31415
fonte
Deixe-me explicar um pouco mais. Digamos que você tenha 10 tiros e há 6 buracos claros onde você sabe para onde foram as balas. Primeiro pegue esses pontos e use-os para restringir a largura gaussiana. Após a rotina habitual, este restringe o sigma do sigma Gaussian (que haver alguma distribuição conhecida. Cs.ubc.ca/~murphyk/Papers/bayesGauss.pdf
Dave31415
Agora, depois de fazer isso, você deve considerar as 4 balas que não fizeram novos buracos. Como as balas são independentes, essa nova probabilidade (no sigma gaussiano) pode simplesmente ser multiplicada. Então, basicamente, para cada uma das quatro balas, você deseja multiplicar pela probabilidade de que elas não façam um novo buraco.
precisa saber é o seguinte
Uma maneira simples de fazer isso com o monte carlo é desenhar um conjunto de sigma de sua distribuição restrita e, usando esse sigma, calcular a chance de não fazer um novo furo. Assim, tire muitas fotos simuladas disso e conte qual fração não faz novos furos. Isso pode ser usado para atualizar a probabilidade. Em seguida, passe para o próximo e faça o mesmo. Agora você tem sua probabilidade final.
precisa saber é o seguinte
Último comentário. Do ponto de vista prático, a estimativa do sigma não deve ser afetada tanto por onde exatamente as balas invisíveis foram, desde que você assuma que elas passaram por buracos anteriores. Ele será restringido principalmente pelos que você pode ver que definem a aresta. Isso ocorre porque a chance de uma bala atravessar um buraco duas vezes longe do centro é muito baixa. Assim, mesmo um monte carlo bruto o levará muito perto do estimador ideal.
precisa saber é o seguinte
Se não afirmarmos uma distribuição normal (ou outra), parece improvável que possamos dizer algo mais do que colocar um limite superior ou inferior no que está acontecendo na região censurada. No caso unidimensional em que n tiros censurados, um limite inferior da variância é assumir que todos atingem o mesmo ponto interior mais próximo da média e (assumindo que a média esteja centralizada no interior) um limite superior deve ser suponha que os pontos censurados sejam igualmente distribuídos na periferia do interior. Mas se assumirmos que o processo subjacente é normal, parece que deveríamos ser capazes de fazer algo melhor.
feetwet
0

De outro ponto de vista, é possível ver isso à luz do campo Estatísticas espaciais, que criou uma variedade de métricas, muitas das quais foram colocadas em caixas de ferramentas (veja, por exemplo, https://www.google.com /url?sa=t&source=web&rct=j&ei=SG31U5j4BormsASc5IHgCw&url=http://resources.arcgis.com/en/help/main/10.1/005p/005p00000002000000.htm&cd=13&ved=0CE4QFjAM&usg=AFQjCNFw9AkAa-wo1rgNmx53eclQEIT1pA&sig2=PN4D5e6tyN65fLWhwIFOYA ).

A Wikipedia (link: http://en.m.wikipedia.org/wiki/Spatial_descriptive_statistics ) na verdade tem uma boa página introdutória discutindo conceitos como medidas de tendência central espacial e dispersão espacial. Para citar a Wikipedia neste último:

"Para a maioria das aplicações, a dispersão espacial deve ser quantificada de maneira invariável às rotações e reflexões. Diversas medidas simples de dispersão espacial para um conjunto de pontos podem ser definidas usando a matriz de covariância das coordenadas dos pontos. O traço, o determinante , e o maior valor próprio da matriz de covariância pode ser usado como medida de dispersão espacial. Uma medida de dispersão espacial que não se baseia na matriz de covariância é a distância média entre os vizinhos mais próximos. [1] "

Os conceitos relacionados incluem medidas de homogeneidade espacial, funções K e L de Ripley e, talvez, mais relevantes para a análise de grupos de marcadores, o teste de Cuzick-Edwards para agrupar subpopulações em populações agrupadas. O último teste é baseado na comparação (usando análises de "vizinho mais próximo" para tabular estatísticas) com uma população de controle, que no contexto atual pode ser baseada em metas reais observadas, classificadas como não exibindo agrupamento, ou por uma simulação teórica, de dizem a distribuição Rayleigh.

AJKOER
fonte