Desvio padrão de várias medidas com incertezas

13

Eu tenho duas horas de dados de GPS com uma taxa de amostragem de 1 Hz (7200 medições). Os dados são fornecidos na forma (X,Xσ,Y,Yσ,Z,Zσ) , onde Nσ é a incerteza de medição.

Quando tomo a média de todas as medições (por exemplo, o valor médio de Z dessas duas horas), qual é o seu desvio padrão? É claro que posso calcular o desvio padrão dos valores Z, mas negligencio o fato de que existem incertezas de medição conhecidas ...

Editar: os dados são todos da mesma estação e todas as coordenadas são medidas novamente a cada segundo. Devido a constelações de satélites, etc., cada medição tem uma incerteza diferente. O objetivo da minha análise é encontrar o deslocamento devido a um evento externo (ou seja, um terremoto). Gostaria de calcular a média para 7200 medições (2h) antes do terremoto e outra média para 2h após o terremoto e, em seguida, calcular a diferença resultante (em altura, por exemplo). Para especificar o desvio padrão dessa diferença, preciso saber o desvio padrão das duas médias.

maquinista
fonte
3
Boa pergunta. Ainda mais importante, os dados serão fortemente correlacionados positivamente ao longo do tempo: isso terá um efeito mais profundo na resposta do que a variação nas incertezas da medição.
whuber
Pegando no comentário do whuber e na resposta do Deathkill14, você não nos forneceu informações suficientes para responder adequadamente. É importante saber como os erros na medição de "funcionam". Por exemplo, se o erro na medição de X foi positivo em 3 segundos, é mais ou menos provável que seja positivo em 4 segundos - ou seja, existe correlação serial? Segundo, se o erro em X foi positivo em 3 segundos, é mais / menos provável que o erro em Y e / ou Z seja positivo em 3 segundos? Em 2 segundos? Aos 4 segundos? X,Y,ZXXYZ
Bill
Uma questão relacionada por um pouco diferente é: quão sistemático é o erro de medição? Suponha que eu dissesse "Sim, foi medido um pouco alto no meu gramado da frente. X é quase sempre medido um pouco alto no meu gramado da frente". Isso seria uma afirmação maluca? Faz o trabalho erro de medição de maneira tal que um determinado lugar pode ser muito frequentemente demasiado alta, enquanto outro lugar particular pode ser muitas vezes muito baixo, etc" Ou é tudo o transitório de erro?XX
Bill
@ Bill: Definitivamente, existe uma correlação serial. Os erros de medição são praticamente constantes ao longo das duas horas. No entanto, eles geralmente são maiores que o desvio padrão calculado a partir dos dados, o que me levou a essa pergunta.
Traindriver
Sua pergunta ainda não indica claramente a existência de correlação serial. Infelizmente, você tem três respostas cuidadosamente construídas, não sendo tão úteis para você quanto poderiam ter sido.
Glen_b -Reinstala Monica

Respostas:

7

Suspeito que as respostas anteriores a essa pergunta possam estar um pouco erradas. Parece-me que o que o poster original é realmente perguntando aqui poderia ser reformulada como ", dada uma série de medições vetor: com i = 1 , 2 , 3 , . . . , 7200 e covariância de medição : C i = ( X 2 σ , i 0 0 0 Y

θEu=(XEuYEuZEu)
Eu=1,2,3,...,7200como calcularia corretamente a média ponderada de covariância para esta série de medições vetoriais e, posteriormente, como calcularia corretamente seu desvio padrão? "A resposta a esta pergunta pode ser encontrado em muitos livros especializados em estatística para as ciências físicas.Um exemplo que eu particularmente gosto é Frederick James,"Métodos Estatísticos em Física Experimental"
CEu=(Xσ,Eu20 00 00 0Yσ,Eu20 00 00 0Zσ,Eu2)
, 2ª edição, World Scientific, 2006, Seção 11.5.2, "Combinando estimativas independentes", pág. 323-324. Outro texto de nível muito bom, mas mais introdutório, que descreve o cálculo da média ponderada por variância para valores escalares (em oposição às quantidades vetoriais completas, conforme apresentado acima) são Philip R. Bevington e D. Keith Robinson, "Redução de Dados e Análise de Erros for the Physical Sciences " , 3ª edição, McGraw-Hill, 2003, Seção 4.1.x," Ponderando os dados - Incertezas não uniformes ". Porque a pergunta do cartaz passou a ter uma diagonalizada matriz de covariância nesse caso (ou seja, todos os elementos fora da diagonal são zero), o problema é realmente separável em três problemas médios ponderados escalares individuais (ou seja, X, Y, Z),

Em geral, ao responder às perguntas do stackexchange.com, normalmente não acho útil reembalar derivações longas que já foram apresentadas anteriormente em vários livros didáticos - se você deseja realmente entender o material e entender por que as respostas têm a mesma aparência. da maneira que eles fazem, então você realmente deve ler as explicações que já foram publicadas pelos autores do livro. Com isso em mente, vou simplesmente pular diretamente para repor as respostas que outras pessoas já forneceram. De Frederick James, definindo , a média ponderada é: θ m e a n = ( N i = 1 CN=7200e a covariância da média ponderada é:Cmean=( N i=1C - 1 i )-1 Esta resposta é completamente geral, e será válida não importa qual a forma deCi, mesmo para os não-diagonal medição covariância matrizes.

θmeuman=(Eu=1NCEu-1)-1(Eu=1NCEu-1θEu)
Cmeuman=(Eu=1NCEu-1)-1
CEu

XEuYEuZEu

Xmeuman=Eu=1NXEuXσ,Eu2Eu=1N1Xσ,Eu2
Xσ,meuman2=1Eu=1N1Xσ,Eu2
Xσ,meuman=1Eu=1N1Xσ,Eu2
Ymeuman,Yσ,meumanZmeuman,Zσ,meuman
stachyra
fonte
Talvez eu não tenha ficado um pouco claro, por isso adicionei mais algumas informações. Eu não acho que preciso ponderar minhas medidas.
Traindriver
1
Sim você faz. Considere um caso extremo, como um experimento mental: suponha que você tenha apenas duas medições de GPS, em vez de 7200. Suponha ainda que uma das medições de GPS tenha uma incerteza de +/- 5 pés, enquanto a outra tenha uma incerteza de + / - 5 milhas. O número da incerteza diz literalmente quão potencialmente imprecisa é a medição. Isso significa que o valor de +/- 5 milhas provavelmente está a várias milhas de distância, pelo menos. Deseja realmente incluir esse número em sua média, de alguma maneira significativa? A média ponderada permite descontar valores que não devem ser confiáveis ​​tanto.
Stachyra
1
BTW, minha resposta tem outra coisa a oferecer: em sua postagem original, você menciona que o motivo pelo qual não deseja simplesmente usar o desvio padrão da amostra, calculado diretamente a partir dos valores Z, é que, nesse caso, você faria, em suas próprias palavras, "negligencie o fato de que existem incertezas de medição conhecidas". Minha resposta (na verdade, a resposta obscura do livro, que estou simplesmente compartilhando com você) usa as incertezas conhecidas de medição, exatamente como você pediu. É só que ele usa as informações em mais lugares (resultado médio e desvio padrão) do que você esperava.
Stachyra
Você me convenceu.
traindriver
6

Isso deve ser facilmente resolvido usando inferência bayesiana. Você conhece as propriedades de medição dos pontos individuais em relação ao seu valor verdadeiro e deseja inferir a média da população e o DP que geraram os valores reais. Este é um modelo hierárquico.

Reformulando o problema (noções básicas de Bayes)

Observe que, enquanto as estatísticas ortodoxas fornecem uma única média, na estrutura bayesiana você obtém uma distribuição de valores credíveis da média. Por exemplo, as observações (1, 2, 3) com DPs (2, 2, 3) poderiam ter sido geradas pela Estimativa Máxima de Verossimilhança de 2, mas também por uma média de 2,1 ou 1,8, embora um pouco menos provável (dados) que o MLE. Portanto, além do DP, também inferimos a média .

Outra diferença conceitual é que você precisa definir seu estado de conhecimento antes de fazer as observações. Chamamos isso de priores . Você deve saber antecipadamente que uma determinada área foi digitalizada e em uma certa faixa de altura. A completa ausência de conhecimento seria ter graus uniformes (-90, 90) como os anteriores em X e Y e talvez uniformes (0, 10000) metros de altura (acima do oceano, abaixo do ponto mais alto da Terra). Você precisa definir distribuições anteriores para todos os parâmetros que deseja estimar, ou seja, obter distribuições posteriores . Isso também vale para o desvio padrão.

Então, reformulando seu problema, presumo que você deseja inferir valores confiáveis ​​para três meios (X.mean, Y.mean, X.mean) e três desvios padrão (X.sd, Y.sd, X.sd) que poderiam ter gerou seus dados.

O modelo

Usando a sintaxe padrão de BUGS (use WinBUGS, OpenBUGS, JAGS, stan ou outros pacotes para executar isso), seu modelo ficaria assim:

  model {
    # Set priors on population parameters
    X.mean ~ dunif(-90, 90)
    Y.mean ~ dunif(-90, 90)
    Z.mean ~ dunif(0, 10000)
    X.sd ~ dunif(0, 10)  # use something with better properties, i.e. Jeffreys prior.
    Y.sd ~ dunif(0, 10)
    Z.sd ~ dunif(0, 100)

    # Loop through data (or: set up plates)
    # assuming observed(x, sd(x), y, sd(y) z, sd(z)) = d[i, 1:6]
    for(i in 1:n.obs) {
      # The true value was generated from population parameters
      X[i] ~ dnorm(X.mean, X.sd^-2)  #^-2 converts from SD to precision
      Y[i] ~ dnorm(Y.mean, Y.sd^-2)
      Z[i] ~ dnorm(Z.mean, Z.sd^-2)

      # The observation was generated from the true value and a known measurement error
      d[i, 1] ~ dnorm(X[i], d[i, 2]^-2)  #^-2 converts from SD to precision
      d[i, 3] ~ dnorm(Y[i], d[i, 4]^-2)
      d[i, 5] ~ dnorm(Z[i], d[i, 6]^-2)
    }
  }

Naturalmente, você monitora os parâmetros .mean e .sd e usa seus posteriores para inferência.

Simulação

Simulei alguns dados como este:

# Simulate 500 data points
x = rnorm(500, -10, 5)  # mean -10, sd 5
y = rnorm(500, 20, 5)  # mean 20, sd 4
z = rnorm(500, 2000, 10)  # mean 2000, sd 10
d = cbind(x, 0.1, y, 0.1, z, 3)  # added constant measurement errors of 0.1 deg, 0.1 deg and 3 meters
n.obs = dim(d)[1]

Em seguida, executou o modelo usando o JAGS para 2000 iterações após uma queima de 500 iterações. Aqui está o resultado para o X.sd.

posterior para X.sd

O intervalo azul indica o intervalo 95% de densidade posterior mais alta ou credível (onde você acredita que o parâmetro está após a observação dos dados. Observe que um intervalo de confiança ortodoxo não fornece isso).

A linha vertical vermelha é a estimativa do MLE dos dados brutos. Geralmente, o parâmetro mais provável na estimativa bayesiana também é o parâmetro mais provável (máxima verossimilhança) nas estatísticas ortodoxas. Mas você não deve se importar muito com a parte superior da parte posterior. A média ou mediana é melhor se você quiser reduzi-lo para um único número.

Observe que MLE / top não está em 5 porque os dados foram gerados aleatoriamente, não por causa de estatísticas incorretas.

Limitações

Este é um modelo simples que possui várias falhas atualmente.

  1. Ele não lida com a identidade de -90 e 90 graus. Isso pode ser feito, no entanto, criando uma variável intermediária que altera valores extremos dos parâmetros estimados para a faixa (-90, 90).
  2. Atualmente, X, Y e Z são modelados como independentes, embora provavelmente estejam correlacionados, e isso deve ser levado em consideração para tirar o máximo proveito dos dados. Depende se o dispositivo de medição estava em movimento (correlação serial e distribuição conjunta de X, Y e Z fornecerão muitas informações) ou parado (a independência é aceitável). Posso expandir a resposta para abordar isso, se solicitado.

Devo mencionar que há muita literatura sobre modelos espaciais bayesianos sobre os quais não tenho conhecimento.

Jonas Lindeløv
fonte
Obrigado por esta resposta. São dados de uma estação fixa, mas isso implica que os dados são independentes?
Traindriver
@traindriver Você precisa fornecer mais informações sobre o problema de inferência que enfrenta para que possamos ajudá-lo. Você pode expandir sua pergunta com uma seção "atualização" especificando pelo menos (1) a mesma quantidade que é medida repetidamente? Ou seja, a mesma coordenada. Ou uma área é digitalizada ou ... (2) por que você quer inferir a média e o sd? Se for uma área, pode ser que você queira usar o SD como uma estimativa de impacto ou algo parecido.
Jonas Lindeløv
Eu adicionei mais algumas informações no post original.
traindriver
3

Apresento primeiro uma notação e configurei o problema usando a abordagem simples que você mencionou. Então vá além. usareiz para se referir ao vetor Z que você deu.

Considere o seguinte modelo, que não possui o erro de medição de menção explícita: Z¯=Eu=1nμZ+ϵEun, Onde Z¯ é o valor médio estimado de ze μZ é o verdadeiro valor médio de Z. Aqui, ϵ é um vetor dos erros nos seus dados e você espera que, se sua amostra for grande Z¯ irá convergir para μZ. Se você simplesmente pegar o observadoZ valores e medi-los, você obtém Z¯ e se você calcular o desvio padrão da amostra, obterá σ^, a estimativa do verdadeiro desvio padrão da população σ. E se você gostaria de usar algum conhecimento sobre o erro de medição?

Primeiro, observe que podemos reformular o modelo inicial como: z=1β+ϵ, Onde 1 é um vetor de uns e β vai acabar sendo Z¯. Agora, isso realmente parece regressão, mas ainda estamos basicamente obtendo uma estimativa deμZ. Se fizermos uma regressão como essa, também obteremos uma estimativa para o erro padrão deϵ, que é quase o que queremos - isso não passa de um erro padrão de z (mas ainda queremos considerar o erro de medição).

Podemos aumentar nosso modelo inicial para obter um modelo de efeitos mistos. z=1β+Qvocê+ϵ, Onde você é um vetor de efeitos aleatórios e Q é o regressor relacionado z para você. Como em qualquer efeito aleatório, você precisará supor a distribuição devocê. É correto queZσ é a distribuição do erro de medição para z? Se sim, isso pode ser usado para fornecer a distribuição dos efeitos aleatórios. Normalmente, o software para executar a modelagem básica de efeitos mistos assume que os efeitos aleatórios têm uma distribuição normal (com média de 0 ...) e estima a variação para você. Talvez você possa tentar fazer isso para testar o conceito. Se você deseja usar suas informações anteriores sobre a distribuição do erro de medição, é necessário um modelo de efeitos mistos bayesiano. Você pode usar o R2OpenBUGS.

Após estimar esse modelo, o erro padrão que você obtém para os resíduos ϵé o erro padrão pelo qual você expressa interesse. Intuitivamente, o componente de efeitos aleatórios do modelo está absorvendo parte da variação que você pode explicar porque sabe que há um erro de medição. Isso permite que você obtenha uma estimativa mais relevante da variação deϵ

Vejo este documento para uma discussão mais profunda sobre essa abordagem de efeitos aleatórios para explicar o erro de medição. Sua situação é semelhante à que os autores apresentam paraD e seu erro de medição versão corrompida W. O exemplo na Seção 4 pode oferecer algumas idéias sobre sua situação.

Conforme mencionado pelo whuber, convém considerar a autocorrelação em seus dados. Usar efeitos aleatórios não resolverá esse problema.

Deathkill14
fonte