Eu tenho duas horas de dados de GPS com uma taxa de amostragem de 1 Hz (7200 medições). Os dados são fornecidos na forma , onde é a incerteza de medição.
Quando tomo a média de todas as medições (por exemplo, o valor médio de Z dessas duas horas), qual é o seu desvio padrão? É claro que posso calcular o desvio padrão dos valores Z, mas negligencio o fato de que existem incertezas de medição conhecidas ...
Editar: os dados são todos da mesma estação e todas as coordenadas são medidas novamente a cada segundo. Devido a constelações de satélites, etc., cada medição tem uma incerteza diferente. O objetivo da minha análise é encontrar o deslocamento devido a um evento externo (ou seja, um terremoto). Gostaria de calcular a média para 7200 medições (2h) antes do terremoto e outra média para 2h após o terremoto e, em seguida, calcular a diferença resultante (em altura, por exemplo). Para especificar o desvio padrão dessa diferença, preciso saber o desvio padrão das duas médias.
fonte
Respostas:
Suspeito que as respostas anteriores a essa pergunta possam estar um pouco erradas. Parece-me que o que o poster original é realmente perguntando aqui poderia ser reformulada como ", dada uma série de medições vetor: com i = 1 , 2 , 3 , . . . , 7200 e covariância de medição : C i = ( X 2 σ , i 0 0 0 Y
Em geral, ao responder às perguntas do stackexchange.com, normalmente não acho útil reembalar derivações longas que já foram apresentadas anteriormente em vários livros didáticos - se você deseja realmente entender o material e entender por que as respostas têm a mesma aparência. da maneira que eles fazem, então você realmente deve ler as explicações que já foram publicadas pelos autores do livro. Com isso em mente, vou simplesmente pular diretamente para repor as respostas que outras pessoas já forneceram. De Frederick James, definindo , a média ponderada é: → θ m e a n = ( N ∑ i = 1 CN= 7200 e a covariância da média ponderada é:Cmean=( N ∑ i=1C - 1 i )-1 Esta resposta é completamente geral, e será válida não importa qual a forma deCi, mesmo para os não-diagonal medição covariância matrizes.
fonte
Isso deve ser facilmente resolvido usando inferência bayesiana. Você conhece as propriedades de medição dos pontos individuais em relação ao seu valor verdadeiro e deseja inferir a média da população e o DP que geraram os valores reais. Este é um modelo hierárquico.
Reformulando o problema (noções básicas de Bayes)
Observe que, enquanto as estatísticas ortodoxas fornecem uma única média, na estrutura bayesiana você obtém uma distribuição de valores credíveis da média. Por exemplo, as observações (1, 2, 3) com DPs (2, 2, 3) poderiam ter sido geradas pela Estimativa Máxima de Verossimilhança de 2, mas também por uma média de 2,1 ou 1,8, embora um pouco menos provável (dados) que o MLE. Portanto, além do DP, também inferimos a média .
Outra diferença conceitual é que você precisa definir seu estado de conhecimento antes de fazer as observações. Chamamos isso de priores . Você deve saber antecipadamente que uma determinada área foi digitalizada e em uma certa faixa de altura. A completa ausência de conhecimento seria ter graus uniformes (-90, 90) como os anteriores em X e Y e talvez uniformes (0, 10000) metros de altura (acima do oceano, abaixo do ponto mais alto da Terra). Você precisa definir distribuições anteriores para todos os parâmetros que deseja estimar, ou seja, obter distribuições posteriores . Isso também vale para o desvio padrão.
Então, reformulando seu problema, presumo que você deseja inferir valores confiáveis para três meios (X.mean, Y.mean, X.mean) e três desvios padrão (X.sd, Y.sd, X.sd) que poderiam ter gerou seus dados.
O modelo
Usando a sintaxe padrão de BUGS (use WinBUGS, OpenBUGS, JAGS, stan ou outros pacotes para executar isso), seu modelo ficaria assim:
Naturalmente, você monitora os parâmetros .mean e .sd e usa seus posteriores para inferência.
Simulação
Simulei alguns dados como este:
Em seguida, executou o modelo usando o JAGS para 2000 iterações após uma queima de 500 iterações. Aqui está o resultado para o X.sd.
O intervalo azul indica o intervalo 95% de densidade posterior mais alta ou credível (onde você acredita que o parâmetro está após a observação dos dados. Observe que um intervalo de confiança ortodoxo não fornece isso).
A linha vertical vermelha é a estimativa do MLE dos dados brutos. Geralmente, o parâmetro mais provável na estimativa bayesiana também é o parâmetro mais provável (máxima verossimilhança) nas estatísticas ortodoxas. Mas você não deve se importar muito com a parte superior da parte posterior. A média ou mediana é melhor se você quiser reduzi-lo para um único número.
Observe que MLE / top não está em 5 porque os dados foram gerados aleatoriamente, não por causa de estatísticas incorretas.
Limitações
Este é um modelo simples que possui várias falhas atualmente.
Devo mencionar que há muita literatura sobre modelos espaciais bayesianos sobre os quais não tenho conhecimento.
fonte
Apresento primeiro uma notação e configurei o problema usando a abordagem simples que você mencionou. Então vá além. usareiz para se referir ao vetor Z que você deu.
Considere o seguinte modelo, que não possui o erro de medição de menção explícita:Z¯= ∑ni = 1μZ+ ϵEun , Onde Z¯ é o valor médio estimado de z e μZ é o verdadeiro valor médio de Z. Aqui, ϵ é um vetor dos erros nos seus dados e você espera que, se sua amostra for grande Z¯ irá convergir para μZ . Se você simplesmente pegar o observadoZ valores e medi-los, você obtém Z¯ e se você calcular o desvio padrão da amostra, obterá σ^ , a estimativa do verdadeiro desvio padrão da população σ . E se você gostaria de usar algum conhecimento sobre o erro de medição?
Primeiro, observe que podemos reformular o modelo inicial como:z = 1 β+ ϵ , Onde 1 é um vetor de uns e β vai acabar sendo Z¯ . Agora, isso realmente parece regressão, mas ainda estamos basicamente obtendo uma estimativa deμZ . Se fizermos uma regressão como essa, também obteremos uma estimativa para o erro padrão deϵ , que é quase o que queremos - isso não passa de um erro padrão de z (mas ainda queremos considerar o erro de medição).
Podemos aumentar nosso modelo inicial para obter um modelo de efeitos mistos.z = 1 β+ Q u + ϵ , Onde você é um vetor de efeitos aleatórios e Q é o regressor relacionado z para você . Como em qualquer efeito aleatório, você precisará supor a distribuição devocê . É correto queZσ é a distribuição do erro de medição para z ? Se sim, isso pode ser usado para fornecer a distribuição dos efeitos aleatórios. Normalmente, o software para executar a modelagem básica de efeitos mistos assume que os efeitos aleatórios têm uma distribuição normal (com média de 0 ...) e estima a variação para você. Talvez você possa tentar fazer isso para testar o conceito. Se você deseja usar suas informações anteriores sobre a distribuição do erro de medição, é necessário um modelo de efeitos mistos bayesiano. Você pode usar o R2OpenBUGS.
Após estimar esse modelo, o erro padrão que você obtém para os resíduosϵ é o erro padrão pelo qual você expressa interesse. Intuitivamente, o componente de efeitos aleatórios do modelo está absorvendo parte da variação que você pode explicar porque sabe que há um erro de medição. Isso permite que você obtenha uma estimativa mais relevante da variação deϵ
Vejo este documento para uma discussão mais profunda sobre essa abordagem de efeitos aleatórios para explicar o erro de medição. Sua situação é semelhante à que os autores apresentam paraD e seu erro de medição versão corrompida W . O exemplo na Seção 4 pode oferecer algumas idéias sobre sua situação.
Conforme mencionado pelo whuber, convém considerar a autocorrelação em seus dados. Usar efeitos aleatórios não resolverá esse problema.
fonte