Testes estatísticos que incorporam incerteza de medição

11

Suponha que eu receba dois grupos de medidas de massa (em mg), que são referidos como y1 e y2. Quero fazer um teste para determinar se as duas amostras são coletadas de populações com diferentes meios. Algo assim, por exemplo (em R):

y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)

Recebo um valor-p de 0,3234 e, no nível de significância de 0,05, não rejeito a hipótese nula de que os dois grupos são extraídos de populações com a mesma média. Agora, tenho incertezas para cada medição:

u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)

onde u1 [1] é a incerteza padrão combinada na medição y1 [1] (e assim por diante). Como incorporar essas incertezas no teste estatístico?

Tom
fonte
Essas medidas estão emparelhadas ou não? (Suponho que não.) As incertezas podem ser usadas para derivar pesos que podem melhorar sua inferência, mas a variação nas incertezas é bem pequena, portanto não haverá muito ganho, mesmo que as incertezas sejam precisas.
Glen_b -Reinstate Monica
Estes são um subconjunto de dados reais não emparelhados. O exemplo tinha como objetivo principal esclarecer a questão. O que estou realmente procurando é uma orientação geral sobre como melhor incorporar a incerteza de medição em um teste de hipótese (como no teste). Parece-me que estamos desperdiçando muitas informações valiosas se não usarmos as incertezas da medição, mas não consegui encontrar orientações claras sobre esse assunto na literatura.
Tom
Para fazer o máximo uso deles, você precisa incorporá-los a um modelo probabilístico para as observações; o que as incertezas de medição realmente representam? (Você não pode acenar com a mão, por isso tome cuidado.)
Glen_b -Reinstate Monica

Respostas:

1

Parece que você deseja realizar uma análise ponderada. Consulte o "Exemplo de estatística ponderada" na seção "Conceitos" da documentação do SAS.

Rick
fonte
Então, nós apenas fazemos o teste t com as médias ponderadas e os desvios padrão ponderados, onde u1 e u1 são os pesos?
Tom
Sim. Você estaria assumindo que a variação da i-ésima observação é Var / w_i, onde w_i é o peso da i-ésima observação e Var> 0.
21413 Rick
1

Por que não simular isso? Ou seja, adicione sua incerteza como realização de ruído a cada observação. Em seguida, repita o teste de hipótese. Faça isso cerca de 1000 vezes e veja quantas vezes o nulo foi rejeitado. Você precisará escolher uma distribuição para o ruído. O normal parece ser uma opção, mas pode produzir observações negativas, o que não é realista.

Soakley
fonte
1

Você pode transformá-lo em um problema de regressão e usar as incertezas como pesos. Ou seja, preveja o grupo (1 ou 2?) Da medição em uma regressão.

Mas

As incertezas são aproximadamente constantes, portanto, parece provável que nada mude muito usando-as também.

Você tem uma discrepância leve em 10,5, o que está complicando as coisas ao reduzir a diferença entre médias. Mas se você pode acreditar nas incertezas, esse valor não é mais suspeito do que qualquer outro.

O teste t não sabe que sua hipótese alternativa é que duas amostras são retiradas de populações diferentes. Tudo o que se sabe é comparar meios, sob certas suposições. Os testes baseados em classificação são uma alternativa, mas se você estiver interessado nesses dados como medidas, eles não parecerão preferíveis para seus objetivos.

Nick Cox
fonte
Ponto tomado. Mudei a questão para expressá-la em termos de meios.
Tom
0

Nos mínimos quadrados comuns (por exemplo, lm (y ~ x)), você está permitindo a variabilidade (incerteza) em torno dos valores de y, dado um valor x. Se você inverter a regressão (lm (x ~)), minimizará os erros em torno de x. Nos dois casos, os erros são considerados bastante homogêneos.

Se você souber a quantidade de variação em torno de cada observação de sua variável de resposta, e essa variação não for constante quando ordenada por x, convém usar os mínimos quadrados ponderados. Você pode ponderar os valores de y por fatores de 1 / (variação).

No caso de você estar preocupado com o fato de ambos x e y terem incerteza e que a incerteza não é a mesma entre os dois, você não deseja simplesmente minimizar os resíduos (endereçar a incerteza) perpendicularmente a um dos seus eixos. Idealmente, você minimizaria a incerteza perpendicular à linha de tendência ajustada. Para fazer isso, você pode usar a regressão PCA (também conhecida como regressão ortogonal ou total de mínimos quadrados). Existem pacotes R para regressão PCA e já houve postagens sobre esse tópico neste site , que também foram discutidas em outros lugares. Além disso, acho que (ou seja, posso estar errado ...) você ainda pode fazer uma versão ponderada dessa regressão, usando o seu conhecimento das variações.

rbatt
fonte