Suponha que eu receba dois grupos de medidas de massa (em mg), que são referidos como y1 e y2. Quero fazer um teste para determinar se as duas amostras são coletadas de populações com diferentes meios. Algo assim, por exemplo (em R):
y1 <- c(10.5,2.9,2.0,4.4,2.8,5.9,4.2,2.7,4.7,6.6)
y2 <- c(3.8,4.3,2.8,5.0,9.3,6.0,7.6,3.8,6.8,7.9)
t.test(y1,y2)
Recebo um valor-p de 0,3234 e, no nível de significância de 0,05, não rejeito a hipótese nula de que os dois grupos são extraídos de populações com a mesma média. Agora, tenho incertezas para cada medição:
u1 <- c(2.3,1.7,1.7,1.7,2.0,2.2,2.1,1.7,2.3,2.2)
u2 <- c(2.4,1.8,1.6,2.3,2.5,1.8,1.9,1.5,2.3,2.3)
onde u1 [1] é a incerteza padrão combinada na medição y1 [1] (e assim por diante). Como incorporar essas incertezas no teste estatístico?
Respostas:
Parece que você deseja realizar uma análise ponderada. Consulte o "Exemplo de estatística ponderada" na seção "Conceitos" da documentação do SAS.
fonte
Por que não simular isso? Ou seja, adicione sua incerteza como realização de ruído a cada observação. Em seguida, repita o teste de hipótese. Faça isso cerca de 1000 vezes e veja quantas vezes o nulo foi rejeitado. Você precisará escolher uma distribuição para o ruído. O normal parece ser uma opção, mas pode produzir observações negativas, o que não é realista.
fonte
Você pode transformá-lo em um problema de regressão e usar as incertezas como pesos. Ou seja, preveja o grupo (1 ou 2?) Da medição em uma regressão.
Mas
As incertezas são aproximadamente constantes, portanto, parece provável que nada mude muito usando-as também.
Você tem uma discrepância leve em 10,5, o que está complicando as coisas ao reduzir a diferença entre médias. Mas se você pode acreditar nas incertezas, esse valor não é mais suspeito do que qualquer outro.
O teste t não sabe que sua hipótese alternativa é que duas amostras são retiradas de populações diferentes. Tudo o que se sabe é comparar meios, sob certas suposições. Os testes baseados em classificação são uma alternativa, mas se você estiver interessado nesses dados como medidas, eles não parecerão preferíveis para seus objetivos.
fonte
Nos mínimos quadrados comuns (por exemplo, lm (y ~ x)), você está permitindo a variabilidade (incerteza) em torno dos valores de y, dado um valor x. Se você inverter a regressão (lm (x ~)), minimizará os erros em torno de x. Nos dois casos, os erros são considerados bastante homogêneos.
Se você souber a quantidade de variação em torno de cada observação de sua variável de resposta, e essa variação não for constante quando ordenada por x, convém usar os mínimos quadrados ponderados. Você pode ponderar os valores de y por fatores de 1 / (variação).
No caso de você estar preocupado com o fato de ambos x e y terem incerteza e que a incerteza não é a mesma entre os dois, você não deseja simplesmente minimizar os resíduos (endereçar a incerteza) perpendicularmente a um dos seus eixos. Idealmente, você minimizaria a incerteza perpendicular à linha de tendência ajustada. Para fazer isso, você pode usar a regressão PCA (também conhecida como regressão ortogonal ou total de mínimos quadrados). Existem pacotes R para regressão PCA e já houve postagens sobre esse tópico neste site , que também foram discutidas em outros lugares. Além disso, acho que (ou seja, posso estar errado ...) você ainda pode fazer uma versão ponderada dessa regressão, usando o seu conhecimento das variações.
fonte