Teste exato de Fisher com pesos?

12

Alguém sabe de uma variação do teste exato de Fisher que leva em consideração os pesos? Por exemplo, pesos de amostragem .
Portanto, em vez da tabela cruzada 2x2 usual, todo ponto de dados tem um valor de "massa" ou "tamanho" que pesa o ponto.

Dados de exemplo:

A B weight
N N 1
N N 3
Y N 1
Y N 2
N Y 6
N Y 7
Y Y 1
Y Y 2
Y Y 3
Y Y 4

O Teste Exato de Fisher então usa esta tabela cruzada 2x2:

A\B  N  Y All
 N   2  2   4
 Y   2  4   6
All  4  6  10

Se considerarmos o peso como um número 'real' de pontos de dados, isso resultaria em:

A\B  N  Y All
 N   4 13  17
 Y   3 10  13
All  7 23  30

Mas isso resultaria em uma confiança muito alta. Um ponto de dados mudando de N / Y para N / N faria uma diferença muito grande na estatística.
Além disso, não funcionaria se algum peso contivesse frações.

Michel de Ruiter
fonte

Respostas:

10

Suspeito que testes "exatos" e pesos amostrais sejam conceitos essencialmente incompatíveis. Fiz o check-in no Stata, que possui boas instalações para pesquisas por amostra e razoáveis ​​para testes exatos, e suas 8 possíveis estatísticas de teste para uma crosstab com pesos de amostra não incluem nenhum teste "exato", como o de Fisher.

A entrada manual relevante do Stata (para svy: tabulate twoway ) aconselha o uso do teste padrão em todos os casos. Esse método padrão é baseado na estatística qui-quadrado de Pearson usual. Citar:

"Para explicar o design da pesquisa, a estatística é transformada em estatística F com graus de liberdade não intensos, usando uma correção de segunda ordem de Rao e Scott (1981, 1984)".

Refs:

  • Rao, JNK e AJ Scott. 1981. A análise de dados categóricos de levantamentos de amostras complexas: testes qui-quadrado de qualidade de ajuste e independência em tabelas bidirecionais. Jornal da Associação Estatística Americana 76: 221-230.
  • Rao, JNK e AJ Scott. 1984. Em testes qui-quadrado para tabelas de contingência de múltiplas vias com proporções de células estimadas a partir de dados da pesquisa. Annals of Statistics 12: 46–60.
uma parada
fonte
3

Pergunta interessante. O que você quer dizer com peso?

Eu estaria inclinado a fazer um bootstrap ... escolha sua estatística favorita (ex. Fisher's Exact) e calcule-a em seus dados. Em seguida, atribua novas células a cada instância de acordo com sua hipótese nula e repita o processo 999 vezes. Isso deve fornecer uma distribuição empírica muito boa para a estatística do seu teste sob a hipótese nula e permitir o cálculo fácil do seu valor-p!

user549
fonte
Obrigado! Mas eu esperava uma estatística que fosse mais rápida e mais estável para calcular ...
Michel de Ruiter
2

Uma coisa rápida sobre os pesos das amostras - eles geralmente são uma maneira de incorporar algumas informações sobre a população da qual se está amostrando - mas geralmente eles são baseados em cenários do tipo "grande amostra" (normalmente, a previsão BLUP ou BLUE disfarçada). Então, eu imagino que os pesos das amostras provavelmente não serão melhores do que os pesos. O que seria melhor, penso, é usar as informações sobre a população em que o desenho da amostra foi baseado diretamente.

R1,...,RkkR1;11,R1;12,R1;21,R1;22,...eu=1kReu;EujReu;Eujreu;EujEu,jReu;Euj=Reu(eu=1,...,k). (alguém máximo?)

Observe que, se as probabilidades de amostragem basearem-se apenas nos dados que você provavelmente receberia, elas são irrelevantes (e o teste exato de Fisher se aplica), porque depois de receber os dados, você sabe qual amostra recebeu. Portanto, a coisa coerente a fazer é atualizar a probabilidade de amostragem paraP(Dm)=1 se a mésima unidade estiver na amostra, e P(Dm)=0 0se eles não estivessem na amostra. No entanto, geralmente o design é baseado em mais informações do que apenas nos dados que é provável que você observe. mas observe que são as informações e não o design da pesquisa em si que são importantes. A inferência baseada em design é apenas uma maneira bastante eficiente de incorporar todas essas informações em sua análise.

probabilityislogic
fonte