Você sinalizaria esses dados como fraudulentos?

8

Vamos supor que você tenha recebido alguns dados de um delineamento de blocos casualizados com 4 repetições e 23 tratamentos. Após uma inspeção inicial dos dados, você percebe que, durante 8 tratamentos, todas as repetições são idênticas, o que está obviamente errado. Após relatar o problema, você será informado de que foi devido a uma confusão da pessoa responsável pelos dados, que posteriormente enviará a "versão correta" dos dados. A versão corrigida dos dados seria algo como isto:

Valor do representante do tratamento 
   A 1 5727.000
   A 2 5400.000
   A 3 5800.000
   A 4 5473.000
   B 1 4618.000
   B 2 4844.000
   B 3 4966.000
   B 4 4496.000 
...
   Z 1 4329.345
   Z 2 4597.275
   Z 3 4833.246
   Z 4 4199.098 

A primeira coisa que chamaria minha atenção em tais dados seria o fato de que apenas os oito tratamentos para os quais o problema foi relatado não possuem nenhuma fração decimal (todos os demais tratamentos são bons). Então, eu decidia dar uma olhada mais de perto e subtrair cada observação da média da amostra nos tratamentos, encontrando algo como

Delta do valor do representante de tratamento
   A 1 5727.000 +127
   A 2 5400.000 -200
   A 3 5800.000 +200
   A 4 5473.000 -127
   B 1 4618.000 -113
   B 2 4844.000 +113
   B 3 4966.000 +235
   B 4 4496.000 -235
...
   Z 1 4329,345 ...
   Z 2 4597,275 ...
   Z 3 4833,246 ...
   Z 4 4199,098 ...

Depois de ver que as diferenças são simétricas em relação à média, eu telefonaria imediatamente para a pessoa responsável pelo projeto e relataria o problema. Claro, eu também desistiria de trabalhar nesse projeto.

Embora a evidência seja bastante convincente, seria bom anexar uma probabilidade ao relatório, apenas para dar uma idéia de quão ruins esses dados são. Então, eu teria pensado em algo como o seguinte e gostaria de saber se haveria alguma falha no meu raciocínio:

Digamos que, se os dados fossem legítimos, seria razoável assumir a normalidade para esse tipo de dados, com base na experiência de análises anteriores desse tipo de dados.

Então, vamos definir 4 variáveis ​​aleatórias normais para cada uma das quatro repetições em cada tratamento: A simetria (com uma tolerância de 0,5) observada acima pode ser expressa como o evento: Ainda existem outros equivalentes maneiras pelas quais as amostras podem ser organizadas para satisfazer a simetria (X1 + X3 - X4 - X2; X1 + X4 - X2 - X3), de modo que a probabilidade da simetria (S) seja:

XiN(μX, σX);   i=1,2,3,4
A:0.5<X1+X2X3X4<0.5
P(S)3P(A)

A desigualdade é simplesmente porque eu não quero remover a interseção.

Se definirmos a variável aleatória Y da seguinte forma:

Y=X1+X2X3X4

Daqui resulta:

YN(0, 2σX)

Digamos que, a partir dos resíduos do modelo com esses dados, o como 350. A partir disso, usaria o CDF de y para calcular a probabilidade de Y cair entre -0,5 e 0,5, que seria P (A ) = 0.0005699175σX

pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)

Como tal, a probabilidade de S seria:

P(S)0.001709752

Como não haveria um efeito de bloco claro e os dados viriam de um experimento randomizado, seria razoável assumir independência estatística. Vamos supor que dos 8 tratamentos suspeitos, 3 tenham essa simetria. Então, assumindo a independência, poderíamos calcular a probabilidade desse evento (vamos chamá-lo de D) a partir de uma distribuição binomial:

D: 3 de 8 tratamentos apresentam simetria de observações em torno da média da amostra.

P(D)(83)p3(1p)5

P(D)2.7107

Como não sou estatístico, gostaria de saber se existe alguma falha nesse raciocínio e se você também denunciaria os dados como fraudulentos.

Teo
fonte
9
A questão ética é fundamental aqui. Eu concordaria com essas informações ao considerar os dados como altamente suspeitos e denunciá-los como tais; Eu nunca chamaria de "fraude" porque isso é para outros determinarem após a investigação e, em alguns países, você pode abrir uma ação judicial ou sua ameaça. Quanto a anexar uma estimativa de probabilidade, eu me afastaria disso. O caso é claro (er) sem ele e praticamente todas as suposições ou aproximações estão abertas a desafios.
Nick Cox
5
Concordo plenamente com Nick Cox. Observe que QUALQUER padrão de dados específico é altamente improvável; portanto, a estimativa de probabilidade vai confundir o que de outra forma é um caso completamente claro e convincente de dados inutilizáveis ​​(eu usaria esse termo ou algo semelhante e não fraudulento).
Zbicyclist
2
É improvável que qualquer padrão específico ocorra aleatoriamente, mas nem todos têm a mesma probabilidade de serem produzidos de maneira consciente pelo homem. Como não existe um modelo universal de como um homem "criaria" esses dados, não há muito sentido no cálculo de probabilidade. Você pode considerar uma representação gráfica da simetria dos dados. A para fins de demonstração B, para dar às pessoas uma sensação de quanto esse peixe fede.
Bernhard
1
Respostas muito úteis! Na verdade, eu não conseguia descobrir a intenção deles apenas com esses dados. A única coisa que estaria além da dúvida razoável é que esses dados são inutilizáveis ​​(gostei desse termo).
Teo

Respostas:

3

A questão ética é fundamental aqui. Eu concordaria com essas informações ao considerar os dados como altamente suspeitos e denunciá-los como tais; Eu nunca chamaria de "fraude" porque isso é para outros determinarem após a investigação e, em alguns países, você pode abrir uma ação judicial ou sua ameaça. Quanto a anexar uma estimativa de probabilidade, eu me afastaria disso. O caso é claro (er) sem ele e praticamente todas as suposições ou aproximações estão abertas a desafios.

mkt - Restabelecer Monica
fonte
1
Copiei este comentário do @NickCox como uma resposta do wiki da comunidade, porque o comentário é, mais ou menos, uma resposta a esta pergunta. Temos uma lacuna dramática entre respostas e perguntas. Pelo menos parte do problema é que algumas perguntas são respondidas nos comentários: se os comentários que responderam à pergunta fossem respostas, teríamos menos perguntas sem resposta.
mkt - Reintegrar Monica