A exibição do tamanho do efeito binomial (BESD) é uma representação enganosa do tamanho do efeito?

10

É difícil para mim aceitar que Donald Rubin venha a ter uma verdadeira técnica de limão. No entanto, essa é a minha percepção do BESD [ 1 , 2 , 3 ].

O artigo original de Rosenthal e Rubin (1982) afirmou que havia valor em mostrar "como reformular qualquer correlação produto-momento em uma exibição [2x2], se os dados originais são contínuos ou categóricos".

A tabela abaixo é da p. 451 do segundo link acima:

insira a descrição da imagem aqui

Essa técnica parece exagerar a magnitude de quase qualquer tamanho de efeito. Aqui, partir dos dados originais = 0,01, mas quando "traduzidos" em uma tabela de contingência 2x2, parecemos enfrentar um efeito muito mais forte. Não nego que, quando os dados são reformulados para o formato categórico dessa maneira, fato = .1, mas sinto que algo tenha sido muito distorcido na tradução.R2ϕ

Estou perdendo algo verdadeiramente valioso aqui? Além disso, tenho a impressão de que, nos últimos dez anos, a comunidade estatística em geral rejeitou isso como um método legítimo - estou errado nisso?

A equação para calcular as taxas de sucesso experimental ( ) e controle ( ) ( ), respectivamente, é simplesmente:ECsr

Esr=.50+r/2

e

Csr=.50-r/2


Referência:

Rosenthal, R. & Rubin, DB (1982). Uma exibição simples de propósito geral da magnitude do efeito experimental. Jornal de psicologia educacional, 74 , 166-169.

rolando2
fonte
11
r
Suas boas idéias foram o único feedback ou resposta que eu já vi.
Rolando2
2
Ainda não li, mas isso parece altamente pertinente: Hsu, LM (2004). Os vieses das diferenças na taxa de sucesso mostrados no tamanho do efeito binomial são exibidos. Psychological Methods, 9 (2), 183-197. Algumas críticas também são discutidas em: Randolph, JJ e Edmondson, RS (2005). Usando o Display Binomial Effect Size (BESD) para apresentar a magnitude dos tamanhos de efeito para o público da avaliação. Avaliação Prática, Pesquisa e Avaliação, 10 (14).
19417 Wolfgang

Respostas:

4

Posso demonstrar que é tendencioso (acho), mas não consigo explicar o porquê. Espero que alguém possa ver minha resposta e ajudar a explicar mais.

Como em muitas metanálises e na imagem que você postou, muitas pessoas interpretam o BESD como: Se você dividisse as duas variáveis ​​por mediana, colocaria as pessoas com precisão nas células "certas" de uma tabela de contingência 2 x 2, uma determinada porcentagem de A Hora.

.50+r/2=.70r

insira a descrição da imagem aqui

r

r=.38.50+r/2

Peguei a média e o desvio padrão de cada um desses vetores de 10.000 de comprimento. O código:

library(MASS)
# set population params
mu <- rep(0,2)
Sigma <- matrix(.38, nrow=2, ncol=2) + diag(2)*.62
# set seed
set.seed(1839)
# generate population
pop <- as.data.frame(mvrnorm(n=1000000, mu=mu, Sigma=Sigma))
# initialize vectors
besd_correct <- c()
actual_correct <- c()
# actually break up raw data by median split, see how it works
for (i in 1:10000) {
  samp <- pop[sample(1:1000000, 100),]
  besd_correct[i] <- round(100*(.50 + cor(samp)[1,2]/2),0)
  samp$V1_split <- ifelse(samp$V1 > median(samp$V1), 1, 0)
  samp$V2_split <- ifelse(samp$V2 > median(samp$V2), 1, 0)
  actual_correct[i] <- with(samp, table(V1_split==V2_split))[[2]]
}
# cells for BESD
mean(besd_correct)
100 - mean(besd_correct)
# cells for actual 2 x 2 table with median split
mean(actual_correct)
100 - mean(actual_correct)

Com base no BESD, obtemos esta tabela, onde v1e nos v2referimos a variáveis ​​e lowe highabaixo e acima da mediana, respectivamente:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 69     | 31      |
+---------+--------+---------+
| v1 high | 31     | 69      |
+---------+--------+---------+

Com base em realmente fazer uma divisão mediana com os dados brutos, obtemos esta tabela:

+---------+--------+---------+
|         | v2 low | v2 high |
+---------+--------+---------+
| v1 low  | 62     | 38      |
+---------+--------+---------+
| v1 high | 38     | 62      |
+---------+--------+---------+

Portanto, embora alguém possa argumentar, usando o BESD, que existe uma "diferença de 38 pontos percentuais no controle e no experimental", a divisão mediana real tem esse número em 24.

Não sei por que isso acontece, ou se depende do tamanho e da correlação da amostra (pode-se facilmente fazer mais simulações para descobrir), acho que isso mostra que é tendencioso. Eu adoraria se alguém pudesse concordar com uma explicação matemática - e não computacional.

Mark White
fonte
2

A intuição de Mark White está incorreta. O BESD não está realmente modelando uma divisão mediana. Uma divisão mediana está associada à perda real de informações estatísticas - atenua sistematicamente as relações (consulte http://psycnet.apa.org/record/1990-24322-001), razão pela qual os valores da divisão mediana mostram uma precisão menor que o BESD. O BESD está demonstrando precisão de classificação como se as variáveis ​​fossem verdadeiramente dicotômicas, não artificialmente dicotomizadas por meio de uma divisão mediana. Para ver isso, calcule a correlação nos dados da divisão mediana. Você verá que é menor que a correlação para as variáveis ​​originais. Se as variáveis ​​fossem originalmente binárias, os dois métodos concordariam. Por sua natureza, o BESD está exibindo variáveis ​​como se fossem verdadeiramente binárias. Quando é usado para variáveis ​​contínuas, isso necessariamente representa uma abstração - não há realmente grupos "sucesso" e "falha" ou "tratamento" e "controle",

O BESD não é tendencioso. Ele reflete com precisão o impacto de um tratamento específico na precisão da classificação se estivéssemos trabalhando com duas variáveis ​​binárias. É uma exibição útil para demonstrar o valor prático potencial de uma medida ou tratamento e, sim, demonstra que mesmo efeitos com pequena variação contabilizada por estatísticas podem ser significativamente importantes. O BESD é amplamente usado na prática psicológica e organizacional aplicada e concorda fortemente com outras exibições práticas de tamanho de efeito (por exemplo, que selecionar de cima para baixo um grupo usando uma medida com uma correlação de validade de r = 0,25 levará a 0,25 SD aumenta o desempenho do resultado entre o grupo selecionado versus um grupo não selecionado).

A variação contabilizada pelas estatísticas conduz consistentemente a mal-entendidos e subestima o tamanho das relações de variáveis, porque a operação quadrática é não-linear. Muitos metodologistas aplicados (por exemplo, https://us.sagepub.com/en-us/nam/methods-of-meta-analysis/book240589 ) desencorajam fortemente seu uso em favor de suas raízes quadradas (que transmitem com mais precisão o tamanho de efeitos).

Brenton Wiernik
fonte