É difícil para mim aceitar que Donald Rubin venha a ter uma verdadeira técnica de limão. No entanto, essa é a minha percepção do BESD [ 1 , 2 , 3 ].
O artigo original de Rosenthal e Rubin (1982) afirmou que havia valor em mostrar "como reformular qualquer correlação produto-momento em uma exibição [2x2], se os dados originais são contínuos ou categóricos".
A tabela abaixo é da p. 451 do segundo link acima:
Essa técnica parece exagerar a magnitude de quase qualquer tamanho de efeito. Aqui, partir dos dados originais = 0,01, mas quando "traduzidos" em uma tabela de contingência 2x2, parecemos enfrentar um efeito muito mais forte. Não nego que, quando os dados são reformulados para o formato categórico dessa maneira, fato = .1, mas sinto que algo tenha sido muito distorcido na tradução.
Estou perdendo algo verdadeiramente valioso aqui? Além disso, tenho a impressão de que, nos últimos dez anos, a comunidade estatística em geral rejeitou isso como um método legítimo - estou errado nisso?
A equação para calcular as taxas de sucesso experimental ( ) e controle ( ) ( ), respectivamente, é simplesmente:
e
Referência:
Rosenthal, R. & Rubin, DB (1982). Uma exibição simples de propósito geral da magnitude do efeito experimental. Jornal de psicologia educacional, 74 , 166-169.
fonte
Respostas:
Posso demonstrar que é tendencioso (acho), mas não consigo explicar o porquê. Espero que alguém possa ver minha resposta e ajudar a explicar mais.
Como em muitas metanálises e na imagem que você postou, muitas pessoas interpretam o BESD como: Se você dividisse as duas variáveis por mediana, colocaria as pessoas com precisão nas células "certas" de uma tabela de contingência 2 x 2, uma determinada porcentagem de A Hora.
Peguei a média e o desvio padrão de cada um desses vetores de 10.000 de comprimento. O código:
Com base no BESD, obtemos esta tabela, onde
v1
e nosv2
referimos a variáveis elow
ehigh
abaixo e acima da mediana, respectivamente:Com base em realmente fazer uma divisão mediana com os dados brutos, obtemos esta tabela:
Portanto, embora alguém possa argumentar, usando o BESD, que existe uma "diferença de 38 pontos percentuais no controle e no experimental", a divisão mediana real tem esse número em 24.
Não sei por que isso acontece, ou se depende do tamanho e da correlação da amostra (pode-se facilmente fazer mais simulações para descobrir), acho que isso mostra que é tendencioso. Eu adoraria se alguém pudesse concordar com uma explicação matemática - e não computacional.
fonte
A intuição de Mark White está incorreta. O BESD não está realmente modelando uma divisão mediana. Uma divisão mediana está associada à perda real de informações estatísticas - atenua sistematicamente as relações (consulte http://psycnet.apa.org/record/1990-24322-001), razão pela qual os valores da divisão mediana mostram uma precisão menor que o BESD. O BESD está demonstrando precisão de classificação como se as variáveis fossem verdadeiramente dicotômicas, não artificialmente dicotomizadas por meio de uma divisão mediana. Para ver isso, calcule a correlação nos dados da divisão mediana. Você verá que é menor que a correlação para as variáveis originais. Se as variáveis fossem originalmente binárias, os dois métodos concordariam. Por sua natureza, o BESD está exibindo variáveis como se fossem verdadeiramente binárias. Quando é usado para variáveis contínuas, isso necessariamente representa uma abstração - não há realmente grupos "sucesso" e "falha" ou "tratamento" e "controle",
O BESD não é tendencioso. Ele reflete com precisão o impacto de um tratamento específico na precisão da classificação se estivéssemos trabalhando com duas variáveis binárias. É uma exibição útil para demonstrar o valor prático potencial de uma medida ou tratamento e, sim, demonstra que mesmo efeitos com pequena variação contabilizada por estatísticas podem ser significativamente importantes. O BESD é amplamente usado na prática psicológica e organizacional aplicada e concorda fortemente com outras exibições práticas de tamanho de efeito (por exemplo, que selecionar de cima para baixo um grupo usando uma medida com uma correlação de validade de r = 0,25 levará a 0,25 SD aumenta o desempenho do resultado entre o grupo selecionado versus um grupo não selecionado).
A variação contabilizada pelas estatísticas conduz consistentemente a mal-entendidos e subestima o tamanho das relações de variáveis, porque a operação quadrática é não-linear. Muitos metodologistas aplicados (por exemplo, https://us.sagepub.com/en-us/nam/methods-of-meta-analysis/book240589 ) desencorajam fortemente seu uso em favor de suas raízes quadradas (que transmitem com mais precisão o tamanho de efeitos).
fonte