Testes bicaudais ... só não estou convencido. Qual é o objetivo?

58

O trecho a seguir é da entrada: Quais são as diferenças entre os testes unicaudais e bicaudais? , no site de ajuda das estatísticas da UCLA.

... considere as consequências de perder um efeito na outra direção. Imagine que você desenvolveu um novo medicamento que acredita ser uma melhoria em relação a um medicamento existente. Você deseja maximizar sua capacidade de detectar a melhoria e optar por um teste unilateral. Ao fazer isso, você falha ao testar a possibilidade de que o novo medicamento seja menos eficaz que o medicamento existente.

Depois de aprender o básico absoluto do teste de hipóteses e chegar à parte de um vs dois testes de cauda ... Eu entendo a matemática básica e maior capacidade de detecção de testes de uma cauda, etc ... Mas eu simplesmente não consigo entender em torno de uma coisa ... Qual é o objetivo? Estou realmente falhando em entender por que você deve dividir seu alfa entre os dois extremos, quando o resultado da amostra pode estar apenas em um ou no outro, ou em nenhum dos dois.

Veja o cenário de exemplo do texto citado acima. Como você poderia "deixar de testar" um resultado na direção oposta? Você tem sua amostra média. Você tem sua população média. A aritmética simples informa qual é o maior. O que há para testar, ou deixar de testar, na direção oposta? O que está impedindo você de começar do zero com a hipótese oposta se você vê claramente que a média da amostra está muito diferente na outra direção?

Outra citação da mesma página:

A escolha de um teste de uma cauda após a execução de um teste de duas caudas que falhou em rejeitar a hipótese nula não é apropriada, não importa o quão "próximo" de significativo seja o teste de duas caudas.

Suponho que isso também se aplique à alteração da polaridade do seu teste de uma cauda. Mas como esse resultado "adulterado" é menos válido do que se você tivesse simplesmente escolhido o teste unilateral correto em primeiro lugar?

Claramente, estou perdendo uma grande parte da imagem aqui. Tudo parece arbitrário demais. Acho que é no sentido em que o que denota "estatisticamente significativo" - 95%, 99%, 99,9% ... É arbitrário para começar.

hypothesis-testing statistical-significance inference Vindo das cinzas
fonte

18

Parece-me uma pergunta perfeitamente boa, +1.

gung - Restabelece Monica

5

Embora esteja absolutamente claro que você deve projetar seu experimento e seus testes antes de coletar dados, acho o exemplo deles sobre medicamentos bastante intrigante, dado o fato de que novos medicamentos geralmente são testados com um teste unilateral sem muita gritaria .

P-Gn

3

@ user1735003 um artigo irônico a ser considerado, considerando que muitos ensaios farmacêuticos reguladores de humor / comportamento estão sob crescente escrutínio quanto ao viés de observação. Um Cochrane interessante sobre Ritalin aqui . A "superioridade alegada do placebo" é o que qualquer experimentador chamaria de "dano", por isso não acho inconcebível. Mas nesses estudos, se os estudos param por danos, o sinal é de eventos adversos.

AdamO 23/05

10

"Você tem a média da sua amostra. Você tem a média da sua população ... O que está impedindo você de começar do zero com a hipótese oposta, se você ver claramente que a média da amostra está muito diferente na outra direção?" . Não, o ponto principal do teste de hipóteses é que você não possui a média da população e está usando a média da amostra para testar uma suposição sobre a média da população (a hipótese nula). Portanto, não há "ver claramente que a média da amostra está muito distante" , porque é exatamente isso que você está testando, e não um dado.

StAtS 23/05

11

o problema é que muitas vezes você não conhece a polaridade, então precisa executar o teste bicaudal. imagine ligar voltímetro na fonte de alimentação DC, quando você não sabe qual plug é positivo

Aksakal

45

Pense nos dados como a ponta do iceberg - tudo o que você pode ver acima da água é a ponta do iceberg, mas, na realidade, você está interessado em aprender algo sobre todo o iceberg.

Estatísticos, cientistas de dados e outros que trabalham com dados são cuidadosos para não deixar o que vêem acima da linha d'água influenciar e influenciar sua avaliação do que está oculto abaixo da linha d'água. Por esse motivo, em uma situação de teste de hipóteses, eles tendem a formular suas hipóteses nulas e alternativas antes de ver a ponta do iceberg, com base em suas expectativas (ou na falta dela) do que poderia acontecer se pudessem visualizar o iceberg em sua totalidade. .

Analisar os dados para formular suas hipóteses é uma prática ruim e deve ser evitada - é como colocar a carroça diante do cavalo. Lembre-se de que os dados provêm de uma única amostra selecionada (com sorte usando um mecanismo de seleção aleatória) da população-alvo / universo de interesse. A amostra possui suas próprias idiossincrasias, que podem ou não refletir a população subjacente. Por que você deseja que suas hipóteses reflitam uma fatia estreita da população em vez de toda a população?

Outra maneira de pensar sobre isso é que, toda vez que você seleciona uma amostra da população-alvo (usando um mecanismo de seleção aleatória), a amostra gera dados diferentes. Se você usar os dados (o que não deveria !!!) para orientar sua especificação das hipóteses nulas e alternativas, suas hipóteses estarão em todo o mapa, essencialmente orientadas pelos recursos idiossincráticos de cada amostra. É claro que, na prática, apenas desenhamos uma amostra, mas seria um pensamento muito inquietante saber que se alguém realizasse o mesmo estudo com uma amostra diferente do mesmo tamanho, teria que mudar suas hipóteses para refletir as realidades de sua amostra.

Um dos professores da minha escola de pós-graduação costumava ter um ditado muito sábio: "Não nos importamos com a amostra, exceto que ela nos diz algo sobre a população" . Queremos formular nossas hipóteses para aprender algo sobre a população-alvo, e não sobre a amostra que selecionamos nessa população.

Isabella Ghement
fonte

11

@ subhashc.davar: Só porque você não vê a relevância da minha resposta, isso não significa que alguém não verá. Esteja ciente de que as respostas são para toda a comunidade e não apenas para a pessoa que fez a pergunta. Ficaria feliz em excluir minha resposta, se você se sentir fortemente sobre isso.

Isabella Ghement

7

@ subhashc.davar Um exemplo pode ajudar: Diga que você testa se um lanche afeta o desempenho. Você executa o experimento e encontra um ligeiro ganho de pontuação nos lanches. Ótimo! Execute um teste unilateral para verificar se lanches> não lanches. Problema: o que você teria feito se desenhasse uma amostra em que as lanchonetes tiveram um desempenho pior? Você teria feito um teste unilateral para lanches <não lanches? Nesse caso, você está cometendo um erro e permitindo que as idiossincrasias da amostra guiem seus testes.

RM

21

Uma anedota do meu professor: "Visitamos a filha recém-nascida de uma amiga em uma maternidade. 20 crianças e 18 das 20 usavam chapéus cor-de-rosa. Então, fiz o que qualquer estatístico faria: calculava um valor-p para o sexo de fato sendo 50 / 50. Foi muito estatisticamente significativo. Então, quem quer escrever este artigo comigo? Ninguém? Por quê? Você não pode usar dados que geraram uma hipótese para testá-la. "

AdamO 23/05

4

@AdamO Achei o seu comentário uma explicação melhor do que a resposta em si. Eu reformularia a última frase como "Você não deve usar os mesmos dados com os quais gerou sua hipótese para também testar sua hipótese". Uma implicação relacionada é que é bom mudar sua hipótese com base no resultado de qualquer teste que você escolheu anteriormente. Mas você deve testar sua nova hipótese com novos dados.

Kenny Evitt

3

@KennyEvitt sim exatamente certo. Achados incidentais são importantes e devem ser relatados, mas não devem ser vendidos como hipóteses pré-especificadas.

AdamO

18

Acho que, ao considerar sua pergunta, ajuda se você tentar manter em mente os objetivos / pontos de venda do teste de significância de hipótese nula (NHST); é apenas um paradigma (embora muito popular) para inferência estatística, e os outros também têm suas próprias forças (por exemplo, veja aqui uma discussão sobre o NHST em relação à inferência bayesiana). Qual é a grande vantagem do NHST ?: Controle de erro de longo prazo . Se você seguir as regras do NHST (e às vezes isso é muito grande), deve ter uma boa noção da probabilidade de estar errado com as inferências feitas a longo prazo.

Uma das regras persnickety do NHST é que, sem mais alterações no seu procedimento de teste, você só pode dar uma olhada no seu teste de interesse. Na prática, os pesquisadores geralmente ignoram (ou desconhecem) essa regra (consulte Simmons et al., 2012), realizando vários testes após adicionar ondas de dados, verificando suas $p$ -valores após adicionar / remover variáveis em seus modelos, etc. O problema é que os pesquisadores raramente são neutros em relação ao resultado do NHST; eles estão profundamente conscientes de que resultados significativos têm mais probabilidade de serem publicados do que resultados não significativos (por razões que são equivocadas e legítimas; Rosenthal, 1979). Portanto, os pesquisadores geralmente são motivados a adicionar dados / alterar modelos / selecionar discrepantes e testar repetidamente até "descobrir" um efeito significativo (ver John et al., 2011, uma boa introdução).

Um problema contra-intuitivo é criado pelas práticas acima, descritas bem em Dienes (2008): se os pesquisadores continuarem ajustando sua amostra / design / modelos até que a significância seja alcançada, então as taxas de erro desejadas a longo prazo de resultados falso-positivos (geralmente ) e descobertas falso-negativas (geralmente ) 1,0 e 0,0, respectivamente (ou seja, você sempre rejeitará , tanto quando é falso quanto verdadeiro). $\alpha =.05$ $\beta =.20$ $H_0$

No contexto de suas perguntas específicas, os pesquisadores usam testes bicaudais como padrão quando não desejam fazer previsões específicas com relação à direção do efeito. Se eles estiverem errados em suas suposições e executar um teste unilateral na direção do efeito, o longo prazo será inflado. Se eles analisarem estatísticas descritivas e executarem um teste unilateral com base em seus olhos na tendência, seu longo prazo será inflado. Você pode pensar que esse não é um problema enorme, na prática, de que os valores perdem seu significado a longo prazo, mas se eles não mantêm seu significado, isso sugere a questão de por que você está usando uma abordagem de inferência que prioriza o controle de erros de longo prazo. $\alpha$ $\alpha$ $p$

Por fim (e por uma questão de preferência pessoal), eu teria menos problemas se você realizasse um teste bicaudal pela primeira vez, considerasse não significativo e depois fizesse o teste unilateral na direção que o primeiro teste implicava, e considerou significativo se (e somente se) você executou uma replicação confirmatória estrita desse efeito em outra amostra e publicou a replicação no mesmo artigo. A análise exploratória de dados - com práticas flexíveis de análise de inflação de taxa de erro - é boa, desde que você seja capaz de replicar seu efeito em uma nova amostra sem a mesma flexibilidade analítica.

Referências

Dienes, Z. (2008). Compreendendo a psicologia como ciência: uma introdução à inferência científica e estatística . Palgrave Macmillan.

John, LK, Loewenstein, G. e Prelec, D. (2012). Medir a prevalência de práticas de pesquisa questionáveis com incentivos para dizer a verdade. Ciência psicológica , 23 (5), 524-532.

Rosenthal, R. (1979). O problema da gaveta de arquivos e a tolerância para resultados nulos. Boletim psicológico , 86 (3), 638.

Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: A flexibilidade não revelada na coleta e análise de dados permite apresentar algo tão significativo. Ciência psicológica , 22 (11), 1359-1366.

jsakaluk
fonte

Resposta muito boa. Ajudou-me a reunir algumas preocupações que tive durante minha investigação recente em trabalhos de pesquisa (como leigo), aparentemente confirmando a idéia de que valores p unicaudais só podem ser "confiáveis" se você tiver motivos existentes para confiar nos "negativos" correlação "sendo a direção falsa.

Venryx

10

Infelizmente, o exemplo motivador do desenvolvimento de medicamentos não é bom, pois não é o que fazemos para desenvolver medicamentos. Usamos regras diferentes e mais rigorosas para interromper o estudo se as tendências estiverem do lado do mal. Isso é para a segurança dos pacientes e também porque é improvável que o medicamento balance magicamente na direção de um benefício significativo.

Então, por que os testes com duas caudas ? (quando, na maioria dos casos, temos uma noção a priori da possível direção do efeito que estamos tentando modelar)

A hipótese nula deve ter alguma semelhança com a crença no sentido de ser plausível, informado e justificado. Na maioria dos casos, as pessoas concordam que um "resultado desinteressante" ocorre quando o efeito é zero, enquanto um efeito negativo ou positivo é de igual interesse. É muito difícil articular uma hipótese nula composta, por exemplo, o caso em que sabemos que a estatística pode ser igual oumenos do que uma certa quantidade. É preciso ser muito explícito sobre uma hipótese nula para entender suas descobertas científicas. Vale ressaltar que a maneira pela qual se realiza um teste de hipótese composto é que a estatística sob a hipótese nula assume o valor mais consistente dentro do intervalo dos dados observados. Portanto, se o efeito estiver na direção positiva conforme o esperado, o valor nulo será considerado 0 de qualquer maneira, e debatemos desnecessariamente.

Um teste bicaudal equivale a realizar dois testes unilaterais com controle para múltiplas comparações! Na verdade, o teste bicaudal é parcialmente avaliado porque acaba sendo mais conservador a longo prazo. Quando temos uma boa crença sobre a direção do efeito, os testes com duas caudas produzirão falsos positivos com metade da freqüência, com muito pouco efeito geral no poder.

No caso de avaliar um tratamento em um ensaio clínico randomizado, se você tentasse me vender um teste unilateral, eu o interromperia para perguntar: "Bem, espere, por que acreditaríamos que o tratamento é realmente prejudicial? para apoiar isso? Existe mesmo equipamento [capacidade de demonstrar um efeito benéfico]? " A inconsistência lógica por trás do teste unilateral questiona toda a pesquisa. Se realmente nada for conhecido, qualquer valor diferente de 0 é considerado interessante e o teste bicaudal não é apenas uma boa ideia, é necessário.

AdamO
fonte

8

Uma maneira de abordar isso é esquecer temporariamente o teste de hipóteses e, em vez disso, pensar em intervalos de confiança. Os testes de um lado correspondem a intervalos de confiança de um lado e os testes de dois lados correspondem a intervalos de confiança de dois lados.

Suponha que você queira estimar a média de uma população. Naturalmente, você pega uma amostra e calcula a média da amostra. Não há razão para fazer uma estimativa pontual pelo valor de face; portanto, você expressa sua resposta em termos de um intervalo em que está razoavelmente confiante e que contém a verdadeira média. Que tipo de intervalo você escolhe? Um intervalo de dois lados é de longe a escolha mais natural. Um intervalo unilateral só faz sentido quando você simplesmente não se importa em encontrar um limite superior ou um limite inferior de sua estimativa (porque acredita que já conhece um limite útil em uma direção). Quantas vezes você realmente tem tanta certeza sobre a situação?

Talvez mudar a pergunta para intervalos de confiança não seja exatamente o melhor, mas é metodologicamente inconsistente preferir testes de uma cauda, mas intervalos de confiança de dois lados.

John Coleman
fonte

4

Depois de aprender o básico absoluto do teste de hipóteses e chegar à parte de um vs dois testes de cauda ... Eu entendo a matemática básica e maior capacidade de detecção de testes de uma cauda, etc ... Mas eu simplesmente não consigo entender em torno de uma coisa ... Qual é o objetivo? Estou realmente falhando em entender por que você deve dividir seu alfa entre os dois extremos, quando o resultado da amostra pode estar apenas em um ou no outro, ou em nenhum dos dois.

O problema é que você não sabe a média da população. Nunca encontrei um cenário do mundo real que conheça a verdadeira média da população.

Veja o cenário de exemplo do texto citado acima. Como você poderia "deixar de testar" um resultado na direção oposta? Você tem sua amostra média. Você tem sua população média. A aritmética simples informa qual é o maior. O que há para testar, ou deixar de testar, na direção oposta? O que está impedindo você de começar do zero com a hipótese oposta se você vê claramente que a média da amostra está muito diferente na outra direção?

Eu li o seu parágrafo várias vezes, mas ainda não tenho certeza sobre seus argumentos. Deseja reformular? Você falha ao "testar" se seus dados não o direcionam para as regiões críticas escolhidas.

Suponho que isso também se aplique à alteração da polaridade do seu teste de uma cauda. Mas como esse resultado "adulterado" é menos válido do que se você tivesse simplesmente escolhido o teste unilateral correto em primeiro lugar?

A cotação está correta porque invadir um valor-p é inadequado. Quanto sabemos sobre o p-hacking "in the wild"? tem mais detalhes.

Claramente, estou perdendo uma grande parte da imagem aqui. Tudo parece arbitrário demais. Acho que é no sentido em que o que denota "estatisticamente significativo" - 95%, 99%, 99,9% ... É arbitrário para começar. Socorro?

É arbitrário. É por isso que os cientistas de dados geralmente relatam a magnitude do valor de p (não apenas significativo ou insignificante), e também o tamanho dos efeitos.

SmallChess
fonte

Para ser claro, não estou tentando desafiar os próprios fundamentos da inferência estatística. Como afirmei, acabei de aprender o básico e estou tendo problemas para entender como quaisquer descobertas em potencial podem ser perdidas ao não usar o teste correto.

FromTheAshes

Digamos que seu amigo, Joe, invente um novo produto que ele afirma melhorar muito o crescimento das plantas. Intrigado, você cria um estudo robusto com um grupo de controle e um grupo de tratamento. Seu hip nulo. é que não haverá mudança no crescimento, sua alternativa hip. é que o spray mágico de Joe aumenta significativamente o crescimento - portanto, um teste unilateral. Duas semanas depois, você faz suas observações finais e analisa os resultados. O crescimento médio do grupo de tratamento é superior a 5 erros padrão ABAIXO dos controles. Como essa descoberta muito significativa é menos óbvia ou válida devido à sua escolha de teste?

FromTheAshes

2

Se eu pedir para você pagar cara ou coroa para um sorteio, a probabilidade de você prever o resultado é 50/50 (assumindo uma moeda equilibrada e um flipper honesto). No entanto, se eu jogar a moeda primeiro e permitir que você olhe para ela e faça sua previsão, ela não será mais 50/50. Se você estiver realizando um teste unilateral com nível alfa de 0,01, mas depois virar a direção do teste depois de ver os resultados, porque p <0,01 na outra direção, seu risco de um erro do tipo I não será maior .01 mas muito mais alto. Observe que o valor p observado e a taxa de erro do tipo I não são a mesma coisa.

Dbwilson 23/05

@FromTheAshes não há nada de errado em tentar desafiar as próprias fundações. O teste estatístico de hipóteses não é inútil, mas contém falhas lógicas maciças e é absolutamente razoável contestá-las!

Solha dos chifres

3

Bem, toda diferença depende da pergunta que você deseja responder. Se a pergunta for: "Um grupo de valores é maior que o outro?" você pode usar um teste de uma cauda. Para responder à pergunta: "Esses grupos de valores são diferentes?" você usa o teste bicaudal. Leve em consideração que um conjunto de dados pode ser estatisticamente maior que outro, mas não estatisticamente diferente ... e isso é estatística.

Ramon L. Zegpi
fonte

11

'Se a pergunta for: "Um grupo de valores é maior que o outro?" você pode usar um teste de uma cauda. Mais precisamente, se a pergunta for "Este grupo em particular é maior que os outros", você deve usar um teste bicaudal.

Acumulação 23/05/19

Deve-se notar que está meio implícito que, se você está fazendo essa pergunta: "E, a propósito, se parece que o outro grupo é realmente maior, então eu não me importo". Se você visse o oposto do que esperaria e depois mudasse a direção do teste de hipótese, estava mentindo para si mesmo o tempo todo e deveria ter feito um teste bicaudal para começar.

Dason

2

Mas como esse resultado "adulterado" é menos válido do que se você tivesse simplesmente escolhido o teste unilateral correto em primeiro lugar?

O valor alfa é a probabilidade de você rejeitar o nulo, considerando que o nulo é verdadeiro. Suponha que seu nulo seja que a média da amostra seja normalmente distribuída com média zero. Se P (média da amostra> 1 | H0) = 0,05, a regra "Coletar uma amostra e rejeitar o nulo se a média da amostra for maior que 1" tem uma probabilidade, considerando que o nulo é verdadeiro, de 5% de rejeitando o nulo. A regra "Coletar uma amostra e, se a média da amostra for positiva, rejeite o nulo se a média da amostra for maior que 1 e se a média da amostra for negativa, rejeite o nulo se a média da amostra for menor que 1" possui um probabilidade, dado que o nulo é verdadeiro, de 10% de rejeitar o nulo. Portanto, a primeira regra possui um alfa de 5% e a segunda regra possui um alfa de 10%. Se você começar com um teste bicaudal, e altere-o para um teste unicaudal com base nos dados, seguindo a segunda regra, para que seja impreciso informar seu alfa como 5%. O valor alfa depende não apenas de quais são os dados, mas de quais regras você está seguindo ao analisá-los. Se você está perguntando por que usar uma métrica que possui essa propriedade, em vez de algo que depende apenas dos dados, essa é uma pergunta mais complicada.

Acumulação
fonte

2

Em relação ao 2º ponto

A escolha de um teste de uma cauda após a execução de um teste de duas caudas que falhou em rejeitar a hipótese nula não é apropriada, não importa o quão "próximo" de significativo seja o teste de duas caudas.

temos que, se o nulo for verdadeiro, o primeiro teste de duas caudas rejeita falsamente com probabilidade $\alpha$ , mas o unilateral também pode rejeitar no segundo estágio.

$\alpha$ $\alpha\cdot 100\%$

P (two-sided rejects or one-sided does, but two sided doesn't)

$P(\text{two-sided rejects or one-sided does, but two sided doesn't})$

P (two-sided rejects \cup (one-sided does \cap two sided doesn't))

$P(\text{two-sided rejects} \cup \text{(one-sided does} \cap \text{two sided doesn't)})$

P (two-sided rejects) + P (one-sided does \cap two sided doesn't)

$P(\text{two-sided rejects}) +P(\text{one-sided does} \cap \text{two sided doesn't})$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

P (one-sided does \cap two sided doesn't) = α / 2

$P(\text{one-sided does} \cap \text{two sided doesn't})=\alpha/2$

α + \frac{α}{2} > α

$\alpha+\frac{\alpha}{2}>\alpha$

α / 2

$\alpha/2$

1 - α

$1-\alpha$

1 - α / 2

$1-\alpha/2$

1 - α / 2

$1-\alpha/2$

Aqui está uma pequena ilustração numérica:

n <- 100
alpha <- 0.05

two.sided <- function (x, alpha=0.05) (sqrt(n)*abs(mean(x)) > qnorm(1-alpha/2)) # returns one if two-sided test rejects, 0 else
one.sided <- function (x, alpha=0.05) (sqrt(n)*mean(x) > qnorm(1-alpha))        # returns one if one-sided test rejects, 0 else

reps <- 1e8

two.step <- rep(NA,reps)
for (i in 1:reps){
  x <- rnorm(n) # generate data from a N(0,1) distribution, so that the test statistic sqrt(n)*mean(x) is also N(0,1) under H_0: mu=0
  two.step[i] <- ifelse(two.sided(x)==0, one.sided(x), 1) # first conducts two-sided test, then one-sided if two-sided fails to reject
}
> mean(two.step)
[1] 0.07505351

Christoph Hanck
fonte

1

$p < \alpha = 0.05$

$\alpha$ $0.05$ $\alpha$

$\alpha=0.05$ $\alpha=0.025$

$\alpha=0.05$

Então, é claro, existe uma coisa chamada grau de liberdade dos pesquisadores . Você pode encontrar significado em qualquer tipo de dados, se você tiver dados suficientes e estiver livre para testá-los da maneira que desejar. É por isso que você deve decidir sobre o teste que realiza antes de analisar os dados. Tudo o resto leva a resultados de teste irreprodutíveis. Eu aconselho a ir ao youtube e olhar para Andrew Gelmans falar "Crimes sobre dados para saber mais sobre isso.

Bernhard
fonte

11

Hmm, a hipótese nula não é que os resultados sejam aleatórios. Isso seria confuso para clínicos e cientistas que veem muito os resultados de seu trabalho como um resultado fixo.

AdamO 23/05

11

Seu ponto "Depois de começar a fazer testes unilaterais com ..." é importante. A razão de é tão comum é que a experiência prática de RA Fisher em Rothamsted foi que mais de desvios-padrão do valor esperado geralmente mereciam mais investigações e, a partir disso, ele escolheu um teste bicaudal de como sua regra de ouro. , Não o contrário. Assim, o equivalente unilateral seria

α = 0.05

$α=0.05$

0.05

$0.05$

2

$2$

5 %

$5\%$

2.5 %

$2.5\%$

Henry

1

À primeira vista, nenhuma dessas afirmações afirma que um teste de dois lados é 'superior' a um estudo de um lado. Simplesmente precisa haver uma conexão lógica entre a hipótese de pesquisa que está sendo testada e a inferência estatística sendo testada.

Por exemplo:

... considere as consequências de perder um efeito na outra direção. Imagine que você desenvolveu um novo medicamento que acredita ser uma melhoria em relação a um medicamento existente. Você deseja maximizar a capacidade de detectar a melhoria e optar por um teste unilateral. Ao fazer isso, você falha ao testar a possibilidade de que o novo medicamento seja menos eficaz que o medicamento existente.

Primeiro, este é um estudo sobre drogas. Portanto, estar incorreto na direção oposta tem significado social além da estrutura da estatística. Assim como muitos disseram que a saúde não é a melhor para fazer generalizações.

Na citação acima, parece ser sobre o teste de um medicamento quando outro já existe. Então, para mim, isso implica que seu medicamento é considerado já eficaz. A afirmação diz respeito à comparação de dois medicamentos eficazes a partir de então. Ao comparar essas distribuições, se você está negligenciando um lado da população para melhorar seus resultados comparativos? Não é apenas uma conclusão tendenciosa, mas a comparação não é mais válida para justificar: você está comparando maçãs com laranjas.

Da mesma forma, pode muito bem haver estimativas pontuais que, por uma questão de inferência estatística, não fizeram diferença na conclusão, mas são de grande importância social. Isso ocorre porque nossa amostra representa a vida das pessoas: algo que não pode "re-ocorrer" e é inestimável.

Como alternativa, a afirmação implica que o pesquisador tem um incentivo: "você deseja maximizar sua capacidade de detectar a melhoria ..." Essa noção não é trivial para o caso de ser isolado como um protocolo ruim.

A escolha de um teste de uma cauda após a execução de um teste de duas caudas que falhou em rejeitar a hipótese nula não é apropriada, não importa o quão "próximo" de significativo seja o teste de duas caudas.

Novamente aqui, isso implica que o pesquisador está 'trocando' seu teste: de um lado para outro. Isso nunca é apropriado. É imperativo ter um objetivo de pesquisa antes do teste. Sempre deixando de lado a conveniência de uma abordagem de dupla face - os pesquisadores convenientemente falham em entender com mais rigor o fenômeno.

Aqui está um artigo sobre esse mesmo tópico, na verdade, defendendo que testes bilaterais foram usados em excesso.

Ele culpa o uso excessivo de um teste de dois lados pela falta de:

distinção clara e uma ligação lógica entre a hipótese de pesquisa e sua hipótese estatística

Ele assume a posição e a posição que os pesquisadores:

pode não estar ciente da diferença entre os dois modos expressivos ou ciente do fluxo lógico no qual a hipótese da pesquisa deve ser traduzida na hipótese estatística. Uma mistura orientada por conveniência da pesquisa e hipóteses estatísticas pode ser uma causa do uso excessivo de testes bicaudais, mesmo em situações em que o uso de testes bicaudais é inadequado.

o que é necessário é entender as estatísticas exatas na interpretação dos resultados dos testes estatísticos. Ser inexato sob o nome de ser conservador não é recomendável. Nesse sentido, os autores pensam que apenas o relato de resultados de testes como “Verificou-se ser estatisticamente significativo no nível de significância 0,05 (isto é, p <0,05).” Não é bom o suficiente.

Embora o teste bicaudal seja mais conservador em teoria, dissocia a ligação entre a hipótese da pesquisa direcional e sua hipótese estatística, possivelmente levando a valores de p duplamente inflados.

Os autores também mostraram que o argumento para encontrar o resultado significativo na direção oposta tem significado apenas no contexto da descoberta e não no contexto da
justificação . No caso de testar a hipótese da pesquisa e sua teoria subjacente, os pesquisadores não devem abordar simultaneamente o contexto da descoberta e o da justificação.

https://www.sciencedirect.com/science/article/pii/S0148296312000550

Aisync
fonte

1

Freqüentemente, um teste de significância é realizado para a hipótese nula contra uma hipótese alternativa . É quando a cauda unica ou bicaudal faz a diferença.

Para valores-p, isso (frente ou verso) não importa! O ponto é que você seleciona um critério que ocorre apenas uma fração do tempo em que a hipótese nula é verdadeira. São dois pequenos pedaços de ambas as caudas, ou um grande pedaço de uma cauda, ou qualquer outra coisa. $\alpha$

A taxa de erro do tipo I não é diferente para testes de um ou dois lados.
Por outro lado, pelo poder que importa .

Se sua hipótese alternativa for assimétrica, você desejaria focar o critério para rejeitar a hipótese nula somente nesta cauda / fim; de modo que, quando a hipótese alternativa for verdadeira, é menos provável que você não rejeite ("aceite") a hipótese nula.

Se sua hipótese alternativa for simétrica (você não deseja colocar mais ou menos energia em um lado específico) e a deflexão / efeito em ambos os lados for igualmente esperada (ou apenas desconhecida / desinformada), será mais poderoso usar um teste frente e verso (você não está perdendo 50% de potência para a cauda que não está testando e onde cometerá muitos erros do tipo II).

A taxa de erro do tipo II é diferente para testes de um e dois lados e também depende da hipótese alternativa.

Está se tornando um pouco mais um conceito bayesiano agora quando começamos a envolver preconceitos sobre se esperamos ou não um efeito de um lado ou de ambos os lados, e quando queremos usar um teste (para ver se podemos falsificar um hipótese nula) para 'confirmar' ou tornar mais provável algo como um efeito.

Sextus Empiricus
fonte

0

Então, mais uma tentativa de resposta:

Eu acho que tomar uma ou duas caudas depende completamente da hipótese da Alternativa .

Considere o seguinte exemplo de média de teste em um teste t:

$H_0: \mu=0$

$H_a: \mu \neq 0$

Agora, se você observar uma média amostral muito negativa ou uma média amostral muito positiva, é improvável que sua hipótese seja verdadeira.

Por outro lado, você estará disposto a aceitar sua hipótese se a média da amostra estiver próxima de negativa ou positiva . Agora você precisa escolher o intervalo em que, se sua média amostral cair, você não rejeitará sua hipótese nula. Obviamente, você escolheria um intervalo com lados negativo e positivo em torno de . Então você escolhe o teste bilateral. $0$ $0$

Mas e se você não quiser testar , mas . Agora, intuitivamente, o que queremos fazer aqui é que, se o valor da média da amostra for muito negativo, podemos definitivamente rejeitar nosso nulo. Portanto, gostaríamos de rejeitar nulo apenas para valores muito negativos da média da amostra. $\mu=0$ $\mu\geq 0$

Mas espere! Se essa é minha hipótese nula, como eu definiria minha distribuição nula. A distribuição nula da média da amostra é conhecida por algum valor assumido do parâmetro populacional (aqui ). Porém, sob nulo atual, pode levar muitos valores. $0$

Digamos que podemos fazer hipóteses nulas infinitas. Cada um por assumir um valor positivo de . Mas pense no seguinte: em nossa primeira hipótese de , se rejeitarmos nulo apenas por observar uma média negativa muito distante da amostra, então todas as próximas hipóteses com também a rejeitarão. Porque, para eles, a média da amostra é ainda mais distante do parâmetro populacional. Então, basicamente, tudo o que precisamos fazer é apenas fazer uma hipótese, mas unicaudal . $\mu$ $H_0: \mu=0$ $H_0: \mu>0$

Portanto, sua solução se torna:

$H_0: \mu=0$

$H_a: \mu <0$

O melhor exemplo é o teste de Dickey-Fuller para estacionariedade.

Espero que isto ajude. (Queria incluir diagramas, mas respondendo pelo celular).

Dayne
fonte

Testes bicaudais ... só não estou convencido. Qual é o objetivo?

Respostas: