O trecho a seguir é da entrada: Quais são as diferenças entre os testes unicaudais e bicaudais? , no site de ajuda das estatísticas da UCLA.
... considere as consequências de perder um efeito na outra direção. Imagine que você desenvolveu um novo medicamento que acredita ser uma melhoria em relação a um medicamento existente. Você deseja maximizar sua capacidade de detectar a melhoria e optar por um teste unilateral. Ao fazer isso, você falha ao testar a possibilidade de que o novo medicamento seja menos eficaz que o medicamento existente.
Depois de aprender o básico absoluto do teste de hipóteses e chegar à parte de um vs dois testes de cauda ... Eu entendo a matemática básica e maior capacidade de detecção de testes de uma cauda, etc ... Mas eu simplesmente não consigo entender em torno de uma coisa ... Qual é o objetivo? Estou realmente falhando em entender por que você deve dividir seu alfa entre os dois extremos, quando o resultado da amostra pode estar apenas em um ou no outro, ou em nenhum dos dois.
Veja o cenário de exemplo do texto citado acima. Como você poderia "deixar de testar" um resultado na direção oposta? Você tem sua amostra média. Você tem sua população média. A aritmética simples informa qual é o maior. O que há para testar, ou deixar de testar, na direção oposta? O que está impedindo você de começar do zero com a hipótese oposta se você vê claramente que a média da amostra está muito diferente na outra direção?
Outra citação da mesma página:
A escolha de um teste de uma cauda após a execução de um teste de duas caudas que falhou em rejeitar a hipótese nula não é apropriada, não importa o quão "próximo" de significativo seja o teste de duas caudas.
Suponho que isso também se aplique à alteração da polaridade do seu teste de uma cauda. Mas como esse resultado "adulterado" é menos válido do que se você tivesse simplesmente escolhido o teste unilateral correto em primeiro lugar?
Claramente, estou perdendo uma grande parte da imagem aqui. Tudo parece arbitrário demais. Acho que é no sentido em que o que denota "estatisticamente significativo" - 95%, 99%, 99,9% ... É arbitrário para começar.
fonte
Respostas:
Pense nos dados como a ponta do iceberg - tudo o que você pode ver acima da água é a ponta do iceberg, mas, na realidade, você está interessado em aprender algo sobre todo o iceberg.
Estatísticos, cientistas de dados e outros que trabalham com dados são cuidadosos para não deixar o que vêem acima da linha d'água influenciar e influenciar sua avaliação do que está oculto abaixo da linha d'água. Por esse motivo, em uma situação de teste de hipóteses, eles tendem a formular suas hipóteses nulas e alternativas antes de ver a ponta do iceberg, com base em suas expectativas (ou na falta dela) do que poderia acontecer se pudessem visualizar o iceberg em sua totalidade. .
Analisar os dados para formular suas hipóteses é uma prática ruim e deve ser evitada - é como colocar a carroça diante do cavalo. Lembre-se de que os dados provêm de uma única amostra selecionada (com sorte usando um mecanismo de seleção aleatória) da população-alvo / universo de interesse. A amostra possui suas próprias idiossincrasias, que podem ou não refletir a população subjacente. Por que você deseja que suas hipóteses reflitam uma fatia estreita da população em vez de toda a população?
Outra maneira de pensar sobre isso é que, toda vez que você seleciona uma amostra da população-alvo (usando um mecanismo de seleção aleatória), a amostra gera dados diferentes. Se você usar os dados (o que não deveria !!!) para orientar sua especificação das hipóteses nulas e alternativas, suas hipóteses estarão em todo o mapa, essencialmente orientadas pelos recursos idiossincráticos de cada amostra. É claro que, na prática, apenas desenhamos uma amostra, mas seria um pensamento muito inquietante saber que se alguém realizasse o mesmo estudo com uma amostra diferente do mesmo tamanho, teria que mudar suas hipóteses para refletir as realidades de sua amostra.
Um dos professores da minha escola de pós-graduação costumava ter um ditado muito sábio: "Não nos importamos com a amostra, exceto que ela nos diz algo sobre a população" . Queremos formular nossas hipóteses para aprender algo sobre a população-alvo, e não sobre a amostra que selecionamos nessa população.
fonte
Acho que, ao considerar sua pergunta, ajuda se você tentar manter em mente os objetivos / pontos de venda do teste de significância de hipótese nula (NHST); é apenas um paradigma (embora muito popular) para inferência estatística, e os outros também têm suas próprias forças (por exemplo, veja aqui uma discussão sobre o NHST em relação à inferência bayesiana). Qual é a grande vantagem do NHST ?: Controle de erro de longo prazo . Se você seguir as regras do NHST (e às vezes isso é muito grande), deve ter uma boa noção da probabilidade de estar errado com as inferências feitas a longo prazo.
Uma das regras persnickety do NHST é que, sem mais alterações no seu procedimento de teste, você só pode dar uma olhada no seu teste de interesse. Na prática, os pesquisadores geralmente ignoram (ou desconhecem) essa regra (consulte Simmons et al., 2012), realizando vários testes após adicionar ondas de dados, verificando suasp -valores após adicionar / remover variáveis em seus modelos, etc. O problema é que os pesquisadores raramente são neutros em relação ao resultado do NHST; eles estão profundamente conscientes de que resultados significativos têm mais probabilidade de serem publicados do que resultados não significativos (por razões que são equivocadas e legítimas; Rosenthal, 1979). Portanto, os pesquisadores geralmente são motivados a adicionar dados / alterar modelos / selecionar discrepantes e testar repetidamente até "descobrir" um efeito significativo (ver John et al., 2011, uma boa introdução).
Um problema contra-intuitivo é criado pelas práticas acima, descritas bem em Dienes (2008): se os pesquisadores continuarem ajustando sua amostra / design / modelos até que a significância seja alcançada, então as taxas de erro desejadas a longo prazo de resultados falso-positivos (geralmente ) e descobertas falso-negativas (geralmente ) 1,0 e 0,0, respectivamente (ou seja, você sempre rejeitará , tanto quando é falso quanto verdadeiro).β = 0,20 H 0α=.05 β=.20 H0
No contexto de suas perguntas específicas, os pesquisadores usam testes bicaudais como padrão quando não desejam fazer previsões específicas com relação à direção do efeito. Se eles estiverem errados em suas suposições e executar um teste unilateral na direção do efeito, o longo prazo será inflado. Se eles analisarem estatísticas descritivas e executarem um teste unilateral com base em seus olhos na tendência, seu longo prazo será inflado. Você pode pensar que esse não é um problema enorme, na prática, de que os valores perdem seu significado a longo prazo, mas se eles não mantêm seu significado, isso sugere a questão de por que você está usando uma abordagem de inferência que prioriza o controle de erros de longo prazo.α pα α p
Por fim (e por uma questão de preferência pessoal), eu teria menos problemas se você realizasse um teste bicaudal pela primeira vez, considerasse não significativo e depois fizesse o teste unilateral na direção que o primeiro teste implicava, e considerou significativo se (e somente se) você executou uma replicação confirmatória estrita desse efeito em outra amostra e publicou a replicação no mesmo artigo. A análise exploratória de dados - com práticas flexíveis de análise de inflação de taxa de erro - é boa, desde que você seja capaz de replicar seu efeito em uma nova amostra sem a mesma flexibilidade analítica.
Referências
Dienes, Z. (2008). Compreendendo a psicologia como ciência: uma introdução à inferência científica e estatística . Palgrave Macmillan.
John, LK, Loewenstein, G. e Prelec, D. (2012). Medir a prevalência de práticas de pesquisa questionáveis com incentivos para dizer a verdade. Ciência psicológica , 23 (5), 524-532.
Rosenthal, R. (1979). O problema da gaveta de arquivos e a tolerância para resultados nulos. Boletim psicológico , 86 (3), 638.
Simmons, JP, Nelson, LD, e Simonsohn, U. (2011). Psicologia falso-positiva: A flexibilidade não revelada na coleta e análise de dados permite apresentar algo tão significativo. Ciência psicológica , 22 (11), 1359-1366.
fonte
Infelizmente, o exemplo motivador do desenvolvimento de medicamentos não é bom, pois não é o que fazemos para desenvolver medicamentos. Usamos regras diferentes e mais rigorosas para interromper o estudo se as tendências estiverem do lado do mal. Isso é para a segurança dos pacientes e também porque é improvável que o medicamento balance magicamente na direção de um benefício significativo.
Então, por que os testes com duas caudas ? (quando, na maioria dos casos, temos uma noção a priori da possível direção do efeito que estamos tentando modelar)
A hipótese nula deve ter alguma semelhança com a crença no sentido de ser plausível, informado e justificado. Na maioria dos casos, as pessoas concordam que um "resultado desinteressante" ocorre quando o efeito é zero, enquanto um efeito negativo ou positivo é de igual interesse. É muito difícil articular uma hipótese nula composta, por exemplo, o caso em que sabemos que a estatística pode ser igual oumenos do que uma certa quantidade. É preciso ser muito explícito sobre uma hipótese nula para entender suas descobertas científicas. Vale ressaltar que a maneira pela qual se realiza um teste de hipótese composto é que a estatística sob a hipótese nula assume o valor mais consistente dentro do intervalo dos dados observados. Portanto, se o efeito estiver na direção positiva conforme o esperado, o valor nulo será considerado 0 de qualquer maneira, e debatemos desnecessariamente.
Um teste bicaudal equivale a realizar dois testes unilaterais com controle para múltiplas comparações! Na verdade, o teste bicaudal é parcialmente avaliado porque acaba sendo mais conservador a longo prazo. Quando temos uma boa crença sobre a direção do efeito, os testes com duas caudas produzirão falsos positivos com metade da freqüência, com muito pouco efeito geral no poder.
No caso de avaliar um tratamento em um ensaio clínico randomizado, se você tentasse me vender um teste unilateral, eu o interromperia para perguntar: "Bem, espere, por que acreditaríamos que o tratamento é realmente prejudicial? para apoiar isso? Existe mesmo equipamento [capacidade de demonstrar um efeito benéfico]? " A inconsistência lógica por trás do teste unilateral questiona toda a pesquisa. Se realmente nada for conhecido, qualquer valor diferente de 0 é considerado interessante e o teste bicaudal não é apenas uma boa ideia, é necessário.
fonte
Uma maneira de abordar isso é esquecer temporariamente o teste de hipóteses e, em vez disso, pensar em intervalos de confiança. Os testes de um lado correspondem a intervalos de confiança de um lado e os testes de dois lados correspondem a intervalos de confiança de dois lados.
Suponha que você queira estimar a média de uma população. Naturalmente, você pega uma amostra e calcula a média da amostra. Não há razão para fazer uma estimativa pontual pelo valor de face; portanto, você expressa sua resposta em termos de um intervalo em que está razoavelmente confiante e que contém a verdadeira média. Que tipo de intervalo você escolhe? Um intervalo de dois lados é de longe a escolha mais natural. Um intervalo unilateral só faz sentido quando você simplesmente não se importa em encontrar um limite superior ou um limite inferior de sua estimativa (porque acredita que já conhece um limite útil em uma direção). Quantas vezes você realmente tem tanta certeza sobre a situação?
Talvez mudar a pergunta para intervalos de confiança não seja exatamente o melhor, mas é metodologicamente inconsistente preferir testes de uma cauda, mas intervalos de confiança de dois lados.
fonte
O problema é que você não sabe a média da população. Nunca encontrei um cenário do mundo real que conheça a verdadeira média da população.
Eu li o seu parágrafo várias vezes, mas ainda não tenho certeza sobre seus argumentos. Deseja reformular? Você falha ao "testar" se seus dados não o direcionam para as regiões críticas escolhidas.
A cotação está correta porque invadir um valor-p é inadequado. Quanto sabemos sobre o p-hacking "in the wild"? tem mais detalhes.
É arbitrário. É por isso que os cientistas de dados geralmente relatam a magnitude do valor de p (não apenas significativo ou insignificante), e também o tamanho dos efeitos.
fonte
Bem, toda diferença depende da pergunta que você deseja responder. Se a pergunta for: "Um grupo de valores é maior que o outro?" você pode usar um teste de uma cauda. Para responder à pergunta: "Esses grupos de valores são diferentes?" você usa o teste bicaudal. Leve em consideração que um conjunto de dados pode ser estatisticamente maior que outro, mas não estatisticamente diferente ... e isso é estatística.
fonte
O valor alfa é a probabilidade de você rejeitar o nulo, considerando que o nulo é verdadeiro. Suponha que seu nulo seja que a média da amostra seja normalmente distribuída com média zero. Se P (média da amostra> 1 | H0) = 0,05, a regra "Coletar uma amostra e rejeitar o nulo se a média da amostra for maior que 1" tem uma probabilidade, considerando que o nulo é verdadeiro, de 5% de rejeitando o nulo. A regra "Coletar uma amostra e, se a média da amostra for positiva, rejeite o nulo se a média da amostra for maior que 1 e se a média da amostra for negativa, rejeite o nulo se a média da amostra for menor que 1" possui um probabilidade, dado que o nulo é verdadeiro, de 10% de rejeitar o nulo. Portanto, a primeira regra possui um alfa de 5% e a segunda regra possui um alfa de 10%. Se você começar com um teste bicaudal, e altere-o para um teste unicaudal com base nos dados, seguindo a segunda regra, para que seja impreciso informar seu alfa como 5%. O valor alfa depende não apenas de quais são os dados, mas de quais regras você está seguindo ao analisá-los. Se você está perguntando por que usar uma métrica que possui essa propriedade, em vez de algo que depende apenas dos dados, essa é uma pergunta mais complicada.
fonte
Em relação ao 2º ponto
temos que, se o nulo for verdadeiro, o primeiro teste de duas caudas rejeita falsamente com probabilidadeα , mas o unilateral também pode rejeitar no segundo estágio.
Aqui está uma pequena ilustração numérica:
fonte
Então, é claro, existe uma coisa chamada grau de liberdade dos pesquisadores . Você pode encontrar significado em qualquer tipo de dados, se você tiver dados suficientes e estiver livre para testá-los da maneira que desejar. É por isso que você deve decidir sobre o teste que realiza antes de analisar os dados. Tudo o resto leva a resultados de teste irreprodutíveis. Eu aconselho a ir ao youtube e olhar para Andrew Gelmans falar "Crimes sobre dados para saber mais sobre isso.
fonte
À primeira vista, nenhuma dessas afirmações afirma que um teste de dois lados é 'superior' a um estudo de um lado. Simplesmente precisa haver uma conexão lógica entre a hipótese de pesquisa que está sendo testada e a inferência estatística sendo testada.
Por exemplo:
Primeiro, este é um estudo sobre drogas. Portanto, estar incorreto na direção oposta tem significado social além da estrutura da estatística. Assim como muitos disseram que a saúde não é a melhor para fazer generalizações.
Na citação acima, parece ser sobre o teste de um medicamento quando outro já existe. Então, para mim, isso implica que seu medicamento é considerado já eficaz. A afirmação diz respeito à comparação de dois medicamentos eficazes a partir de então. Ao comparar essas distribuições, se você está negligenciando um lado da população para melhorar seus resultados comparativos? Não é apenas uma conclusão tendenciosa, mas a comparação não é mais válida para justificar: você está comparando maçãs com laranjas.
Da mesma forma, pode muito bem haver estimativas pontuais que, por uma questão de inferência estatística, não fizeram diferença na conclusão, mas são de grande importância social. Isso ocorre porque nossa amostra representa a vida das pessoas: algo que não pode "re-ocorrer" e é inestimável.
Como alternativa, a afirmação implica que o pesquisador tem um incentivo: "você deseja maximizar sua capacidade de detectar a melhoria ..." Essa noção não é trivial para o caso de ser isolado como um protocolo ruim.
Novamente aqui, isso implica que o pesquisador está 'trocando' seu teste: de um lado para outro. Isso nunca é apropriado. É imperativo ter um objetivo de pesquisa antes do teste. Sempre deixando de lado a conveniência de uma abordagem de dupla face - os pesquisadores convenientemente falham em entender com mais rigor o fenômeno.
Aqui está um artigo sobre esse mesmo tópico, na verdade, defendendo que testes bilaterais foram usados em excesso.
Ele culpa o uso excessivo de um teste de dois lados pela falta de:
Ele assume a posição e a posição que os pesquisadores:
https://www.sciencedirect.com/science/article/pii/S0148296312000550
fonte
Freqüentemente, um teste de significância é realizado para a hipótese nula contra uma hipótese alternativa . É quando a cauda unica ou bicaudal faz a diferença.
Para valores-p, isso (frente ou verso) não importa! O ponto é que você seleciona um critério que ocorre apenas uma fração do tempo em que a hipótese nula é verdadeira. São dois pequenos pedaços de ambas as caudas, ou um grande pedaço de uma cauda, ou qualquer outra coisa.α
A taxa de erro do tipo I não é diferente para testes de um ou dois lados.
Por outro lado, pelo poder que importa .
Se sua hipótese alternativa for assimétrica, você desejaria focar o critério para rejeitar a hipótese nula somente nesta cauda / fim; de modo que, quando a hipótese alternativa for verdadeira, é menos provável que você não rejeite ("aceite") a hipótese nula.
Se sua hipótese alternativa for simétrica (você não deseja colocar mais ou menos energia em um lado específico) e a deflexão / efeito em ambos os lados for igualmente esperada (ou apenas desconhecida / desinformada), será mais poderoso usar um teste frente e verso (você não está perdendo 50% de potência para a cauda que não está testando e onde cometerá muitos erros do tipo II).
A taxa de erro do tipo II é diferente para testes de um e dois lados e também depende da hipótese alternativa.
Está se tornando um pouco mais um conceito bayesiano agora quando começamos a envolver preconceitos sobre se esperamos ou não um efeito de um lado ou de ambos os lados, e quando queremos usar um teste (para ver se podemos falsificar um hipótese nula) para 'confirmar' ou tornar mais provável algo como um efeito.
fonte
Então, mais uma tentativa de resposta:
Eu acho que tomar uma ou duas caudas depende completamente da hipótese da Alternativa .
Considere o seguinte exemplo de média de teste em um teste t:
Agora, se você observar uma média amostral muito negativa ou uma média amostral muito positiva, é improvável que sua hipótese seja verdadeira.
Por outro lado, você estará disposto a aceitar sua hipótese se a média da amostra estiver próxima de negativa ou positiva . Agora você precisa escolher o intervalo em que, se sua média amostral cair, você não rejeitará sua hipótese nula. Obviamente, você escolheria um intervalo com lados negativo e positivo em torno de . Então você escolhe o teste bilateral.0 00
Mas e se você não quiser testar , mas . Agora, intuitivamente, o que queremos fazer aqui é que, se o valor da média da amostra for muito negativo, podemos definitivamente rejeitar nosso nulo. Portanto, gostaríamos de rejeitar nulo apenas para valores muito negativos da média da amostra.μ=0 μ≥0
Mas espere! Se essa é minha hipótese nula, como eu definiria minha distribuição nula. A distribuição nula da média da amostra é conhecida por algum valor assumido do parâmetro populacional (aqui ). Porém, sob nulo atual, pode levar muitos valores.0
Digamos que podemos fazer hipóteses nulas infinitas. Cada um por assumir um valor positivo de . Mas pense no seguinte: em nossa primeira hipótese de , se rejeitarmos nulo apenas por observar uma média negativa muito distante da amostra, então todas as próximas hipóteses com também a rejeitarão. Porque, para eles, a média da amostra é ainda mais distante do parâmetro populacional. Então, basicamente, tudo o que precisamos fazer é apenas fazer uma hipótese, mas unicaudal .μ H0:μ=0 H0:μ>0
Portanto, sua solução se torna:
O melhor exemplo é o teste de Dickey-Fuller para estacionariedade.
Espero que isto ajude. (Queria incluir diagramas, mas respondendo pelo celular).
fonte