O “híbrido” entre as abordagens de Fisher e Neyman-Pearson para o teste estatístico é realmente uma “confusão incoerente”?

56

Existe uma certa escola de pensamento segundo a qual a abordagem mais difundida dos testes estatísticos é um "híbrido" entre duas abordagens: a de Fisher e a de Neyman-Pearson; essas duas abordagens, afirma a alegação, são "incompatíveis" e, portanto, o "híbrido" resultante é uma "confusão incoerente". Fornecerei uma bibliografia e algumas citações abaixo, mas, por enquanto, basta dizer que há muito escrito sobre isso no artigo da wikipedia sobre Teste de hipótese estatística . Aqui no CV, esse ponto foi repetidamente apresentado por @Michael Lew (veja aqui e aqui ).

Minha pergunta é: por que as abordagens F e NP são consideradas incompatíveis e por que o híbrido é afirmado incoerente? Observe que li pelo menos seis artigos anti-híbridos (veja abaixo), mas ainda não entendi o problema ou o argumento. Note também que não estou sugerindo debater se F ou NP é uma abordagem melhor; nem estou me oferecendo para discutir estruturas freqüentistas x bayesianas. Em vez disso, a pergunta é: aceitando que F e NP são abordagens válidas e significativas, o que há de tão ruim em seu híbrido?

Aqui está como eu entendo a situação. A abordagem de Fisher é calcular o valor e tomá-lo como evidência contra a hipótese nula. Quanto menor , mais convincentes serão as evidências. O pesquisador deve combinar essa evidência com seu conhecimento prévio, decidir se é convincente o suficiente e proceder de acordo. (Observe que as opiniões de Fisher mudaram ao longo dos anos, mas é para isso que ele parece ter convergido.) Por outro lado, a abordagem de Neyman-Pearson é escolher antecipadamente e depois verificar se $p$ $p$ $\alpha$ $p\le\alpha$ ; se assim for, chame-o de significativo e rejeite a hipótese nula (aqui omito grande parte da história do PE que não tem relevância para a discussão atual). Veja também uma excelente resposta de @gung em Quando usar o framework Fisher e Neyman-Pearson?

A abordagem híbrida é calcular o valor , relatá-lo (assumindo implicitamente que quanto menor, melhor) e também chamar os resultados de significativos se (geralmente ) e, caso contrário, não significativo. Isso deveria ser incoerente. Como pode ser inválido fazer duas coisas válidas simultaneamente, me bate. $p$ $p\le\alpha$ $\alpha=0.05$

Como particularmente incoerente os anti-hybridists visualizar a prática difundida de relatórios -Valores como , , ou (ou mesmo ), onde sempre a desigualdade mais forte é escolhido. O argumento parece ser que (a) a força da evidência não pode ser avaliada adequadamente, pois exato não é relatado e (b) as pessoas tendem a interpretar o número do lado direito da desigualdade como e vê-lo como taxa de erro do tipo I e isso está errado. Não vejo um grande problema aqui. Primeiro, relatando exato $p$ $p<0.05$ $p<0.01$ $p<0.001$ $p\ll0.0001$ $p$ $\alpha$ $p$ é certamente uma melhor prática, mas ninguém realmente se importa se é, por exemplo ou , de modo arredondamento-lo em uma escala logarítmica não é tããão ruim (e indo abaixo não faz sentido qualquer maneira, consulte Como deve ser relatado pequenos valores de p ? ). Em segundo lugar, se o consenso é chamar tudo abaixo de significativa, em seguida, a taxa de erro será e , como @gung explica em Interpretação do valor p no teste da hipótese $p$ $0.02$ $0.03$ $\sim 0.0001$ $0.05$ $\alpha=0.05$ $p \ne \alpha$ . Embora esse seja um problema potencialmente confuso, não me parece mais confuso do que outros problemas nos testes estatísticos (fora do híbrido). Além disso, todo leitor pode ter seu próprio favorito em mente ao ler um artigo híbrido, e sua própria taxa de erro como conseqüência. Então, qual é o grande problema? $\alpha$

Uma das razões pelas quais quero fazer esta pergunta é porque literalmente dói ver quanto do artigo da Wikipedia sobre testes de hipótese estatística é dedicado ao híbrido de lambasting. Seguindo Halpin & Stam, alega que um certo Lindquist é o culpado (há até uma grande varredura de seu livro com "erros" destacados em amarelo) e, é claro, o artigo da wiki sobre o próprio Lindquist começa com a mesma acusação. Mas então, talvez esteja faltando alguma coisa.

Referências

Gigerenzer, 1993, O superego, o ego e o id no raciocínio estatístico - introduziram o termo "híbrido" e o chamaram de "confusão incoerente".
- Veja também exposições mais recentes de Gigerenzer et al .: eg Mindless statistics (2004) e The Null Ritual. O que você sempre quis saber sobre testes de significância, mas tinha medo de perguntar (2004).
Cohen, 1994, The Earth Is Round ( ) $p<.05$ - um artigo muito popular com quase 3 mil citações, principalmente sobre questões diferentes, mas citando favoravelmente Gigerenzer
Goodman, 1999, Para estatísticas médicas baseadas em evidências. 1: Falácia do valor P
Hubbard e Bayarri, 2003, Confusão sobre medidas de evidência ( 's) versus erros ( ' s) em testes estatísticos clássicos $p$ $\alpha$ - um dos trabalhos mais eloquentes que argumentam contra o "híbrido"
Halpin & Stam, 2006, Inferência Indutiva ou Comportamento Indutivo: Abordagens de Fisher e Neyman-Pearson ao Teste Estatístico em Pesquisa Psicológica (1940-1960) [livre após o registro] - culpa o livro de Lindquist em 1940 por introduzir a abordagem "híbrida"
@ Michael Lew, 2006, Má prática estatística em farmacologia (e outras disciplinas biomédicas básicas): você provavelmente não conhece P - uma boa revisão e visão geral

citações

Gigerenzer: O que se tornou institucionalizado como estatística inferencial em psicologia não é estatística dos pescadores. É uma mistura incoerente de algumas das idéias de Fisher, por um lado, e algumas das idéias de Neyman e ES Pearson, por outro. Refiro-me a essa mistura como a "lógica híbrida" da inferência estatística.

Goodman: A abordagem do teste de hipótese [Neyman-Pearson] ofereceu aos cientistas uma barganha faustiana - uma maneira aparentemente automática de limitar o número de conclusões equivocadas a longo prazo, mas apenas abandonando a capacidade de medir evidências [a la Fisher] e avaliar verdade de um único experimento.

Hubbard & Bayarri: O teste estatístico clássico é um híbrido anônimo das abordagens concorrentes e freqüentemente contraditórias [...]. Em particular, existe uma falha generalizada em apreciar a incompatibilidade do valor evidencial de Fisher com a taxa de erro do tipo I, , da ortodoxia estatística de Neyman-Pearson. [...] Como um excelente exemplo da perplexidade resultante dessa mistura, [...] considere o fato amplamente desvalorizado de que o valor do primeiro é incompatível $p$ $\alpha$ $p$ com o teste de hipótese de Neyman-Pearson no qual ele foi incorporado. [...] Por exemplo, Gibbons e Pratt declararam [...] erroneamente: "Relatar um valor P, exato ou dentro de um intervalo, permite que cada indivíduo escolha seu próprio nível de significância como a probabilidade máxima tolerável. de um erro do tipo I. "

Halpin & Stam: O texto de Lindquist em 1940 foi uma fonte original da hibridização das abordagens de Fisher e Neyman-Pearson. [...] ao invés de aderir a qualquer interpretação particular dos testes estatísticos, os psicólogos permaneceram ambivalentes sobre as dificuldades conceituais implicadas pela controvérsia de Fisher e Neyman-Pearson e, de fato, desconhecem as dificuldades conceituais.

Lew: O que temos é uma abordagem híbrida que não controla taxas de erro nem permite avaliar a força das evidências.

hypothesis-testing statistical-significance p-value type-i-and-ii-errors history ameba diz Restabelecer Monica
fonte

+1 para esta pergunta bem pesquisada (mesmo que longa). Penso que talvez continue a especificar o que exatamente é confuso. É suficiente saber que, para Fisher, não existe uma hipótese alternativa, ao passo que, para PN, o mundo de possibilidades se esgota com nulos e alternativos? Parece incoerente o suficiente para mim, mas infelizmente eu faço a coisa híbrida o tempo todo porque você não pode evitar, tão arraigada ela se tornou.

Momo

2

@ Momo: para você questionar sobre "o que exatamente é confuso" - bem, confuso é o frenesi da retórica anti-híbrida. "Mishmash incoerente" são palavras fortes, então eu gostaria de ver uma inconsistência bastante ruim. O que você disse sobre hipóteses alternativas não soa como tal para mim (no caso da variedade de jardins de

a alternativa é obviamente

, e não vejo muito espaço para inconsistência), mas se estou perdendo o seu argumento, talvez você queira fornecer como resposta.

H_{0} : μ = 0

$H_0: \mu=0$

H_{1} : μ \neq 0

$H_1: \mu \ne 0$

Ameba diz Reinstate Monica

2

Tendo acabado de ler Lew (e percebendo que já o havia lido antes, provavelmente por volta de 2006), achei muito bom, mas não acho que represente como uso valores-p. Meus níveis de significância - nas raras ocasiões em que eu uso o teste de hipóteses * - estão sempre na frente, e onde eu tenho controle sobre o tamanho da amostra, após consideração do poder, alguma consideração sobre o custo dos dois tipos de erro e assim por diante - essencialmente Neyman-Pearson. Eu ainda citar valores de p, mas não no âmbito da abordagem de Fisher .... (CTD)

Glen_b

2

(ctd) ... * (muitas vezes eu afasto as pessoas do teste de hipóteses - muitas vezes suas perguntas reais estão relacionadas à medição de efeitos e são melhor respondidas através da construção de intervalos). O problema específico que Lew levantou para o procedimento "híbrido" se aplica a algo que eu não faço e tenderia a alertar as pessoas contra o ato. Se há pessoas realmente fazendo a mistura de abordagens que ele implica, o artigo parece bom. A discussão anterior sobre o significado dos valores-p e a história das abordagens parece excelente.

Glen_b

11

@Glen_b, a visão histórica de Lew é muito agradável e clara, concordo plenamente. Meu problema está especificamente no problema híbrido (seção "Qual abordagem é mais usada?"). Certamente não são pessoas fazendo o que ele descreve lá, ou seja, relatando o mais forte de p <.001, <.01, ou <.05; Eu vejo isso o tempo todo na neurociência. Considere um dos casos em que você usa o teste. Você escolhe, por exemplo, alfa = 0,05 e segue a estrutura NP. Quando você obtém p = 0,00011, a sua certeza sobre o H1 e sua escolha de redação serão diferentes de quando você obteria p = 0,049? Se assim for, é híbrido! Se não, como é que é?

Ameba diz Reinstate Monica

16

Acredito que os documentos, artigos, mensagens, etc. que você coletou diligentemente, contêm informações e análises suficientes sobre onde e por que as duas abordagens diferem. Mas ser diferente não significa ser incompatível .

O problema com o "híbrido" é que ele é um híbrido e não uma síntese , e é por isso que é tratado por muitos como um híbrido , se você der uma desculpa ao jogo de palavras.
Por não ser uma síntese, ele não tenta combinar as diferenças das duas abordagens, nem cria uma abordagem unificada e consistente internamente, nem mantém as duas abordagens no arsenal científico como alternativas complementares, a fim de lidar de maneira mais eficaz com os mais complexos. mundo que tentamos analisar através da estatística (felizmente, essa última coisa é o que parece estar acontecendo com a outra grande guerra civil do campo, a guerra freqüentista-bayesiana).

A insatisfação com ele, acredito, vem do fato de que de fato criou mal-entendidos na aplicação das ferramentas estatísticas e na interpretação dos resultados estatísticos , principalmente por cientistas que não são estatísticos , mal-entendidos que podem ter efeitos possivelmente muito sérios e prejudiciais (pensando no campo remédio ajuda a dar à questão seu tom dramático apropriado). Acredito que essa má aplicação seja amplamente aceita como fato - e, nesse sentido, o ponto de vista "anti-híbrido" pode ser considerado generalizado (pelo menos devido às consequências que teve, se não por suas questões metodológicas).

$p$

Creio que o híbrido surgiu da percepção de que não existia uma resposta tão fácil e que havia fenômenos do mundo real para os quais uma abordagem é mais adequada que a outra (veja este post para um exemplo, de acordo com mim em menos, onde a abordagem dos pescadores parece mais adequada). Mas, em vez de manter os dois "separados e prontos para agir", eles foram superfluamente juntos.

Ofereço uma fonte que resume essa abordagem de "alternativa complementar": Spanos, A. (1999). Teoria da probabilidade e inferência estatística: modelagem econométrica com dados observacionais. Cambridge University Press. , cap. 14 , especialmente a Seção 14.5, onde, após apresentar formal e distintamente as duas abordagens, o autor está em posição de apontar claramente suas diferenças e também argumentar que elas podem ser vistas como alternativas complementares.

Alecos Papadopoulos
fonte

6

p

$p$

α

$\alpha$

6

p - α

$p-\alpha$

6

CONTINUAÇÃO Para mim, esta é a questão "coma seu bolo e coma também" da abordagem híbrida. Por exemplo, uma abordagem NP sem cálculos de teste de potência deve ser impensável, mas o tempo todo vemos testes colocados na estrutura do NP, mas nenhuma menção sobre cálculos de potência.

Alecos Papadopoulos

Fora do tópico, mas ... Como você está citando Aris Spanos, gostaria de saber se você pode responder a essa pergunta sobre a metodologia dele? (Uma vez eu fiz a pergunta diretamente a Aris Spanos, e ele gentilmente se esforçou em respondê-la. Infelizmente, sua resposta estava no mesmo idioma que seus documentos, portanto não me ajudou muito.)

Richard Hardy

13

Minha opinião sobre minha pergunta é que não há nada particularmente incoerente na abordagem híbrida (ou seja, aceita). Mas como eu não tinha certeza se talvez não estivesse compreendendo a validade dos argumentos apresentados nos artigos anti-híbridos, fiquei feliz em encontrar a discussão publicada junto com este artigo:

Hubbard e Bayarri, 2003, Confusão sobre medidas de evidência (p's) versus erros (α's) em testes estatísticos clássicos

Infelizmente, duas respostas publicadas como discussão não foram formatadas como artigos separados e, portanto, não podem ser citadas corretamente. Ainda assim, gostaria de citar os dois:

Berk: O tema das Seções 2 e 3 parece ser que Fisher não gostou do que Neyman e Pearson fizeram, e Neyman não gostou do que Fisher fez e, portanto, não devemos fazer nada que combine as duas abordagens. Não há como escapar da premissa aqui, mas o raciocínio me escapa.

Carlton:os autores insistem veementemente que a maior parte da confusão deriva do casamento das idéias dos pescadores e Neyman-Pearson, que esse casamento é um erro catastrófico por parte dos estatísticos modernos [...] [eles] parecem ter a intenção de estabelecer que valores de P e Erros do tipo I não podem coexistir no mesmo universo. Não está claro se os autores deram alguma razão substantiva pela qual não podemos expressar "valor p" e "erro tipo I" na mesma frase. [...] O "fato" de sua incompatibilidade [F e NP] é uma notícia surpreendente para mim, como tenho certeza que acontece para milhares de estatísticos qualificados lendo o artigo. Os autores parecem sugerir que, entre os motivos pelos quais os estatísticos deveriam se divorciar agora, essas duas idéias são que Fisher e Neyman não gostavam muito um do outro (ou um do outro). filosofias sobre testes). Sempre vi nossa prática atual, que integra as filosofias de Fisher e Neyman e permite a discussão dos valores de P e dos erros do tipo I - embora certamente não em paralelo - como um dos maiores triunfos de nossa disciplina.

Vale a pena ler ambas as respostas. Há também uma réplica pelos autores originais, que não soa convincente para mim em tudo .

ameba diz Restabelecer Monica
fonte

11

Uma coisa é coexistir, outra é que uma seja considerada como a outra. Mas, de fato, essa linha de abordagem anti-híbrida está no espírito de "não pode haver síntese alguma" - com a qual eu discordo totalmente. Mas não vejo o híbrido atual como um casamento bem - sucedido .

Alecos Papadopoulos

2

@ Livid, obrigado por seus comentários, isso é interessante, mas eu gostaria de evitar mais discussões aqui. Prefiro encorajá-lo a postar uma nova resposta, se desejar. Mas se você decidir fazer isso, tente se concentrar na questão principal, que é: o que há de tão ruim em "híbrido", em comparação com Fisher e NP sozinho. Você parece odiar toda a abordagem do teste de significância, "hipótese nula nula", etc., mas não é disso que se trata!

Ameba diz Reinstate Monica

11

@Livid: Hmmm, você pode realmente esclarecer por que você diz que essa é uma característica distintiva do híbrido? Qual seria o nulo em Fisher puro ou em NP puro? Digamos que você tenha dois grupos e queira testar uma diferença significativa ("nulo nulo"). Não se pode abordar essa situação com todas as três abordagens: Fisher puro, NP puro e híbrido?

Ameba diz Reinstate Monica

2

@ Livid, entendo seus argumentos contra o nulo nulo, só acho que esse problema é ortogonal ao problema do híbrido. Preciso atualizar os papéis anti-híbridos na memória, mas, tanto quanto me lembro, a crítica deles ao híbrido não está centrada em nada nulo. Em vez disso, trata-se de combinar Fisher e NP. Novamente, se você não concordar com isso, considere postar uma resposta; por enquanto, vamos deixar assim.

Ameba diz Reinstate Monica

2

Uma observação para mim mesmo: devo incorporar nesta resposta algumas citações deste artigo: Lehmann 1992, The Fisher, Neyman-Pearson Teorias de hipóteses de teste: uma ou duas teorias?

Ameba diz Reinstate Monica

8

Receio que uma resposta real a essa excelente pergunta exija um trabalho completo. No entanto, aqui estão alguns pontos que não estão presentes na pergunta nem nas respostas atuais.

A taxa de erro 'pertence' ao procedimento, mas a evidência 'pertence' aos resultados experimentais. Assim, é possível com procedimentos de vários estágios com regras de parada seqüencial obter um resultado com evidências muito fortes contra a hipótese nula, mas um resultado de teste de hipótese não significativo. Isso pode ser pensado como uma forte incompatibilidade.
Se você está interessado nas incompatibilidades, deve estar interessado nas filosofias subjacentes. A dificuldade filosófica deriva de uma escolha entre o cumprimento do Princípio da Verossimilhança e o cumprimento do Princípio da Amostragem Repetida. O LP diz a grosso modo que, dado um modelo estatístico, a evidência em um conjunto de dados relevante para o parâmetro de interesse está completamente contida na função de probabilidade relevante. O RSP diz que se deve preferir testes que apresentem taxas de erro a longo prazo iguais aos seus valores nominais.

Michael Lew
fonte

3

A monografia de JO Berger e RL Wolpert, "O princípio da verossimilhança" (2ª ed. 1988), é uma exposição calma, equilibrada e boa do ponto 2., na minha opinião.

Alecos Papadopoulos

5

Berger e Wolpert é de fato uma boa exposição e autoritária também. No entanto, prefiro o livro "Likelihood", mais prático e menos matemático, da AWF Edwards. Ainda na impressão, eu acho. books.google.com.au/books/about/Likelihood.html?id=LL08AAAAIAAJ

Michael Lew

2

@MichaelLew explicou que um uso válido dos valores de p é um resumo do tamanho do efeito. Ele fez uma grande coisa ao escrever este artigo: arxiv.org/abs/1311.0081

Livid

@Livid O artigo é interessante, mas para o novo leitor vale a pena observar o seguinte: a idéia principal, que p valoriza 'índice' (presumivelmente: estão em uma relação com as funções de probabilidade), geralmente é entendida como falsa porque há casos em que a mesma probabilidade corresponde a diferentes valores de p, dependendo do esquema de amostragem. Esta questão é discutida um pouco no artigo, mas a indexação é uma posição muito incomum (o que não necessariamente a leva a mal, é claro).

conjugateprior

8

Uma união frequentemente vista (e supostamente aceita) (ou melhor: "híbrida") entre as duas abordagens é a seguinte:

$\alpha$
$H_o: \mu = 0$ $H_1: \mu \ne 0$
$\alpha$

$\alpha$
- $H_o$
- $H_o$ $H_1$
- $100\% \cdot (1-\alpha)$ $H_1$
Se o valor de p não for pequeno o suficiente, você diria
- $H_o$
- $H_o$ $H_1$

Aqui, aspectos de Neyman-Pearson são:

Você decide algo
$H_o$
Você sabe a taxa de erro do tipo I

Os aspectos da pesca são:

Você indica o valor de p. Qualquer leitor tem, portanto, a possibilidade de usar seu próprio nível (por exemplo, corrigir estritamente para vários testes) para a decisão
Basicamente, apenas a hipótese nula é necessária, pois a alternativa é justamente o contrário
$\mu \ne 0$

ADICIONAR

Embora seja bom estar ciente da discussão sobre os problemas filosóficos de Fisher, NP ou essa abordagem híbrida (como ensinado em um frenesi quase religioso por alguns), há questões muito mais relevantes nas estatísticas para combater:

Fazer perguntas não informativas (como perguntas binárias sim / não em vez de perguntas quantitativas "quanto", ou seja, usar testes em vez de intervalos de confiança)
Métodos de análise orientados a dados que levam a resultados tendenciosos (regressão gradual, suposições de teste etc.)
Escolhendo testes ou métodos errados
Interpretar mal resultados
Usando estatísticas clássicas para amostras não aleatórias

Michael M
fonte

11

(+1) Esta é uma boa descrição do híbrido (e por que exatamente ele é híbrido), mas você não disse explicitamente qual é a sua avaliação. Você concorda que o que você descreveu é uma "confusão incoerente"? Se sim, por quê? Ou você acha que é um procedimento razoável? Nesse caso, as pessoas que alegam que é incoerente têm razão ou estão simplesmente erradas?

Ameba diz Reinstate Monica

11

α

$\alpha$

4

aceitando que F e NP são abordagens válidas e significativas, o que há de tão ruim em seu híbrido?

Resposta curta: o uso de uma hipótese nula nula (sem diferença, sem correlação), independentemente do contexto. Tudo o resto é um "mau uso" por pessoas que criaram mitos para si mesmas sobre o que o processo pode alcançar. Os mitos surgem das pessoas que tentam conciliar o uso (às vezes apropriado) da confiança nas autoridades e heurísticas de consenso com a inaplicabilidade do procedimento ao seu problema.

Até onde eu sei, Gerd Gigerenzer surgiu com o termo "híbrido":

Perguntei ao autor [um autor distinto do livro estatístico, cujo livro passou por muitas edições e cujo nome não importa] por que ele removeu o capítulo sobre Bayes, bem como a sentença inocente de todas as edições subsequentes. “O que fez você apresentar estatísticas como se tivesse apenas um martelo, em vez de uma caixa de ferramentas? Por que você misturou as teorias de Fisher e Neyman – Pearson em um híbrido inconsistente que todo estatístico decente rejeitaria? ”

Para seu crédito, devo dizer que o autor não tentou negar que havia produzido a ilusão de que há apenas uma ferramenta. Mas ele me disse quem era o culpado por isso. Havia três culpados: seus colegas pesquisadores, a administração da universidade e sua editora. A maioria dos pesquisadores, argumentou ele, não está realmente interessada em pensamento estatístico, mas apenas em como publicar seus trabalhos [...]

O ritual nulo:

Defina uma hipótese nula estatística de “nenhuma diferença média” ou “correlação zero”. Não especifique as previsões de sua hipótese de pesquisa ou de qualquer hipótese substantiva alternativa.

$p < 0.05$ $p < 0.01$ $p < 0.001$ $p$

Sempre execute este procedimento.

Gigerenzer, G (novembro de 2004). " Estatísticas irracionais ". The Journal of Socio-Economics 33 (5): 587-606. doi: 10.1016 / j.socec.2004.09.033.

Edit: E devemos sempre mencionar, porque o "híbrido" é tão escorregadio e mal definido, que usar o nulo nulo para obter um valor-p é perfeitamente adequado como uma maneira de comparar os tamanhos de efeito, com diferentes tamanhos de amostra. É o aspecto "teste" que introduz o problema.

Edit 2: @amoeba Um valor-p pode ser bom como uma estatística resumida, nesse caso a hipótese nula nula é apenas um marco arbitrário: http://arxiv.org/abs/1311.0081 . No entanto, assim que você começa a tentar tirar uma conclusão ou tomar uma decisão (ou seja, "testar" a hipótese nula), ele deixa de fazer sentido. No exemplo de comparação de dois grupos, queremos saber quão diferentes são os dois grupos e as várias explicações possíveis para as diferenças dessa magnitude e tipo.

O valor p pode ser usado como uma estatística resumida, informando a magnitude da diferença. No entanto, usá-lo para "refutar / rejeitar" a diferença zero não serve para nada que eu possa dizer. Além disso, acho que muitos desses desenhos de estudo que comparam medições médias de seres vivos em um único ponto no tempo são equivocados. Devemos observar como as instâncias individuais do sistema mudam ao longo do tempo e, em seguida, criar um processo que explique o padrão observado (incluindo quaisquer diferenças de grupo).

Lívido
fonte

2

+1, Obrigado pela sua resposta e pelo link. Parece que não li este artigo em particular, vou dar uma olhada. Como eu disse antes, fiquei com a impressão de que "nulo nulo" é uma questão ortogonal à questão de "híbrido", mas acho que devo reler os escritos de Gigerenzer para verificar isso. Tentará encontrar tempo nos dias seguintes. Além disso: você poderia esclarecer seu último parágrafo ("editar")? Entendi corretamente que você quis dizer que ter um nulo nulo ao comparar dois tamanhos de efeito é bom, mas ter um nulo nulo ao comparar um tamanho de efeito a zero não é bom?

Ameba diz Reinstate Monica

1

Vejo que pessoas com mais experiência do que eu deram respostas, mas acho que minha resposta tem o potencial de acrescentar algo adicional, por isso vou oferecer isso como a perspectiva de um outro leigo.

A abordagem híbrida é incoerente? Eu diria que depende se o pesquisador acaba agindo de maneira inconsistente com as regras com as quais eles começaram: especificamente a regra de sim / não que entra em jogo com a definição de um valor alfa.

Incoerente

Comece com Neyman-Pearson. O pesquisador define alfa = 0,05, executa o experimento, calcula p = 0,052. O pesquisador observa esse valor-p e, usando a inferência dos pescadores (geralmente implicitamente), considera o resultado suficientemente incompatível com a hipótese do teste de que eles ainda alegarão que "algo" está acontecendo. O resultado é de alguma forma "bom o suficiente", mesmo que o valor p seja maior que o valor alfa. Muitas vezes, isso é combinado com idiomas como "quase significativo" ou "tendendo à significância" ou com alguma redação nesse sentido.

No entanto, definir um valor alfa antes de executar o experimento significa que alguém escolheu a abordagem do comportamento indutivo de Neyman-Pearson. Optar por ignorar esse valor alfa depois de calcular o valor p e, assim, reivindicar algo ainda é algo interessante, prejudica toda a abordagem com a qual se iniciou. Se um pesquisador inicia o caminho A (Neyman-Pearson), mas depois pula para outro caminho (Fisher), uma vez que não gosta do caminho em que está, considero isso incoerente. Eles não estão sendo consistentes com as regras (implícitas) com as quais começaram.

Coerente (possivelmente)

Comece com NP. O pesquisador define alfa = 0,05, executa o experimento, calcula p = 0,0014. O pesquisador observa que p <alfa e, portanto, rejeita a hipótese do teste (normalmente sem efeito nulo) e aceita a hipótese alternativa (o efeito é real). Nesse ponto, o pesquisador, além de decidir tratar o resultado como um efeito real (NP), decide deduzir (Fisher) que o experimento fornece evidências muito fortes de que o efeito é real. Eles acrescentaram nuances à abordagem com a qual começaram, mas não contradizem as regras estabelecidas ao escolher um valor alfa no início.

Sumário

Se alguém começa escolhendo um valor alfa, então decide seguir o caminho de Neyman-Pearson e seguir as regras para essa abordagem. Se eles, em algum momento, violarem essas regras usando a inferência dos pescadores como justificativa, eles agiram de maneira inconsistente / incoerente.

Suponho que se poderia dar um passo adiante e declarar que, como é possível usar o híbrido de forma incoerente, a abordagem é inerentemente incoerente, mas isso parece estar se aprofundando nos aspectos filosóficos, aos quais não me considero qualificado nem sequer. oferecer uma opinião sobre.

Gorjeta de chapéu para Michael Lew. O artigo de 2006 me ajudou a entender esses problemas melhor do que qualquer outro recurso.

MichiganWater
fonte

O “híbrido” entre as abordagens de Fisher e Neyman-Pearson para o teste estatístico é realmente uma “confusão incoerente”?

Referências

citações

Respostas:

Incoerente

Coerente (possivelmente)

Sumário