Existe uma certa escola de pensamento segundo a qual a abordagem mais difundida dos testes estatísticos é um "híbrido" entre duas abordagens: a de Fisher e a de Neyman-Pearson; essas duas abordagens, afirma a alegação, são "incompatíveis" e, portanto, o "híbrido" resultante é uma "confusão incoerente". Fornecerei uma bibliografia e algumas citações abaixo, mas, por enquanto, basta dizer que há muito escrito sobre isso no artigo da wikipedia sobre Teste de hipótese estatística . Aqui no CV, esse ponto foi repetidamente apresentado por @Michael Lew (veja aqui e aqui ).
Minha pergunta é: por que as abordagens F e NP são consideradas incompatíveis e por que o híbrido é afirmado incoerente? Observe que li pelo menos seis artigos anti-híbridos (veja abaixo), mas ainda não entendi o problema ou o argumento. Note também que não estou sugerindo debater se F ou NP é uma abordagem melhor; nem estou me oferecendo para discutir estruturas freqüentistas x bayesianas. Em vez disso, a pergunta é: aceitando que F e NP são abordagens válidas e significativas, o que há de tão ruim em seu híbrido?
Aqui está como eu entendo a situação. A abordagem de Fisher é calcular o valor e tomá-lo como evidência contra a hipótese nula. Quanto menor ep , mais convincentes serão as evidências. O pesquisador deve combinar essa evidência com seu conhecimento prévio, decidir se é convincente o suficiente e proceder de acordo. (Observe que as opiniões de Fisher mudaram ao longo dos anos, mas é para isso que ele parece ter convergido.) Por outro lado, a abordagem de Neyman-Pearson é escolher α antecipadamente e depois verificar se p ≤ α; se assim for, chame-o de significativo e rejeite a hipótese nula (aqui omito grande parte da história do PE que não tem relevância para a discussão atual). Veja também uma excelente resposta de @gung em Quando usar o framework Fisher e Neyman-Pearson?
A abordagem híbrida é calcular o valor , relatá-lo (assumindo implicitamente que quanto menor, melhor) e também chamar os resultados de significativos se p ≤ α (geralmente α = 0,05 ) e, caso contrário, não significativo. Isso deveria ser incoerente. Como pode ser inválido fazer duas coisas válidas simultaneamente, me bate.
Como particularmente incoerente os anti-hybridists visualizar a prática difundida de relatórios -Valores como p < 0,05 , p < 0,01 , ou p < 0,001 (ou mesmo p « 0,0001 ), onde sempre a desigualdade mais forte é escolhido. O argumento parece ser que (a) a força da evidência não pode ser avaliada adequadamente, pois p exato não é relatado e (b) as pessoas tendem a interpretar o número do lado direito da desigualdade como α e vê-lo como taxa de erro do tipo I e isso está errado. Não vejo um grande problema aqui. Primeiro, relatando p exatoé certamente uma melhor prática, mas ninguém realmente se importa se é, por exemplo 0,02 ou 0,03 , de modo arredondamento-lo em uma escala logarítmica não é tããão ruim (e indo abaixo ~ 0,0001 não faz sentido qualquer maneira, consulte Como deve ser relatado pequenos valores de p ? ). Em segundo lugar, se o consenso é chamar tudo abaixo de 0,05 significativa, em seguida, a taxa de erro será α = 0,05 e p ≠ α , como @gung explica em Interpretação do valor p no teste da hipótese. Embora esse seja um problema potencialmente confuso, não me parece mais confuso do que outros problemas nos testes estatísticos (fora do híbrido). Além disso, todo leitor pode ter seu próprio favorito em mente ao ler um artigo híbrido, e sua própria taxa de erro como conseqüência. Então, qual é o grande problema?
Uma das razões pelas quais quero fazer esta pergunta é porque literalmente dói ver quanto do artigo da Wikipedia sobre testes de hipótese estatística é dedicado ao híbrido de lambasting. Seguindo Halpin & Stam, alega que um certo Lindquist é o culpado (há até uma grande varredura de seu livro com "erros" destacados em amarelo) e, é claro, o artigo da wiki sobre o próprio Lindquist começa com a mesma acusação. Mas então, talvez esteja faltando alguma coisa.
Referências
Gigerenzer, 1993, O superego, o ego e o id no raciocínio estatístico - introduziram o termo "híbrido" e o chamaram de "confusão incoerente".
- Veja também exposições mais recentes de Gigerenzer et al .: eg Mindless statistics (2004) e The Null Ritual. O que você sempre quis saber sobre testes de significância, mas tinha medo de perguntar (2004).
Cohen, 1994, The Earth Is Round ( ) - um artigo muito popular com quase 3 mil citações, principalmente sobre questões diferentes, mas citando favoravelmente Gigerenzer
Goodman, 1999, Para estatísticas médicas baseadas em evidências. 1: Falácia do valor P
Hubbard e Bayarri, 2003, Confusão sobre medidas de evidência ( 's) versus erros ( α ' s) em testes estatísticos clássicos - um dos trabalhos mais eloquentes que argumentam contra o "híbrido"
Halpin & Stam, 2006, Inferência Indutiva ou Comportamento Indutivo: Abordagens de Fisher e Neyman-Pearson ao Teste Estatístico em Pesquisa Psicológica (1940-1960) [livre após o registro] - culpa o livro de Lindquist em 1940 por introduzir a abordagem "híbrida"
@ Michael Lew, 2006, Má prática estatística em farmacologia (e outras disciplinas biomédicas básicas): você provavelmente não conhece P - uma boa revisão e visão geral
citações
Gigerenzer: O que se tornou institucionalizado como estatística inferencial em psicologia não é estatística dos pescadores. É uma mistura incoerente de algumas das idéias de Fisher, por um lado, e algumas das idéias de Neyman e ES Pearson, por outro. Refiro-me a essa mistura como a "lógica híbrida" da inferência estatística.
Goodman: A abordagem do teste de hipótese [Neyman-Pearson] ofereceu aos cientistas uma barganha faustiana - uma maneira aparentemente automática de limitar o número de conclusões equivocadas a longo prazo, mas apenas abandonando a capacidade de medir evidências [a la Fisher] e avaliar verdade de um único experimento.
Hubbard & Bayarri: O teste estatístico clássico é um híbrido anônimo das abordagens concorrentes e freqüentemente contraditórias [...]. Em particular, existe uma falha generalizada em apreciar a incompatibilidade do valor evidencial de Fisher com a taxa de erro do tipo I, α , da ortodoxia estatística de Neyman-Pearson. [...] Como um excelente exemplo da perplexidade resultante dessa mistura, [...] considere o fato amplamente desvalorizado de que o valor p do primeiro é incompatívelcom o teste de hipótese de Neyman-Pearson no qual ele foi incorporado. [...] Por exemplo, Gibbons e Pratt declararam [...] erroneamente: "Relatar um valor P, exato ou dentro de um intervalo, permite que cada indivíduo escolha seu próprio nível de significância como a probabilidade máxima tolerável. de um erro do tipo I. "
Halpin & Stam: O texto de Lindquist em 1940 foi uma fonte original da hibridização das abordagens de Fisher e Neyman-Pearson. [...] ao invés de aderir a qualquer interpretação particular dos testes estatísticos, os psicólogos permaneceram ambivalentes sobre as dificuldades conceituais implicadas pela controvérsia de Fisher e Neyman-Pearson e, de fato, desconhecem as dificuldades conceituais.
Lew: O que temos é uma abordagem híbrida que não controla taxas de erro nem permite avaliar a força das evidências.
fonte
Respostas:
Acredito que os documentos, artigos, mensagens, etc. que você coletou diligentemente, contêm informações e análises suficientes sobre onde e por que as duas abordagens diferem. Mas ser diferente não significa ser incompatível .
O problema com o "híbrido" é que ele é um híbrido e não uma síntese , e é por isso que é tratado por muitos como um híbrido , se você der uma desculpa ao jogo de palavras.
Por não ser uma síntese, ele não tenta combinar as diferenças das duas abordagens, nem cria uma abordagem unificada e consistente internamente, nem mantém as duas abordagens no arsenal científico como alternativas complementares, a fim de lidar de maneira mais eficaz com os mais complexos. mundo que tentamos analisar através da estatística (felizmente, essa última coisa é o que parece estar acontecendo com a outra grande guerra civil do campo, a guerra freqüentista-bayesiana).
A insatisfação com ele, acredito, vem do fato de que de fato criou mal-entendidos na aplicação das ferramentas estatísticas e na interpretação dos resultados estatísticos , principalmente por cientistas que não são estatísticos , mal-entendidos que podem ter efeitos possivelmente muito sérios e prejudiciais (pensando no campo remédio ajuda a dar à questão seu tom dramático apropriado). Acredito que essa má aplicação seja amplamente aceita como fato - e, nesse sentido, o ponto de vista "anti-híbrido" pode ser considerado generalizado (pelo menos devido às consequências que teve, se não por suas questões metodológicas).
Creio que o híbrido surgiu da percepção de que não existia uma resposta tão fácil e que havia fenômenos do mundo real para os quais uma abordagem é mais adequada que a outra (veja este post para um exemplo, de acordo com mim em menos, onde a abordagem dos pescadores parece mais adequada). Mas, em vez de manter os dois "separados e prontos para agir", eles foram superfluamente juntos.
Ofereço uma fonte que resume essa abordagem de "alternativa complementar": Spanos, A. (1999). Teoria da probabilidade e inferência estatística: modelagem econométrica com dados observacionais. Cambridge University Press. , cap. 14 , especialmente a Seção 14.5, onde, após apresentar formal e distintamente as duas abordagens, o autor está em posição de apontar claramente suas diferenças e também argumentar que elas podem ser vistas como alternativas complementares.
fonte
Minha opinião sobre minha pergunta é que não há nada particularmente incoerente na abordagem híbrida (ou seja, aceita). Mas como eu não tinha certeza se talvez não estivesse compreendendo a validade dos argumentos apresentados nos artigos anti-híbridos, fiquei feliz em encontrar a discussão publicada junto com este artigo:
Infelizmente, duas respostas publicadas como discussão não foram formatadas como artigos separados e, portanto, não podem ser citadas corretamente. Ainda assim, gostaria de citar os dois:
Vale a pena ler ambas as respostas. Há também uma réplica pelos autores originais, que não soa convincente para mim em tudo .
fonte
Receio que uma resposta real a essa excelente pergunta exija um trabalho completo. No entanto, aqui estão alguns pontos que não estão presentes na pergunta nem nas respostas atuais.
A taxa de erro 'pertence' ao procedimento, mas a evidência 'pertence' aos resultados experimentais. Assim, é possível com procedimentos de vários estágios com regras de parada seqüencial obter um resultado com evidências muito fortes contra a hipótese nula, mas um resultado de teste de hipótese não significativo. Isso pode ser pensado como uma forte incompatibilidade.
Se você está interessado nas incompatibilidades, deve estar interessado nas filosofias subjacentes. A dificuldade filosófica deriva de uma escolha entre o cumprimento do Princípio da Verossimilhança e o cumprimento do Princípio da Amostragem Repetida. O LP diz a grosso modo que, dado um modelo estatístico, a evidência em um conjunto de dados relevante para o parâmetro de interesse está completamente contida na função de probabilidade relevante. O RSP diz que se deve preferir testes que apresentem taxas de erro a longo prazo iguais aos seus valores nominais.
fonte
Uma união frequentemente vista (e supostamente aceita) (ou melhor: "híbrida") entre as duas abordagens é a seguinte:
Se o valor de p não for pequeno o suficiente, você diria
Aqui, aspectos de Neyman-Pearson são:
Os aspectos da pesca são:
ADICIONAR
Embora seja bom estar ciente da discussão sobre os problemas filosóficos de Fisher, NP ou essa abordagem híbrida (como ensinado em um frenesi quase religioso por alguns), há questões muito mais relevantes nas estatísticas para combater:
fonte
Resposta curta: o uso de uma hipótese nula nula (sem diferença, sem correlação), independentemente do contexto. Tudo o resto é um "mau uso" por pessoas que criaram mitos para si mesmas sobre o que o processo pode alcançar. Os mitos surgem das pessoas que tentam conciliar o uso (às vezes apropriado) da confiança nas autoridades e heurísticas de consenso com a inaplicabilidade do procedimento ao seu problema.
Até onde eu sei, Gerd Gigerenzer surgiu com o termo "híbrido":
Gigerenzer, G (novembro de 2004). " Estatísticas irracionais ". The Journal of Socio-Economics 33 (5): 587-606. doi: 10.1016 / j.socec.2004.09.033.
Edit: E devemos sempre mencionar, porque o "híbrido" é tão escorregadio e mal definido, que usar o nulo nulo para obter um valor-p é perfeitamente adequado como uma maneira de comparar os tamanhos de efeito, com diferentes tamanhos de amostra. É o aspecto "teste" que introduz o problema.
Edit 2: @amoeba Um valor-p pode ser bom como uma estatística resumida, nesse caso a hipótese nula nula é apenas um marco arbitrário: http://arxiv.org/abs/1311.0081 . No entanto, assim que você começa a tentar tirar uma conclusão ou tomar uma decisão (ou seja, "testar" a hipótese nula), ele deixa de fazer sentido. No exemplo de comparação de dois grupos, queremos saber quão diferentes são os dois grupos e as várias explicações possíveis para as diferenças dessa magnitude e tipo.
O valor p pode ser usado como uma estatística resumida, informando a magnitude da diferença. No entanto, usá-lo para "refutar / rejeitar" a diferença zero não serve para nada que eu possa dizer. Além disso, acho que muitos desses desenhos de estudo que comparam medições médias de seres vivos em um único ponto no tempo são equivocados. Devemos observar como as instâncias individuais do sistema mudam ao longo do tempo e, em seguida, criar um processo que explique o padrão observado (incluindo quaisquer diferenças de grupo).
fonte
Vejo que pessoas com mais experiência do que eu deram respostas, mas acho que minha resposta tem o potencial de acrescentar algo adicional, por isso vou oferecer isso como a perspectiva de um outro leigo.
A abordagem híbrida é incoerente? Eu diria que depende se o pesquisador acaba agindo de maneira inconsistente com as regras com as quais eles começaram: especificamente a regra de sim / não que entra em jogo com a definição de um valor alfa.
Incoerente
Comece com Neyman-Pearson. O pesquisador define alfa = 0,05, executa o experimento, calcula p = 0,052. O pesquisador observa esse valor-p e, usando a inferência dos pescadores (geralmente implicitamente), considera o resultado suficientemente incompatível com a hipótese do teste de que eles ainda alegarão que "algo" está acontecendo. O resultado é de alguma forma "bom o suficiente", mesmo que o valor p seja maior que o valor alfa. Muitas vezes, isso é combinado com idiomas como "quase significativo" ou "tendendo à significância" ou com alguma redação nesse sentido.
No entanto, definir um valor alfa antes de executar o experimento significa que alguém escolheu a abordagem do comportamento indutivo de Neyman-Pearson. Optar por ignorar esse valor alfa depois de calcular o valor p e, assim, reivindicar algo ainda é algo interessante, prejudica toda a abordagem com a qual se iniciou. Se um pesquisador inicia o caminho A (Neyman-Pearson), mas depois pula para outro caminho (Fisher), uma vez que não gosta do caminho em que está, considero isso incoerente. Eles não estão sendo consistentes com as regras (implícitas) com as quais começaram.
Coerente (possivelmente)
Comece com NP. O pesquisador define alfa = 0,05, executa o experimento, calcula p = 0,0014. O pesquisador observa que p <alfa e, portanto, rejeita a hipótese do teste (normalmente sem efeito nulo) e aceita a hipótese alternativa (o efeito é real). Nesse ponto, o pesquisador, além de decidir tratar o resultado como um efeito real (NP), decide deduzir (Fisher) que o experimento fornece evidências muito fortes de que o efeito é real. Eles acrescentaram nuances à abordagem com a qual começaram, mas não contradizem as regras estabelecidas ao escolher um valor alfa no início.
Sumário
Se alguém começa escolhendo um valor alfa, então decide seguir o caminho de Neyman-Pearson e seguir as regras para essa abordagem. Se eles, em algum momento, violarem essas regras usando a inferência dos pescadores como justificativa, eles agiram de maneira inconsistente / incoerente.
Suponho que se poderia dar um passo adiante e declarar que, como é possível usar o híbrido de forma incoerente, a abordagem é inerentemente incoerente, mas isso parece estar se aprofundando nos aspectos filosóficos, aos quais não me considero qualificado nem sequer. oferecer uma opinião sobre.
Gorjeta de chapéu para Michael Lew. O artigo de 2006 me ajudou a entender esses problemas melhor do que qualquer outro recurso.
fonte