Estou tentando escrever uma série de postagens no blog sobre valores-p e pensei que seria interessante voltar para onde tudo começou - o que parece ser o artigo de 1900 da Pearson. Se você estiver familiarizado com esse documento, lembre-se de que isso abrange testes de qualidade do ajuste.
Pearson é um pouco frouxo com sua linguagem quando se trata de valores-p. Ele usa repetidamente as "probabilidades" ao descrever como interpretar seu valor-p. Por exemplo, na p.168, ao falar sobre os resultados de repetidas jogadas de 12 dados, ele diz " ... o que nos leva a P = 0,0000016, ou as probabilidades são de 62,499 a 1 contra esse sistema de desvio aleatoriamente" Com essas probabilidades , seria razoável concluir que os dados exibem um viés em direção aos pontos mais altos " .
Neste artigo, ele se refere a trabalhos anteriores, incluindo um livro de 1891 sobre mínimos quadrados de Merriman.
Mas Pearson apresenta o cálculo dos valores-p (qualidade do teste do ajuste do qui-quadrado ao quadrado).
Pearson foi a primeira pessoa a conceber valores-p? Quando faço uma pesquisa sobre valores-p, Fisher é mencionado - e seu trabalho foi na década de 1920.
Editado: e obrigado pela menção de Laplace - ele não parecia abordar a hipótese nula (Pearson parece fazê-lo implicitamente, embora nunca tenha usado esse termo em seu artigo de 1900). Pearson analisou os testes de qualidade do ajuste de: assumindo que as contagens são derivadas de um processo imparcial, qual é a probabilidade de que as contagens observadas (e contagens mais divergentes) surjam da distribuição assumida?
Seu tratamento das probabilidades / probabilidades (ele converte as probabilidades em probabilidades) sugere que ele está trabalhando com uma ideia implícita da hipótese nula. Fundamentalmente, ele também menciona que a probabilidade decorrente do valor x ^ 2 mostra as probabilidades "contra um sistema de desvios improvável ou mais improvável do que este" - linguagem que reconhecemos agora - com relação aos seus valores p calculados.
Arbuthnot foi tão longe?
Sinta-se livre para colocar seus comentários como respostas. Seria bom ver uma discussão.
fonte
Respostas:
Jacob Bernoulli (~ 1700) - John Arbuthnot (1710) - Nicolaus Bernoulli (1710) - Abraham de Moivre (1718)
O caso de Arbuthnot 1, ver explicação na nota abaixo , também pode ser lido na Doutrina da Chance de Moivre (1718), da página 251-254, que estende essa linha de pensamento.
De Moivre faz duas etapas / avanços:
A aproximação normal de uma distribuição de Bernoulli, que ajuda a calcular facilmente as probabilidades de resultados dentro ou fora de um determinado intervalo. Na seção anterior ao exemplo do caso de Arbuthnot, de Moivre escreve sobre sua aproximação (agora chamada de distribuição gaussiana / normal) para a distribuição de Bernoulli. Essa aproximação permite calcular facilmente um valor p (o que Arbuthnot não poderia fazer).
Generalização do argumento de Arbuthnot. Ele menciona que "esse método de raciocínio também pode ser útil em outras investigações muito interessantes". (que pode dar crédito parcial a De Moivre por ver a aplicabilidade geral do argumento)
De acordo com Moivre, Jacob Bernoulli escreveu sobre esse problema em seu Ars Conjectandi . De Moivre nomeia isso em inglês: "Atribuindo os limites dentro dos quais, pela repetição de experimentos, a probabilidade de um evento pode se aproximar indefinidamente de uma probabilidade fornecida", mas o texto original de Bernouilli está em latim. Não conheço latim suficiente para descobrir se Bernoulli estava escrevendo sobre um conceito como o valor-p ou mais como a lei dos grandes números. Interessante notar é que Bernouilli afirma ter essas idéias há 20 anos (e também o trabalho 1713 foi publicado após sua morte em 1705, pelo que parece preceder a data de 1710 mencionada nos comentários de @Glen_b para Arbuthnot).
Uma fonte de inspiração para Moivre foi Nicolaus Bernouilli, que em 1712/1713 fez os cálculos para a probabilidade de o número de meninos nascidos não ser menor que 7037 e não maior que 7363, quando 14000 é o número total de crianças nascidas e a probabilidade de um menino é 18/35.
(Os números para esse problema foram baseados em 80 anos de estatísticas para Londres. Ele escreveu sobre isso em cartas a Pierre Raymond de Montmort publicadas na segunda edição (1713) do Ensaio de análise de Montmort sobre o risco de perigo .)
Os cálculos, que eu não segui exatamente, resultaram em uma probabilidade de 43,58 a 1. (Usando um computador que soma todos os termos de probabilidade de um binômio de 7037 a 7363, recebo 175: 1, para que eu possa ter interpretado mal seu trabalho / cálculo. )
1: John Arbuthnot escreveu sobre este caso em Um argumento para a providência divina, retirado da regularidade constante observada nos nascimentos de ambos os sexos (1710).
Escrito por StackExchangeStrike
fonte
Eu tenho três links / argumentos de suporte que suportam a data ~ 1600-1650 para estatísticas formalmente desenvolvidas e muito mais cedo para simplesmente o uso de probabilidades.
Se você aceitar o teste de hipóteses como base, antes da probabilidade, o Dicionário de Etimologia Online oferecerá:
O Wikcionário oferece:
Sobre probabilidades e estatísticas, a Wikipedia oferece:
De "Wolfram, Stephen (2002). Um novo tipo de ciência. Wolfram Media, Inc. p. 1082.":
Outras fontes:
A seção "Origens históricas" declara:
[1] Arbuthnott J. Um argumento para a Providência divina, retirado da constante regularidade observada nos nascimentos de ambos os sexos. Phil Trans 1710; 27: 186–90. doi: 10.1098 / rstl.1710.0011 publicado em 1 de janeiro de 1710
Temos uma discussão mais aprofundada em nosso site da SE sobre o método Fischer x Neyman-Pearson-Wald aqui: o "híbrido" entre as abordagens de Fisher e Neyman-Pearson para o teste estatístico é realmente uma "confusão incoerente"? .
Um artigo no Journal of Epidemiology and Biostatistics (2001) vol. 6, n. 2, 193–204 de Senn, intitulado: "Opinião: dois elogios pelos valores-P?" explica isso na introdução:
Referências
A American Statistical Association possui uma página na Internet sobre História das Estatísticas que, juntamente com essas informações, possui um pôster (reproduzido em parte abaixo) intitulado "Linha do tempo das estatísticas".
AD 2: A evidência de um censo concluído durante a dinastia Han sobrevive.
1500: Girolamo Cardano calcula probabilidades de diferentes jogadas de dados.
1600: Edmund Halley relaciona a taxa de mortalidade com a idade e desenvolve tabelas de mortalidade.
Década de 1700: Thomas Jefferson dirige o primeiro censo dos EUA.
1839: A American Statistical Association é formada.
1894: O termo "desvio padrão" é introduzido por Karl Pearson.
1935: RA Fisher publica Design de Experimentos.
Na seção "História" da página da Wikipedia " Lei dos grandes números ", explica:
Não, provavelmente não.
Em " A declaração da ASA sobre valores-p: contexto, processo e objetivo " (09 de junho de 2016) por Wasserstein e Lazar, doi: 10.1080 / 00031305.2016.1154108, há uma declaração oficial sobre a definição do valor-p (que não é dúvida não acordada por todas as disciplinas que utilizam ou rejeitam valores de p) que diz:
" . O que é um p-Value?
Informalmente, um valor-p é a probabilidade em um modelo estatístico especificado de que um resumo estatístico dos dados (por exemplo, a diferença média da amostra entre dois grupos comparados) seja igual ou mais extremo do que o valor observado.
3. Princípios
...
6. Por si só, um valor-p não fornece uma boa medida de evidência a respeito de um modelo ou hipótese.
Os pesquisadores devem reconhecer que um valor-p sem contexto ou outra evidência fornece informações limitadas. Por exemplo, um valor p próximo a 0,05, por si só, oferece apenas evidências fracas contra a hipótese nula. Da mesma forma, um valor p relativamente grande não implica evidência a favor da hipótese nula; muitas outras hipóteses podem ser iguais ou mais consistentes com os dados observados. Por esses motivos, a análise dos dados não deve terminar com o cálculo de um valor-p quando outras abordagens forem apropriadas e viáveis ".
A rejeição da hipótese nula provavelmente ocorreu muito antes de Pearson.
A página da Wikipedia sobre os primeiros exemplos de testes de hipótese nula afirma:
Escolhas iniciais da hipótese nula
Paul Meehl argumentou que a importância epistemológica da escolha da hipótese nula não foi amplamente reconhecida. Quando a hipótese nula é prevista pela teoria, um experimento mais preciso será um teste mais severo da teoria subjacente. Quando a hipótese nula é padronizada como "sem diferença" ou "sem efeito", um experimento mais preciso é um teste menos severo da teoria que motivou a realização do experimento. Um exame das origens dessa última prática pode, portanto, ser útil:
1778: Pierre Laplace compara as taxas de nascimento de meninos e meninas em várias cidades europeias. Ele afirma: "é natural concluir que essas possibilidades estão quase na mesma proporção". Assim, a hipótese nula de Laplace de que as taxas de nascimento de meninos e meninas devem ser iguais, dada a "sabedoria convencional".
1900: Karl Pearson desenvolve o teste do qui-quadrado para determinar "se uma determinada forma de curva de frequência descreverá efetivamente as amostras coletadas de uma determinada população". Assim, a hipótese nula é que uma população é descrita por alguma distribuição prevista pela teoria. Ele usa como exemplo os números de cinco e seis nos dados de Weldon que lançam dados.
1904: Karl Pearson desenvolve o conceito de "contingência" para determinar se os resultados são independentes de um determinado fator categórico. Aqui, a hipótese nula é por padrão que duas coisas não estão relacionadas (por exemplo, formação de cicatrizes e taxas de mortalidade por varíola). A hipótese nula neste caso não é mais prevista pela teoria ou pela sabedoria convencional, mas pelo contrário, é o princípio da indiferença que leva Fisher e outros a descartar o uso de "probabilidades inversas".
Apesar de qualquer pessoa ser creditada por rejeitar uma hipótese nula, não acho razoável rotulá-la de " descoberta do ceticismo com base em uma posição matemática fraca".
fonte