Depois de fazer um curso de estatística e depois tentar ajudar os colegas, notei que um assunto que inspira muita batida na mesa é a interpretação dos resultados dos testes estatísticos de hipóteses. Parece que os alunos aprendem facilmente como executar os cálculos exigidos por um determinado teste, mas ficam confusos na interpretação dos resultados. Muitas ferramentas computadorizadas relatam os resultados dos testes em termos de "valores p" ou "valores t".
Como você explicaria os seguintes pontos aos estudantes universitários que fazem o primeiro curso de estatística:
O que significa um "valor-p" em relação à hipótese que está sendo testada? Existem casos em que se deve procurar um valor p alto ou baixo?
Qual é a relação entre um valor p e um valor t?
Respostas:
Entendendo o valor-p
Suponha, que pretende testar a hipótese de que a altura média dos estudantes do sexo masculino na sua Universidade é pés 7 polegadas. Você coleciona alturas de 100 alunos selecionados aleatoriamente e calcula a média da amostra (digamos que ela tenha 5 pés 9 polegadas). Usando uma fórmula apropriada / rotina estatística, você calcula o valor de p para sua hipótese e diz que é 0,06 .5 7 100 5 9 p 0,06
Para interpretar adequadamente, devemos ter em mente várias coisas:p = 0,06
O primeiro passo no teste clássico de hipóteses é a suposição de que a hipótese em consideração é verdadeira. (Em nosso contexto, assumimos que a verdadeira altura média é de pés 7 polegadas.)5 7
Imagine fazer o seguinte cálculo: Calcule a probabilidade de que a média da amostra seja superior a pés 9 polegadas, assumindo que nossa hipótese seja de fato correta (consulte o ponto 1).5 9
Em outras palavras, queremos saber
O cálculo na etapa 2 é chamado de valor- . Portanto, um valor- p de 0,06 significaria que, se repetirmos nosso experimento muitas e muitas vezes (sempre que selecionarmos 100 alunos aleatoriamente e calcularmos a média da amostra), então 6 vezes em 100 , podemos esperar ver uma amostra média maior ou igual a 5 pés 9 polegadas.p p 0,06 100 6 100 5 9
Dado o entendimento acima, ainda devemos manter nossa suposição de que nossa hipótese é verdadeira (consulte a etapa 1)? Bem, um indica que uma das duas coisas aconteceu:p = 0,06
ou
A maneira tradicional de escolher entre (A) e (B) é escolher um ponto de corte arbitrário para . Escolhemos (A) se p > 0,05 e (B) se p < 0,05 .p p > 0,05 p < 0,05
fonte
Um diálogo entre um professor e um aluno atencioso
Humildemente submetido na crença de que não foram usados lápis de cera suficientes até agora neste tópico. Uma breve sinopse ilustrada aparece no final.
Aluno : O que significa um valor-p? Muitas pessoas parecem concordar que é a chance de "vermos uma média da amostra maior ou igual a" uma estatística ou "a probabilidade de observar esse resultado ... dada a hipótese nula é verdadeira" ou onde "a estatística da minha amostra caiu sobre uma distribuição [simulada] " e até " a probabilidade de observar uma estatística de teste pelo menos tão grande quanto a calculada assumindo que a hipótese nula é verdadeira " .
Mestre : Entendidas corretamente, todas essas afirmações estão corretas em muitas circunstâncias.
Aluno : Não vejo como a maioria deles é relevante. Você não nos ensinou que precisamos declarar uma hipótese nula e uma hipótese alternativa H A ? Como eles estão envolvidos nessas idéias de "maior que ou igual a" ou "pelo menos tão grande" ou o muito popular "mais extremo"?H0 0 HUMA
Professor : Como pode parecer complicado em geral, ajudaria a explorar um exemplo concreto?
Aluno : Claro. Mas faça com que seja realista, mas simples, se puder.
Professor : Essa teoria do teste de hipóteses começou historicamente com a necessidade dos astrônomos de analisar erros observacionais, então que tal começar por aí. Eu estava examinando alguns documentos antigos um dia em que um cientista descreveu seus esforços para reduzir o erro de medição em seu aparelho. Ele havia feito muitas medições de uma estrela em uma posição conhecida e registrado seus deslocamentos à frente ou atrás dessa posição. Para visualizar esses deslocamentos, ele desenhou um histograma que - quando suavizado um pouco - se parecia com este.
Aluno : Lembro como os histogramas funcionam: o eixo vertical é rotulado como "Densidade" para me lembrar que as frequências relativas das medidas são representadas por área e não por altura.
Professor : Isso mesmo. Um valor "incomum" ou "extremo" seria localizado em uma região com uma área muito pequena. Aqui está um giz de cera. Você acha que poderia colorir em uma região cuja área é apenas um décimo do total?
Aluno : Claro; isso é fácil. [Cores na figura.]
Professor : Muito bom! Isso parece cerca de 10% da área para mim. Lembre-se, porém, que as únicas áreas no histograma que importam são aquelas entre linhas verticais: elas representam a chance ou probabilidade de que o deslocamento esteja localizado entre essas linhas no eixo horizontal. Isso significa que você precisava colorir todo o caminho até o fundo e isso seria mais da metade da área, não é?
Aluno : Entendo. Deixe-me tentar de novo. Vou querer colorir onde a curva é realmente baixa, não é? É mais baixo nas duas extremidades. Preciso colorir em apenas uma área ou seria bom dividi-lo em várias partes?
Professor : Usar várias partes é uma ideia inteligente. Onde eles estariam?
Aluno (apontando): Aqui e aqui. Como esse lápis não é muito afiado, usei uma caneta para mostrar as linhas que estou usando.
Professor : Muito bom! Deixe-me contar o resto da história. O cientista fez algumas melhorias em seu dispositivo e, em seguida, ele tomou medidas adicionais. Ele escreveu que o deslocamento do primeiro era de apenas , o que ele considerava um bom sinal, mas, sendo um cientista cuidadoso, passou a fazer mais medições como verificação. Infelizmente, essas outras medidas são perdidas - o manuscrito é interrompido neste momento - e tudo o que temos é esse número único, 0,1 .0,1 0,1
Aluno : Isso é muito ruim. Mas isso não é muito melhor do que a grande variedade de deslocamentos em sua figura?
Professor : Essa é a pergunta que eu gostaria que você respondesse. Para começar, o que devemos colocar como ?H0 0
Aluno : Bem, um cético se pergunta se as melhorias feitas no dispositivo têm algum efeito. O ônus da prova está no cientista: ele gostaria de mostrar que o cético está errado. Isso me faz pensar que a hipótese nula é meio ruim para o cientista: diz que todas as novas medidas - incluindo o valor de que conhecemos - devem se comportar conforme descrito no primeiro histograma. Ou talvez ainda pior do que isso: eles podem estar ainda mais espalhados.0,1
Professor : Continue, você está indo bem.
Aluno : E então a alternativa é que as novas medidas sejam menos difundidas, certo?
Professor : Muito bom! Você poderia me desenhar uma imagem de como seria um histograma com menos propagação? Aqui está outra cópia do primeiro histograma; você pode desenhar sobre ela como uma referência.
Aluno (desenho): estou usando uma caneta para delinear o novo histograma e estou colorindo a área abaixo dele. Eu fiz isso para que a maior parte da curva esteja próxima de zero no eixo horizontal e a maior parte de sua área esteja próxima de um valor (horizontal) de zero: é isso que significa ser menos disperso ou mais preciso.
Professor : Esse é um bom começo. Mas lembre-se de que um histograma mostrando chances deve ter uma área total de . A área total do primeiro histograma é, portanto, 1 . Quanta área está dentro do seu novo histograma?1 1
Aluno : Acho que menos da metade. Vejo que é um problema, mas não sei como corrigi-lo. O que devo fazer?
Professor : O truque é tornar o novo histograma mais alto que o antigo para que sua área total seja . Aqui, mostrarei uma versão gerada por computador para ilustrar.1
Aluno : Entendi: você esticou verticalmente para que seu formato não mudasse realmente, mas agora a área vermelha e a área cinza (incluindo a parte sob o vermelho) são as mesmas quantidades.
Professor : Certo. Você está vendo uma imagem da hipótese nula (em azul, espalhada) e parte da hipótese alternativa (em vermelho, com menos propagação).
Aluno : O que você quer dizer com "parte" da alternativa? Não é apenas a hipótese alternativa?
Professor : Estatísticos e gramática parecem não se misturar. :-) Sério, o que eles querem dizer com "hipótese" geralmente é um grande conjunto de possibilidades. Aqui, a alternativa (como você disse antes) é que as medidas são "menos difundidas" do que antes. Mas quanto menos ? Existem muitas possibilidades. Aqui, deixe-me mostrar outra. Eu desenhei com traços amarelos. Está entre os dois anteriores.
Aluno : Entendo: você pode ter quantidades diferentes de spread, mas não sabe de antemão quanto será realmente o spread. Mas por que você fez o sombreamento engraçado nessa foto?
Professor : Eu queria destacar onde e como os histogramas diferem. Eu os sombrei em cinza, onde os histogramas alternativos são menores que o nulo e em vermelho, onde as alternativas são maiores .
Aluno : Por que isso importa?
Professor : Você se lembra de como pintou o primeiro histograma nas duas caudas? [Examinando os papéis.] Ah, aqui está. Vamos colorir esta imagem da mesma maneira.
Aluno : Lembro-me: esses são os valores extremos. Encontrei os locais onde a densidade nula era a menor possível e colori 10% da área.
Professor : Conte-me sobre as alternativas nessas áreas extremas.
Aluno : É difícil ver, porque o giz de cera o encobriu, mas parece que quase não há chance de haver alternativa nas áreas que eu pintei. Seus histogramas estão diretamente no eixo do valor e não há espaço para nenhuma área abaixo deles.
Professor : Vamos continuar com esse pensamento. Se eu lhe dissesse, hipoteticamente, que uma medida teve um deslocamento de , e lhe pedisse para escolher qual desses três histogramas era o mais provável, de qual seria?- 2
Aluno : O primeiro - o azul. É o mais difundido e é o único onde parece ter alguma chance de ocorrer.- 2
Professor : E o valor de no manuscrito?0,1
Aluno : Hmmm ... essa é uma história diferente. Todos os três histogramas estão bem acima do solo em .0,1
Professor : OK, é justo. Mas suponha que eu tenha lhe dito que o valor estava próximo de , como entre 0 e 0,2 . Isso ajuda você a ler algumas probabilidades desses gráficos?0,1 0 0 0,2
Aluno : Claro, porque eu posso usar áreas. Eu só tenho que estimar as áreas abaixo de cada curva entre e 0,2 . Mas isso parece muito difícil.0 0 0,2
Professor : Você não precisa ir tão longe. Você pode apenas dizer qual área é a maior?
Aluno : Aquele abaixo da curva mais alta, é claro. Todas as três áreas têm a mesma base; portanto, quanto maior a curva, maior a área abaixo dela e da base. Isso significa que o histograma mais alto - o que eu desenhei, com os traços vermelhos - é o mais provável para um deslocamento de . Acho que vejo aonde você está indo com isso, mas estou um pouco preocupado: não preciso procurar todos os histogramas para todas as alternativas, não apenas a uma ou duas mostradas aqui? Como eu poderia fazer isso?0,1
Professor : Você é bom em captar padrões, então me diga: como o aparelho de medição é cada vez mais preciso, o que acontece com o histograma?
Aluno : Ele fica mais estreito - ah, e também tem que ficar mais alto, para que sua área total permaneça a mesma. Isso torna muito difícil comparar os histogramas. As alternativas são todas mais altas do que o nulo à direita em , isso é óbvio. Mas, em outros valores, às vezes as alternativas são mais altas e às vezes são menores! Por exemplo, [apontando para um valor próximo de 3 / 4 ], aqui a minha histograma vermelho é o mais baixo, o histograma amarelo é o mais alto, e o histograma nula original está entre eles. Mas, à direita, o nulo é o mais alto.0 0 3 / 4
Professor : Em geral, comparar histogramas é um negócio complicado. Para nos ajudar, pedi ao computador que fizesse outro gráfico: dividiu cada uma das alturas alternativas do histograma (ou "densidades") pela altura nula do histograma, criando valores conhecidos como "razões de verossimilhança". Como resultado, um valor maior que significa que a alternativa é mais provável, enquanto um valor menor que 1 significa que a alternativa é menos provável. Ele desenhou mais uma alternativa: é mais espalhada que as outras duas, mas ainda menos espalhada que o aparelho original.1 1
Professor (continuação): Você poderia me mostrar onde as alternativas tendem a ser mais prováveis que as nulas?
Aluno (colorindo): Aqui no meio, obviamente. E como esses não são mais histogramas, acho que devemos olhar para as alturas, e não para as áreas, então estou apenas marcando uma faixa de valores no eixo horizontal. Mas como sei quanto do meio deve ser colorido? Onde eu paro de colorir?
Professor : Não existe uma regra firme. Tudo depende de como planejamos usar nossas conclusões e de quão ferozes são os céticos. Mas sentar e pensar sobre o que você tem feito: agora você percebe que os resultados obtidos com razões de probabilidade grandes são evidência para a alternativa e os resultados com razões de probabilidade pequenas são evidência contra a alternativa. O que vou pedir para você fazer é colorir em uma área que, na medida do possível, tenha uma pequena chance de ocorrer sob a hipótese nula e uma chance relativamente grande de ocorrer sob as alternativas. Voltando ao primeiro diagrama que você pintou, bem no começo de nossa conversa, você pintou as duas caudas do nulo porque eram "extremas". Eles ainda fariam um bom trabalho?
Aluno : Acho que não. Mesmo sendo bastante extremos e raros sob a hipótese nula, são praticamente impossíveis para qualquer uma das alternativas. Se minha nova medida fosse, digamos , acho que ficaria do lado do cético e negaria que alguma melhoria tivesse ocorrido, mesmo que 3.0 tenha sido um resultado incomum em qualquer caso. Eu quero mudar essa coloração. Aqui - deixe-me tomar outro giz de cera.3.0 3.0
Professor : O que isso representa?
Aluno : Começamos com você me pedindo para desenhar apenas 10% da área sob o histograma original - o que descreve o nulo. Então agora eu atraí 10% da área onde as alternativas parecem mais prováveis de ocorrer. Eu acho que quando uma nova medida é nessa área, está nos dizendo que devemos acreditar na alternativa.
Mestre : E como o cético deve reagir a isso?
Aluno : Um cético nunca tem que admitir que está errado, não é? Mas acho que a fé dele deve estar um pouco abalada. Afinal, organizamos para que, embora uma medida possa estar dentro da área que acabei de desenhar, ela só tem 10% de chance de estar lá quando o nulo for verdadeiro. E tem uma chance maior de estar lá quando a alternativa é verdadeira. Eu simplesmente não posso te dizer o quanto essa chance é maior, porque dependeria de quanto o cientista melhorasse o aparato. Eu apenas sei que é maior. Portanto, a evidência seria contra o cético.
Professor : Tudo bem. Você se importaria de resumir sua compreensão para que fiquemos perfeitamente claros sobre o que aprendeu?
Aluno : Aprendi que, para comparar hipóteses alternativas a nulas, devemos comparar seus histogramas. Dividimos as densidades das alternativas pela densidade do nulo: foi o que você chamou de "razão de verossimilhança". Para fazer um bom teste, devo escolher um número pequeno, como 10% ou o que for suficiente para abalar um cético. Então, devo encontrar valores em que a taxa de verossimilhança seja a mais alta possível e colori-los até que 10% (ou o que seja) tenha sido colorido.
Professor : E como você usaria essa coloração?
Aluno : Como você me lembrou anteriormente, a coloração deve estar entre as linhas verticais. Valores (no eixo horizontal) que ficam embaixo da coloração são evidências contra a hipótese nula. Outros valores - bem, é difícil dizer o que eles significam sem dar uma olhada mais detalhada em todos os histogramas envolvidos.
Aluno : Isso está na área que eu colori pela última vez, então acho que o cientista provavelmente estava certo e o aparato realmente foi melhorado.
Professor : Uma última coisa. Sua conclusão foi baseada em escolher 10% como critério ou "tamanho" do teste. Muitas pessoas gostam de usar 5%. Alguns preferem 1%. O que você poderia dizer a eles?
Aluno : Obrigado. Ainda não estou confiante de que compreendi tudo isso, mas você me deu muito em que pensar.
Professor : Se você quiser ir além, dê uma olhada no lema Neyman-Pearson . Você provavelmente está pronto para entender isso agora.
Sinopse
fonte
Antes de abordar este tópico, sempre me certifico de que os alunos estejam felizes em mudar entre porcentagens, decimais, probabilidades e frações. Se eles não estiverem completamente satisfeitos com isso, poderão se confundir rapidamente.
Gosto de explicar o teste de hipóteses pela primeira vez (e, portanto, valores de p e estatísticas de teste) através do clássico experimento de chá de Fisher. Eu tenho várias razões para isso:
(i) Acho que trabalhar com um experimento e definir os termos à medida que avançamos faz mais sentido do que apenas definir todos esses termos para começar. (ii) Você não precisa confiar explicitamente nas distribuições de probabilidade, nas áreas abaixo da curva etc. para superar os pontos principais do teste de hipóteses. (iii) Explica essa noção ridícula de "tão ou mais extremada do que as observadas" de uma maneira bastante sensata. (iv) Acho que os alunos gostam de entender a história, as origens e a história do que estão estudando, pois isso torna mais real. do que algumas teorias abstratas. (v) Não importa de que disciplina ou disciplina os alunos venham, eles podem se relacionar com o exemplo do chá (Nota: alguns estudantes internacionais têm dificuldade com essa instituição britânica peculiar de chá com leite).
[Nota: originalmente, peguei essa ideia no maravilhoso artigo de Dennis Lindley "A análise de dados experimentais: a apreciação do chá e do vinho", no qual ele demonstra por que os métodos bayesianos são superiores aos métodos clássicos.]
A história por trás é que Muriel Bristol visita Fisher uma tarde na década de 1920 na Estação Experimental de Rothamsted para uma xícara de chá. Quando Fisher colocou o leite por último, ela reclamou dizendo que também podia dizer se o leite foi derramado primeiro (ou por último) e que ela preferia o primeiro. Para colocar isso à prova, ele projetou seu clássico experimento de chá, onde Muriel recebe um par de xícaras de chá e ela deve identificar qual teve o leite adicionado primeiro. Isso é repetido com seis pares de xícaras de chá. Suas escolhas são Certo (R) ou Errado (W) e seus resultados são: RRRRRW.
Suponha que Muriel esteja realmente adivinhando e não tenha capacidade de discriminar. Isso é chamado de hipótese nula . Segundo Fisher, o objetivo do experimento é desacreditar essa hipótese nula. Se Muriel está adivinhando, ela identificará a xícara de chá corretamente com probabilidade 0,5 em cada turno e, como são independentes, o resultado observado terá 0,56
(a) a hipótese nula (Muriel está supondo) é verdadeira e ocorreu um evento de pequena probabilidade ou,
(b) a hipótese nula é falsa e Muriel possui poderes discriminatórios.
O valor p (ou valor de probabilidade) é a probabilidade de observar esse resultado (RRRRRW), dada a hipótese nula ser verdadeira - é a pequena probabilidade mencionada em (a) acima. Nesse caso, é 0,016. Como eventos com pequenas probabilidades ocorrem apenas raramente (por definição) a situação (b) pode ser uma explicação mais preferível do que ocorreu do que a situação (a). Quando rejeitamos a hipótese nula, estamos de fato aceitando a hipótese oposta, que chamamos de hipótese alternativa. Neste exemplo, Muriel tem poderes discriminatórios é a hipótese alternativa.
Uma consideração importante é o que classificamos como uma probabilidade "pequena"? Qual é o ponto de corte em que estamos dispostos a dizer que um evento é improvável? A referência padrão é de 5% (0,05) e isso é chamado de nível de significância. Quando o valor-p é menor que o nível de significância, rejeitamos a hipótese nula como falsa e aceitamos nossa hipótese alternativa. É comum dizer que um resultado é "significativo" quando o valor-p é menor que o nível de significância, ou seja, quando a probabilidade do que observamos ocorrendo, dada a hipótese nula é verdadeira, é menor que o nosso ponto de corte. É importante deixar claro que o uso de 5% é completamente subjetivo (assim como os outros níveis de significância comuns de 1% e 10%).
Fisher percebeu que isso não funciona; todo resultado possível com um par errado era igualmente sugestivo de poderes discriminatórios. A probabilidade relevante para a situação (a) acima é, portanto, 6 (0,5) ^ 6 = 0,094 (ou 6/64), que agora é não significativa no nível de significância de 5%. Para superar isso, Fisher argumentou que se 1 erro em 6 é considerado evidência de poderes discriminatórios, também não há erros, isto é, resultados que indicam mais fortemente poderes discriminatórios do que o observado devem ser incluídos no cálculo do valor-p. Isso resultou na seguinte emenda ao raciocínio:
(a) a hipótese nula (Muriel está supondo) é verdadeira e a probabilidade de eventos como, ou mais, extremos do que a observada é pequena, ou
(b) a hipótese nula é falsa e Muriel possui poderes discriminatórios.
De volta à nossa experiência com o chá, descobrimos que o valor de p nessa configuração é 7 (0,5) ^ 6 = 0,109, o que ainda não é significativo no limite de 5%.
Em seguida, levo os alunos a trabalhar com alguns outros exemplos, como o lançamento de moedas, para descobrir se uma moeda é ou não justa. Isso detalha os conceitos da hipótese nula / alternativa, valores de p e níveis de significância. Passamos então para o caso de uma variável contínua e introduzimos a noção de estatística de teste. Como já abordamos a distribuição normal, a distribuição normal padrão e a transformação z em profundidade, é apenas uma questão de juntar vários conceitos.
Além de calcular as estatísticas dos testes, os valores de p e tomar uma decisão (significativa / não significativa), faço com que os alunos trabalhem com artigos publicados em um preenchimento do jogo de espaços em branco ausentes.
fonte
Nenhuma quantidade de explicações ou cálculos verbais realmente me ajudou a entender em nível interno quais eram os valores-p, mas ele realmente se focou em mim quando fiz um curso que envolvia simulação. Isso me deu a capacidade de realmente ver dados gerados pela hipótese nula e plotar os meios / etc. de amostras simuladas, observe onde a estatística da minha amostra caiu nessa distribuição.
Eu acho que a principal vantagem disso é que ele permite que os alunos esqueçam a distribuição matemática e estatística dos testes por um minuto e se concentrem nos conceitos em questão. Concedido, é necessário que eu aprender como simular essas coisas, o que vai causar problemas para um conjunto completamente diferente de estudantes. Mas funcionou para mim e usei inúmeras vezes a simulação para ajudar a explicar estatísticas para outras pessoas com grande sucesso (por exemplo, "É assim que seus dados se parecem; é assim que uma distribuição Poisson se parece sobreposta. Tem certeza de que deseja fazer uma regressão de Poisson? ").
Isso não responde exatamente às perguntas que você fez, mas para mim, pelo menos, as tornou triviais.
fonte
Uma boa definição de valor-p é "a probabilidade de observar uma estatística de teste pelo menos tão grande quanto a calculada assumindo que a hipótese nula é verdadeira".
O problema disso é que ele requer um entendimento de "estatística de teste" e "hipótese nula". Mas isso é fácil de entender. Se a hipótese nula for verdadeira, geralmente algo como "parâmetro da população A é igual ao parâmetro da população B" e você calcula estatísticas para estimar esses parâmetros, qual é a probabilidade de ver uma estatística de teste que diz "são elas" diferente"?
Por exemplo, se a moeda é justa, qual é a probabilidade de eu ver 60 cabeças de 100 lançamentos? Isso está testando a hipótese nula: "a moeda é justa" ou "p = 0,5", em que p é a probabilidade das cabeças.
A estatística de teste nesse caso seria o número de cabeças.
Agora, suponho que o que você está chamando de "valor t" seja uma "estatística de teste" genérica, não um valor de uma "distribuição t". Eles não são a mesma coisa, e o termo "valor t" não é (necessariamente) amplamente utilizado e pode ser confuso.
O que você está chamando de "valor t" é provavelmente o que estou chamando de "estatística de teste". Para calcular um valor p (lembre-se, é apenas uma probabilidade), você precisa de uma distribuição e um valor para conectar-se a essa distribuição que retornará uma probabilidade. Depois de fazer isso, a probabilidade de retornar é o seu valor-p. Você pode ver que eles estão relacionados porque, sob a mesma distribuição, diferentes estatísticas de teste retornam valores p diferentes. Estatísticas de teste mais extremas retornarão valores p mais baixos, dando uma indicação maior de que a hipótese nula é falsa.
Eu ignorei a questão dos valores p unilaterais e bilaterais aqui.
fonte
Imagine que você tenha uma bolsa contendo 900 bolinhas pretas e 100 brancas, ou seja, 10% das bolinhas são brancas. Agora imagine que você tira 1 mármore, olha para ele e grava sua cor, tira outro, grava sua cor etc. e faz isso 100 vezes. No final deste processo, você terá um número de bolinhas brancas que, idealmente, esperamos ser 10, ou seja, 10% de 100, mas, na verdade, pode ser 8 ou 13 ou o que seja simplesmente devido à aleatoriedade. Se você repetir esse experimento de retirada de mármore 100, muitas e muitas vezes e depois traçar um histograma do número de bolinhas brancas desenhadas por experimento, verá que terá uma Curva de Bell centrada em 10.
Isso representa sua hipótese de 10%: com qualquer bolsa contendo 1000 bolinhas, das quais 10% são brancas, se você retirar aleatoriamente 100 bolinhas, encontrará 10 bolinhas brancas na seleção, mais ou menos 4. O valor-p tem tudo a ver com esse "mais ou menos 4". Digamos que, referindo-se à Curva de Bell criada anteriormente, você pode determinar que em menos de 5% das vezes você obteria 5 ou menos bolinhas brancas e outro <5% do tempo é responsável por 15 ou mais bolinhas brancas, ou seja,> 90% da Quando sua seleção de 100 mármores contiver entre 6 e 14 bolinhas brancas, inclusive.
Agora, supondo que alguém jogue uma sacola de 1000 bolinhas de gude com um número desconhecido de bolinhas brancas, temos as ferramentas para responder a essas perguntas
i) Existem menos de 100 bolinhas brancas?
ii) Existem mais de 100 bolinhas brancas?
iii) A bolsa contém 100 bolinhas brancas?
Simplesmente retire 100 bolinhas de gude da bolsa e conte quantas amostras são brancas.
a) Se houver 6 a 14 brancos na amostra, você não poderá rejeitar a hipótese de que haja 100 bolinhas brancas na sacola e os valores de p correspondentes de 6 a 14 serão> 0,05.
b) Se houver 5 ou menos brancos na amostra, você pode rejeitar a hipótese de que haja 100 bolinhas brancas na sacola e os valores de p correspondentes para 5 ou menos serão <0,05. Você esperaria que a bolsa contenha <10% de bolinhas brancas.
c) Se houver 15 ou mais brancos na amostra, você pode rejeitar a hipótese de que existem 100 bolinhas brancas na sacola e os valores de p correspondentes para 15 ou mais serão <0,05. Você esperaria que a bolsa contivesse> 10% de bolinhas brancas.
Em resposta ao comentário de Baltimark
Dado o exemplo acima, há aproximadamente: -
4.8% de chance de obter 5 bolas brancas ou menos
1,85% de chance de 4 ou menos
Chance de 0,55% de 3 ou menos
Chance de 0,1% de 2 ou menos
6,25% de chance de 15 ou mais
3.25% de chance de 16 ou mais
Chance de 1,5% de 17 ou mais
0,65% de chance de 18 ou mais
Chance de 0,25% de 19 ou mais
Chance de 0,1% de 20 ou mais
0,05% de chance de 21 ou mais
Esses números foram estimados a partir de uma distribuição empírica gerada por uma rotina simples de Monte Carlo executada em R e os quantis resultantes da distribuição amostral.
Para responder à pergunta original, suponha que você desenhe 5 bolas brancas, há apenas uma chance aproximada de 4,8% de que, se a bolsa de mármore 1000 realmente contiver 10% de bolas brancas, você retiraria apenas 5 brancas em uma amostra de 100. Isso equivale ao valor de p <0,05. Agora você tem que escolher entre
i) Na verdade, existem 10% de bolas brancas na sacola e eu tenho tido "azar" de desenhar tão poucas
ou
ii) Eu desenhei tão poucas bolas brancas que realmente não pode haver 10% de bolas brancas (rejeite a hipótese de 10% de bolas brancas)
fonte
O que o valor-p não diz é a probabilidade de a hipótese nula ser verdadeira. Sob a estrutura convencional de teste de significância (Fisher), primeiro calculamos a probabilidade de observar os dados assumindo que a hipótese nula é verdadeira, esse é o valor p. Parece intuitivamente razoável, então, supor que a hipótese nula é provavelmente falsa se os dados forem suficientemente improváveis de serem observados sob a hipótese nula. Isso é inteiramente razoável. Os estatísticos usam tradicionalmente um limiar e "rejeitam a hipótese nula no nível de significância de 95%" se (1 - p)> 0,95; no entanto, essa é apenas uma convenção que se mostrou razoável na prática - não significa que haja menos de 5% de probabilidade de que a hipótese nula seja falsa (e, portanto, 95% de probabilidade de que a hipótese alternativa seja verdadeira).
Imagem de uma função f () que mapeia o valor-p para a probabilidade de que a hipótese alternativa seja verdadeira. Seria razoável afirmar que essa função está estritamente diminuindo (de modo que quanto mais prováveis as observações sob a hipótese nula, menor a probabilidade da hipótese alternativa) e que ela fornece valores entre 0 e 1 (como uma estimativa de probabilidade). No entanto, isso é tudo o que sabemos sobre f (), portanto, embora exista uma relação entre p e a probabilidade de que a hipótese alternativa seja verdadeira, ela não é calibrada. Isso significa que não podemos usar o valor-p para fazer afirmações quantitativas sobre a plausibilidade das hipóteses nula e alternativa.
Advertência: Não está realmente dentro da estrutura freqüentista falar da probabilidade de que uma hipótese seja verdadeira, pois não é uma variável aleatória - é verdadeira ou não. Então, onde falei sobre a probabilidade da verdade de uma hipótese, mudei implicitamente para uma interpretação bayesiana. É incorreto misturar bayesiano e freqüentista, no entanto, sempre há uma tentação de fazê-lo, pois o que realmente queremos é uma indicação quantitativa da plausibilidade / probabilidade relativa das hipóteses. Mas não é isso que o valor p fornece.
fonte
Nas estatísticas, você nunca pode dizer que algo é absolutamente certo; portanto, os estatísticos usam outra abordagem para avaliar se uma hipótese é verdadeira ou não. Eles tentam rejeitar todas as outras hipóteses que não são suportadas pelos dados.
Para fazer isso, os testes estatísticos têm uma hipótese nula e uma hipótese alternativa. O valor p reportado de um teste estatístico é a probabilidade do resultado, dado que a hipótese nula estava correta. É por isso que queremos pequenos valores de p. Quanto menores, menor a probabilidade de o resultado se a hipótese nula estiver correta. Se o valor p for pequeno o suficiente (ou seja, é muito improvável que o resultado tenha ocorrido se a hipótese nula estiver correta), a hipótese nula será rejeitada.
Dessa maneira, hipóteses nulas podem ser formuladas e subsequentemente rejeitadas. Se a hipótese nula for rejeitada, você aceita a hipótese alternativa como a melhor explicação. Lembre-se, porém, de que a hipótese alternativa nunca é certa, pois a hipótese nula poderia, por acaso, gerar os resultados.
fonte
Sou um pouco difícil de reviver o tópico antigo, mas pulei a partir daqui , por isso posto isso como resposta à pergunta no link.
O valor-p é um termo concreto, não deve haver espaço para mal-entendidos. Mas, de alguma forma, é místico que traduções coloquiais da definição de valor-p levem a muitas interpretações errôneas diferentes. Eu acho que a raiz do problema está no uso das frases "pelo menos tão adversas quanto à hipótese nula" ou "pelo menos tão extremas quanto a dos dados de sua amostra" etc.
Por exemplo, a Wikipedia diz
Significado dep
Eu acho que é melhor deixar o "resultado mais extremo" para algo como ato indireto da fala . Então, minha opinião é
x
Como o valor-p é pequeno, é muito improvável que a amostra
x
tenha sido desenhada no mundo hipotético. Portanto, concluímos que é muito improvável que o mundo hipotético fosse de fato o mundo real.fonte
Acho útil seguir uma sequência na qual você explica os conceitos na seguinte ordem: (1) O escore z e proporções acima e abaixo do escore z, assumindo uma curva normal. (2) A noção de uma distribuição amostral e o escore z para uma dada amostra significam quando o desvio padrão da população é conhecido (e daí o teste z de uma amostra) (3) O teste t de uma amostra e a probabilidade de um média da amostra quando o desvio padrão da população é desconhecido (repleto de histórias sobre a identidade secreta de um certo estatístico industrial e por que o Guinness é bom para estatísticas). (4) O teste t de duas amostras e a distribuição amostral das diferenças médias. A facilidade com que os alunos introdutórios compreendem o teste t tem muito a ver com as bases preparadas para este tópico.
/ * instrutor de alunos aterrorizados desativado * /
fonte
Também descobri que as simulações são úteis no ensino.
pnorm(tstat)
em R.nullMeans
fonte
Num sentido ontológico (o que é verdade?), Isso não significa nada . Qualquer teste de hipótese é baseado em suposições não testadas . Normalmente, isso faz parte do próprio teste, mas também faz parte do modelo que você estiver usando (por exemplo, em um modelo de regressão). Como estamos apenas assumindo isso, não podemos saber se a razão pela qual o valor p está abaixo do nosso limite é porque o nulo é falso. É um non sequitur deduzir incondicionalmente que, devido a um baixo valor de p, devemos rejeitar o nulo. Por exemplo, algo no modelo pode estar errado.
Num sentido epistemológico (o que podemos aprender?), Significa alguma coisa . Você ganha conhecimento condicional se as premissas não testadas forem verdadeiras. Como (pelo menos até agora) não podemos provar todos os edifícios da realidade, todo o nosso conhecimento será necessariamente condicional. Nós nunca chegaremos à "verdade".
fonte
Penso que exemplos envolvendo bolinhas de gude, moedas ou medição de altura podem ser bons para praticar matemática, mas não são bons para criar intuição. Estudantes universitários gostam de questionar a sociedade, certo? Que tal usar um exemplo político?
Digamos que um candidato político tenha realizado uma campanha prometendo que alguma política ajude a economia. Ela foi eleita, aprovou a política e, dois anos depois, a economia está crescendo. Ela está pronta para a reeleição e afirma que sua política é a razão da prosperidade de todos. Você deveria reelegê-la?
O cidadão atencioso deve dizer "bem, é verdade que a economia está indo bem, mas podemos realmente atribuir isso à sua política?" Para realmente responder a isso, devemos considerar a questão "a economia teria se saído bem nos últimos 2 anos sem ela?" Se a resposta for sim (por exemplo, a economia está crescendo devido a algum novo desenvolvimento tecnológico não relacionado), rejeitamos a explicação dos dados pelos políticos.
Ou seja, para examinar uma hipótese (a política ajudou a economia), devemos construir um modelo do mundo em que essa hipótese seja nula (a política nunca foi promulgada). Em seguida, fazemos uma previsão sob esse modelo. Chamamos a probabilidade de observar esses dados nesse mundo alternativo o valor-p . Se o valor-p for muito alto, não estaremos convencidos da hipótese - a política não fez diferença. Se o valor-p for baixo, confiamos na hipótese - a política era essencial.
fonte
Ainda tenho que provar o argumento a seguir, para que ele possa conter erros, mas eu realmente quero dedicar meus dois centavos (Felizmente, atualizarei com uma prova rigorosa em breve). Outra maneira de olhar para op
Especificamente, seX
fonte
O valor de p não é tão misterioso quanto a maioria dos analistas faz parecer. É uma maneira de não precisar calcular o intervalo de confiança para um teste t, mas simplesmente determinar o nível de confiança com o qual a hipótese nula pode ser rejeitada.
ILUSTRAÇÃO. Você executa um teste. O valor-p aparece em 0,1866 para a variável Q e 0,0023 para a variável R. (Estes são expressos em%).
Se você estiver testando em um nível de confiança de 95% para rejeitar a hipo nula;
para Q: 100-18,66 = 81,34%
para R: 100-0,23 = 99,77%.
Em um nível de confiança de 95%, Q fornece 81,34% de confiança para rejeitar. Isso cai abaixo de 95% e é inaceitável. ACEITE NULL.
R fornece 99,77% de confiança para rejeitar nulo. Claramente acima dos 95% desejados. Rejeitamos, assim, o nulo.
Apenas ilustrei a leitura do valor-p através de uma "maneira reversa" de medi-lo até o nível de confiança em que rejeitamos o hipo nulo.
fonte
****** O valor de p no teste de hipótese mede a sensibilidade do teste. Quanto menor o valor de p, maior é a sensibilidade. se o nível de significância for definido em 0,05, o valor p de 0,0001 indica uma alta probabilidade de os resultados do teste estarem corretos ******
fonte