Eu li o lema Neyman – Pearson do livro Introdução à teoria das estatísticas de Mood, Graybill e Boes. Mas eu não entendi o lema.
Alguém pode me explicar o lema em palavras simples? O que afirma?
Lema de Neyman-Pearson: Seja uma amostra aleatória de , em que é um dos dois valores conhecidos e , e deixe ser corrigido .
Seja uma constante positiva e seja um subconjunto de que satisfaça: Então o teste \ gama ^ * correspondente à região crítica C ^ * é um teste mais poderoso do tamanho \ alfa de \ mathscr H_0: \ theta = \ theta_0 versus \ mathscr H_1: \ theta = \ theta_1
Expressos em palavras, entendi que os dois critérios especificam
(1) P [rejeitando a hipótese nula | hipótese nula é verdadeira] = nível de significância
(2) rejeita a hipótese nula quando a razão de verossimilhança , alguma constante positiva se cair na região crítica
Então o teste é o teste mais poderoso de uma hipótese simples .
- Por que é apenas para hipóteses simples? Não pode ser uma hipótese composta? Minha explicação em palavras está correta?
Recentemente, escrevi uma entrada em um blog do linkedin afirmando o lema de Neyman Pearson em palavras simples e fornecendo um exemplo. Encontrei o exemplo de abrir os olhos no sentido de fornecer uma intuição clara sobre o lema. Como frequentemente em probabilidade, é baseado em uma função de massa de probabilidade discreta, para que seja fácil entender do que quando se trabalha com PDFs. Além disso, leve em consideração que eu defino a razão de verossimilhança como a probabilidade da hipótese alternativa versus a hipótese nula, ao contrário da sua declaração de lema. A explicação é a mesma, mas em vez de menor do que agora é maior que. Espero que ajude...
Aqueles de vocês que trabalham em análise de dados e passaram por alguns cursos de estatística podem ter conhecido o lema de Neyman-Pearson (NP-lema). A mensagem é simples, a demonstração não muito, mas o que sempre achei difícil foi ter uma sensação de bom senso do que se tratava. Lendo um livro chamado "Erros Comuns em Estatística", de PIGood e JWHardin, cheguei a uma explicação e exemplo que me ajudou a obter esse pressentimento sobre o lema NP que sempre sentira falta.
Em uma linguagem matematicamente não 100% perfeita, o que Neyman-Pearson nos diz é que o teste mais poderoso possível para validar uma dada hipótese dentro de um certo nível de significância é dado por uma região de rejeição feita por todas as observações possíveis provenientes desse teste com uma razão de probabilidade acima de um certo limite ... woahhh! Quem disse que foi fácil!
Mantenha a calma e desconstrua o lema:
Definições suficientes! (embora, se você os observar com cuidado, perceberá que são muito perspicazes!). Vamos ao que Neyman e Pearson nos dizem: se você deseja ter o melhor teste estatístico possível do ponto de vista de seu poder, basta definir a região de rejeição incluindo os resultados dos testes com a maior razão de probabilidade e continuar adicionando mais testes até atingir um determinado valor pelo número de vezes que seu teste rejeitará a hipótese nula quando verdadeira (nível de significância).
Vamos ver um exemplo em que espero que tudo se reúna. O exemplo é baseado no livro mencionado acima. É completamente inventada por mim mesma, portanto não deve ser vista como refletindo qualquer realidade ou opinião pessoal.
Imagine que alguém queira determinar se alguém é a favor de estabelecer cotas de imigração (hipótese nula) ou não (hipótese alternativa) perguntando seus sentimentos em relação à União Europeia.
Imagine que conhecíamos a distribuição de probabilidade real para os dois tipos de pessoas em relação à resposta à nossa pergunta:
Vamos imaginar que estamos dispostos a aceitar um erro falso positivo de 30%, ou seja, 30% das vezes rejeitaremos a hipótese nula e assumiremos que a pessoa entrevistada é contra cotas quando é realmente a favor delas. Como construiríamos o teste?
Segundo Neyman e Pearson, primeiro levaríamos o resultado com a maior razão de verossimilhança. Esta é a resposta de "realmente gosto da UE" com uma proporção de 3. Com esse resultado, se assumirmos que alguém é contra cotas quando disse que "realmente gosta da UE", 10% do tempo atribuiríamos para cotas pessoas contra (significado). No entanto, estaríamos apenas classificando corretamente contra cotistas em 30% das vezes (poder), pois nem todos neste grupo têm a mesma opinião sobre a UE.
Este parece ser um resultado ruim no que diz respeito ao poder. No entanto, o teste não comete muitos erros na classificação incorreta de cotas (significância). Como somos mais flexíveis em relação à significância, vamos procurar o próximo resultado do teste que devemos adicionar ao pacote de respostas que rejeitam a hipótese nula (região de rejeição).
A próxima resposta com a maior razão de verossimilhança é "como a UE". Se usarmos as respostas "realmente gosto" e "gostamos" da UE como resultados de testes que nos permitem rejeitar a hipótese nula de alguém fazer cotas, classificaríamos erroneamente as cotas em 30% das vezes (10% de o "realmente gostei" e 20% do "gostei") e estaríamos classificando corretamente contra cotas 65% das vezes (30% de "gostei" e 35% de "gostei"). No jargão estatístico: nossa significância aumentou de 10% para 30% (ruim!), Enquanto o poder de nosso teste aumentou de 30% para 65% (bom!).
Esta é uma situação que todos os testes estatísticos têm. Não há algo como um almoço grátis, mesmo nas estatísticas! Se você deseja aumentar o poder do seu teste, faça-o à custa de aumentar o nível de significância. Ou, em termos mais simples: você deseja classificar melhor os mocinhos, e isso à custa de ter mais bandidos com boa aparência!
Basicamente, agora estamos prontos! Criamos o teste mais poderoso que pudemos com os dados fornecidos e um nível de significância de 30% usando rótulos "realmente gosto" e "gosto" para determinar se alguém é contra as cotas ... temos certeza?
O que teria acontecido se tivéssemos incluído na segunda etapa após a escolha da resposta "realmente gostar", a resposta "indiferente" em vez de "gostar"? A significância do teste teria sido a mesma de antes em 30%: 10% para as cotas respondem "realmente" como e 20% para as cotas respondem "antipatia". Ambos os testes seriam tão ruins quanto a classificação incorreta para indivíduos da cota. No entanto, o poder pioraria! Com o novo teste, teríamos um poder de 50% em vez dos 65% que tínhamos antes: 30% de "realmente gosta" e 20% de "indiferente". Com o novo teste, seríamos menos precisos na identificação contra indivíduos da cota!
Quem ajudou aqui? Razão de probabilidade Neyman-Pessoa: uma ideia notável! Tomando cada vez a resposta com a maior razão de verossimilhança, garantimos que incluíssemos no novo teste o máximo de potência possível (numerador grande), mantendo o significado sob controle (denominador pequeno)!
fonte
O contexto
(Nesta seção, apenas explicarei o teste de hipóteses, digite um e dois erros, etc., no meu próprio estilo. Se você se sentir confortável com esse material, pule para a próxima seção)
O lema de Neyman-Pearson surge no problema do simples teste de hipóteses . Temos duas distribuições de probabilidade diferentes em um espaço comum : e , denominadas hipóteses nula e alternativa. Com base em uma única observação , temos que adivinhar qual das duas distribuições de probabilidade está em vigor. Um teste é, portanto, uma função que para cada atribui uma suposição de "hipótese nula" ou "hipótese alternativa". Obviamente, um teste pode ser identificado com a região na qual ele retorna "alternativa"; portanto, estamos apenas procurando subconjuntos (eventos) do espaço de probabilidade.Ω P0 0 P1 ω ∈ Ω coω
Normalmente, em aplicações, a hipótese nula corresponde a algum tipo de status quo, enquanto a hipótese alternativa é um fenômeno novo que você está tentando provar ou refutar é real. Por exemplo, você pode estar testando alguém quanto a poderes psíquicos. Você executa o teste padrão com os cartões com linhas onduladas ou não, e faz com que eles adivinhem um certo número de vezes. A hipótese nula é que eles não acertarão mais do que um em cada cinco (já que há cinco cartas), a hipótese alternativa é que eles são psíquicos e podem ficar mais certos.
O que gostaríamos de fazer é minimizar a probabilidade de cometer um erro. Infelizmente, essa é uma noção sem sentido. Existem duas maneiras de cometer um erro. A hipótese nula é verdadeira e você experimenta um na região "alternativa" do seu teste, ou a hipótese alternativa é verdadeira e você experimenta a região "nula". Agora, se você fixar uma região do espaço de probabilidade (um teste), os números eω UMA P0 0( A ) P1( Ac) , as probabilidades de cometer esses dois tipos de erros são completamente bem definidas, mas como você não tem noção prévia de "probabilidade de que a hipótese nula / alternativa seja verdadeira", não é possível obter uma "probabilidade significativa" de qualquer um dos tipos de erro". Portanto, essa é uma situação bastante típica em matemática, na qual queremos o "melhor" de alguma classe de objetos, mas quando você olha de perto, não há "melhor". Na verdade, o que estamos tentando fazer é minimizar e maximizar , que são objetivos claramente opostos.P0 0( A ) P1( A )
Tendo em mente o exemplo do teste de habilidades psíquicas, gosto de me referir ao tipo de erro em que o nulo é verdadeiro, mas você conclui a alternativa tão verdadeira quanto a " ilusão " (você acredita que o psíquico do cara, mas ele não é) e o outro tipo de erro como " esquecimento ".
O Lema
A abordagem do lema de Neyman-Pearson é a seguinte: vamos escolher uma probabilidade máxima de ilusão que estamos dispostos a tolerar e, em seguida, encontrar o teste que tem uma probabilidade mínima de esquecimento e satisfaz esse limite superior. O resultado é que esses testes sempre têm a forma de um teste de razão de verossimilhança:α
Assim, tudo o que precisamos fazer é encontrar a constante tal que .K P0 0( A ) = α
A prova na Wikipedia no momento da redação é uma prova matemática tipicamente oracular que consiste apenas em conjecturar essa forma e depois verificar se ela é realmente ótima. É claro que o verdadeiro mistério é de onde veio essa idéia de determinar a razão de probabilidade, e a resposta é: a taxa de probabilidade é simplesmente a densidade de em relação a .P1 P0 0
Se você aprendeu a probabilidade por meio da abordagem moderna com integrais de Lebesgue e o que não, então sabe que, em condições razoavelmente irrestritas , sempre é possível expressar uma medida de probabilidade como sendo dada por uma função de densidade em relação a outra. Nas condições do lema de Neyman-Pearson, temos duas medidas de probabilidade , , ambas com densidades em relação a alguma medida subjacente, geralmente a medida de contagem em um espaço discreto ou a medida de Lebesgue em . Acontece que, como a quantidade que estamos interessados em controlar é , devemos tomar como nossa medida subjacente e visualizarP0 0 P1 Rn P0 0( A ) P0 0 P1 em termos de como ele se relaciona com , consideramos que é dado por uma função de densidade em relação a .P0 0 P1 P0 0
Compra de terrenos
O coração do lema é, portanto, o seguinte:
Suponha que você esteja comprando terras. Você só pode pagar acres, mas há uma função de utilidade na terra, quantificando, digamos, o potencial para o cultivo e, portanto, você deseja uma região maximizando . A proposição acima diz que sua melhor aposta é ordenar basicamente o terreno do mais útil para o menos útil e comprá-lo da melhor para a pior até atingir a área máxima . Em testes de hipóteses, é , e representa a densidade de com respeito a (que, como já foi dito, é ).α f ∫f α μ P0 f P1 P0 L1/L0
Aqui está uma rápida prova heurística: de uma determinada região de terra , considere uma pequena um metro por um metro quadrado telha, . Se você puder encontrar outro bloco da mesma área em algum lugar fora de , mas de modo que a utilidade de seja maior que a de , então claramente não é ideal, pois pode ser melhorado trocando por . Assim, uma região óptima deve ser "fechada para cima", ou seja, se e , então tem de ser em , caso contrário, poderia fazer melhor trocandoA B B′ A B′ B A B B′ x∈A f(y)>f(x) y A x e . Isto é equivalente a dizer que é simplesmente para alguns .y A f−1([K,+∞)) K
fonte