Estou tentando entender melhor a significância estatística, os tamanhos dos efeitos e similares.
Tenho uma percepção (talvez errada) de que mesmo regressores irrelevantes geralmente se tornam estatisticamente significativos em grandes amostras . Por irrelevante, quero dizer que não há explicação no assunto por que o regressor deve estar relacionado à variável dependente. Portanto, a irrelevância neste post é um conceito puro de assunto e não estatístico.
Eu sei que um regressor será estatisticamente significativo, dada uma amostra suficientemente grande, a menos que o efeito populacional seja exatamente zero (como discutido aqui ). Portanto, um regressor irrelevante que parece estatisticamente significativo em uma amostra grande tem um tamanho de efeito diferente de zero na população.
Questões:
- Como é que um regressor irrelevante é estatisticamente significativo?
- Devo procurar uma explicação do assunto (ou seja, tentar negar a irrelevância) ou isso é um fenômeno estatístico?
Esta é uma continuação de um post em que eu estava tentando esclarecer como curar esse efeito. Enquanto isso, aqui estou perguntando por que isso acontece em primeiro lugar.
fonte
Respostas:
Questões:
Eu acho que é útil pensar no que acontece quando o tamanho da sua amostra se aproxima da própria população. O teste de significância visa fornecer uma idéia da inexistência de um efeito na população. Essa é a razão pela qual, ao trabalhar com dados do censo (que pesquisa a população), o teste de significância não faz sentido (porque, para o que você está tentando generalizar?).
Com isso em mente, o que significa "efeito na população"? Significa simplesmente qualquer relação entre variáveis na população, independentemente de quão pequena (seja uma diferença de 1 ponto ou 1 pessoa), mesmo que essa relação seja devida ao acaso e à aleatoriedade no universo.
Assim, à medida que sua amostra se aproxima do tamanho da população, os testes de significância se tornam cada vez menos significativos, pois qualquer diferença será "estatisticamente significativa". O que você mais se interessaria então é o tamanho do efeito - que é análogo a "praticamente significativo".
É um fenômeno - você deve observar os tamanhos dos efeitos.
fonte
Mesmo que o tamanho da amostra não se aproxime da sua população, efeitos minúsculos se tornam significativos em amostras grandes. Isso é consequência do significado da estatística:
Se sua pergunta é sobre todas as pessoas na Terra, se você coletar uma amostra de 1.000.000 (não é quase 7.000.000.000), até efeitos muito pequenos serão significativos, porque é muito improvável encontrar essas estatísticas de teste em grandes amostras quando o nulo for verdadeiro .
Existem muitos problemas com testes de significância, discutidos em muitos lugares. Este é um deles. A "cura" é observar os tamanhos dos efeitos e os intervalos de confiança.
fonte
Peguei emprestado algumas dicas do @QxV para fornecer uma explicação da presença de um efeito populacional, mesmo que o conhecimento do assunto não sugira esse efeito.
Suponha que exista um processo de geração de população (PGP) que gere populações com características e . A fórmula PGP é tal que e são independentes até um termo de erro aleatório. Precisamente devido a este termo de erro aleatório, qualquer realização finita e tem probabilidade zero de não correlação exata, ou seja, . Nesse caso, com probabilidade 1, há um efeito populacional. É assim que os efeitos surgem na população.x y x y r e a l i z e d x r e a l i z e d P ( y r e a l i z e d ⊥ x r e a l i z e d ) = 0y x y x yrealized xrealized P(yrealized⊥xrealized)=0
Uma vez que exista um efeito populacional, é uma questão de tamanho da amostra quando iremos detectá-lo na amostra e quando ele se tornará estatisticamente significativo.
fonte
Além das excelentes respostas já postadas, tentarei de outro ponto de vista. Todos os modelos são aproximações, em certo sentido ... Veja um modelo de regressão e alguma variável irrelevante é significativa. O que pode explicar isso?
Talvez não seja irrelevante que o consenso científico atual sobre esse assunto esteja errado . Além disso:
Pode ser um substituto ou substituto para alguma variável omitida que seja relevante e que esteja correlacionada com a variável irrelevante.
Alguma variável relevante, incluída linearmente no modelo, pode estar agindo de forma não linear e sua variável irrelevante pode ser um substituto para essa parte da variável relevante.
Alguma interação entre duas variáveis relevantes é importante, mas não incluída no modelo. Sua variável irrelevante pode ser um substituto para essa interação omitida.
A variável irrelevante poderia ser altamente correlacionada com alguma variável importante, levando a coeficientes correlacionados negativamente. Isso pode ser importante, especialmente se houver erros de medição nessas variáveis.
Pode haver algumas observações com alavancagem muito alta, levando a estimativas estranhas.
Certamente outros ... um ponto importante é que um modelo de regressão linear pode ser uma aproximação muito boa com uma amostra pequena, apenas efeitos grandes serão significativos. Porém, uma amostra maior levará a uma menor variação, mas não poderá reduzir o viés devido a aproximações . Portanto, com amostras maiores, essas inadequações do modelo se tornam manifestas e acabarão dominando a variação.
fonte
Não. Os regressores irrelevantes não se tornam estatisticamente significativos à medida que o tamanho da amostra aumenta. Tente o seguinte código em R.
y <- rnorm (10000000)
x <- rnorm (10000000)
resumo (lm (y ~ x))
fonte