O que intuitivamente é "preconceito"?

21

Estou lutando para entender o conceito de viés no contexto da análise de regressão linear.

  • Qual é a definição matemática de viés?

  • O que exatamente é tendencioso e por que / como?

  • Exemplo ilustrativo?

Fabian
fonte

Respostas:

28

Viés é a diferença entre o valor esperado de um estimador e o valor real sendo estimado. Por exemplo, a média da amostra para uma amostra aleatória simples (SRS) é um estimador imparcial da média da população, porque se você tomar todas as SRS possíveis, encontre seus meios e a média desses meios, obterá a média da população (por populações, isso é apenas álgebra para mostrar isso). Mas se usarmos um mecanismo de amostragem que, de alguma forma, está relacionado ao valor, a média pode se tornar tendenciosa, pense em uma amostra de discagem de dígitos aleatórios fazendo uma pergunta sobre renda.

Também existem alguns estimadores que são naturalmente tendenciosos. A média aparada será enviesada para uma população / distribuição distorcida. A variação padrão é isenta de SRS se a média populacional for usada com o denominador ou a média amostral for usada com o denominador . n - 1nn1

Aqui está um exemplo simples usando R, geramos um monte de amostras a partir de um normal com média 0 e desvio padrão 1 e depois calculamos a média média, variância e desvio padrão das amostras. Observe como as médias e variâncias estão próximas dos valores reais (erro de amostragem significa que eles não serão exatos); compare agora a média sd; é um estimador enviesado (embora não enviesado imensamente).

> tmp.data <- matrix( rnorm(10*1000000), ncol=10 )
> mean( apply(tmp.data, 1, mean) )
[1] 0.0001561002
> mean( apply(tmp.data, 1, var) )
[1] 1.000109
> mean( apply(tmp.data, 1, sd) )
[1] 0.9727121

Na regressão, podemos obter estimadores tendenciosos de declives fazendo regressão passo a passo. É mais provável que uma variável seja mantida em uma regressão escalonada se a inclinação estimada estiver mais longe de 0 e mais provável que caia se estiver mais próxima de 0; portanto, é uma amostragem tendenciosa e as inclinações no modelo final tendem a ser mais de 0 que a inclinação verdadeira. Técnicas como o viés de regressão do laço e da crista inclinam-se para 0 para combater o viés de seleção para longe de 0.

Greg Snow
fonte
SRS?  
cardeal
@cardinal Amostra aleatória simples.
whuber
@ Whuber: Uau. Embora a abreviação faça sentido, não me lembro de tê-la encontrado em ambientes mais formais. Existem subcampos específicos ou áreas aplicadas onde esse é um inicialismo "padrão"?
cardeal
A edição de (+1) @ whuber foi útil para esclarecer esta resposta.
cardeal
7

Viés significa que o valor esperado do estimador não é igual ao parâmetro da população.

Intuitivamente em uma análise de regressão, isso significaria que a estimativa de um dos parâmetros é muito alta ou muito baixa. No entanto, as estimativas de regressão de mínimos quadrados ordinários são AZUIS, o que significa os melhores estimadores não imparciais lineares. Em outras formas de regressão, as estimativas de parâmetros podem ser tendenciosas. Essa pode ser uma boa ideia, porque geralmente há uma troca entre preconceito e variação. Por exemplo, às vezes, a regressão de crista é usada para reduzir a variação das estimativas quando há colinearidade.

Um exemplo simples pode ilustrar isso melhor, embora não no contexto de regressão. Suponha que você pesa 150 libras (verificado em uma balança que tem você em uma cesta e uma pilha de pesos na outra cesta). Agora, você tem duas balanças de banheiro. Você se pesa 5 vezes em cada um.

A escala 1 fornece pesos de 152, 151, 151,5, 150,5 e 152.

A escala 2 fornece pesos de 145, 155, 154, 146 e 150.

A escala 1 é tendenciosa, mas apresenta menor variação; a média dos pesos não é o seu peso real. A escala 2 é imparcial (a média é 150), mas tem uma variação muito maior.

Qual escala é "melhor"? Depende do que você deseja que a balança faça.

Peter Flom - Restabelece Monica
fonte
1
Embora a definição de viés esteja correta, receio que os exemplos a confundam com imprecisão, o que é algo completamente diferente! A polarização é uma propriedade de um procedimento estatístico (um estimador), enquanto a precisão é uma propriedade de um processo de medição . (-1)
whuber
1
@ whuber: Sim, eu concordo com isso. E ainda acho que, mesmo assim, é necessário deixar clara a diferença entre expectativa matemática e média amostral, pois elas se relacionam com o viés.
cardeal
1
Não, eu não estava tentando dizer nada sobre "imprecisão" (que é muito difícil de definir), mas sobre "variação". Uma escala é imparcial, a outra escala tem baixa variação. Eu não usei a palavra "preciso" ou "precisão". Uma balança que tende a estimar seu peso muito alto (ou muito baixo) é tendenciosa.
Peter Flom - Restabelece Monica
1
Mas esse sentimento de "preconceito" é apenas sinônimo de imprecisão; não é o mesmo que a definição que você deu na primeira linha. Além disso, como indica @cardinal, o exemplo também confunde uma expectativa com a média de uma amostra específica.
whuber
3
Eu concordo com @whuber aqui. No sentido (própria) de viés que o OP é perguntando sobre, é não a escala que é tendenciosa ou imparcial, mas sim o que quer estimar do seu peso que você derivar de suas medidas!
cardeal
0

Na análise de regressão linear, o viés se refere ao erro introduzido pela aproximação de um problema da vida real, que pode ser complicado, por um modelo muito mais simples. Em termos simples, você assume um modelo linear simples como y * = (a *) x + b * onde, na vida real, o problema de negócios pode ser y = ax ^ 3 + bx ^ 2 + c.

Pode-se dizer que o teste esperado MSE (erro médio quadrático) de um problema de regressão pode ser decomposto como abaixo. E (y0 - f * (x0)) ^ 2 = Var (f * (x0)) + [Viés (f * (x0))] ^ 2 + Var (e)

f * -> forma funcional assumida para o modelo de regressão linear y0 -> valor da resposta original registrado nos dados do teste x0 -> valor do indicador original registrado nos dados do teste e -> erro irredutível Portanto, o objetivo é selecionar o melhor método para chegar a um modelo que alcança baixa variação e baixo viés.

Nota: Uma Introdução à Aprendizagem Estatística de Trevor Hastie e Robert Tibshirani tem boas idéias sobre este tópico

ganga
fonte
3
Isso geralmente é referido por algo como "erro de especificação incorreta do modelo" para não confundi-lo com a definição padrão de viés dada na resposta aceita. Caso contrário, seria impossível entender a afirmação (correta) de que o OLS é um estimador imparcial dos coeficientes dos regressores.
whuber