A semelhança é mais do que superficial.
A "troca de viés e variância" pode ser interpretada como o Teorema de Pitágoras aplicado a dois vetores euclidianos perpendiculares: o comprimento de um é o desvio padrão e o comprimento do outro é o viés. O comprimento da hipotenusa é o erro médio quadrático da raiz.
Uma relação fundamental
Como ponto de partida, considere este cálculo revelador, válido para qualquer variável aleatória com um segundo momento finito e qualquer número real . Como o segundo momento é finito, tem uma média finita para a qual , de ondea X μ = E ( X ) E ( X - μ ) = 0XaXμ=E(X)E(X−μ)=0
E((X−a)2)=E((X−μ+μ−a)2)=E((X−μ)2)+2E(X−μ)(μ−a)+(μ−a)2=Var(X)+(μ−a)2.(1)
Isto mostra como o desvio quadrático médio entre e qualquer valor de "linha de base" varia com : é uma função quadrática de com um mínimo no , onde o desvio quadrático médio é a variância de .um um um μ XXaaaμX
A conexão com estimadores e preconceitos
Qualquer estimador é uma variável aleatória porque (por definição) é uma função (mensurável) de variáveis aleatórias. Deixando que ele desempenhe o papel de no precedente, e de deixar a estimativa (a coisa se supõe que a estimativa é estimada) seja , temos X θ θθ^Xθ^θ
MSE(θ^)=E((θ^−θ)2)=Var(θ^)+(E(θ^)−θ)2.
Voltemos a agora que vimos como a afirmação sobre viés + variância para um estimador é literalmente um caso de . A questão busca "analogias matemáticas com objetos matemáticos". Podemos fazer mais do que isso, mostrando que variáveis aleatórias quadráticas integráveis podem naturalmente ser transformadas em um espaço euclidiano.(1)(1)
Formação matemática
Em um sentido muito geral, uma variável aleatória é uma função de valor real (mensurável) em um espaço de probabilidade . O conjunto de funções que são quadradas integráveis, que geralmente é escrito (com a estrutura de probabilidade fornecida), quase é um espaço de Hilbert. Para transformá-lo em um, precisamos confundir quaisquer duas variáveis aleatórias e que realmente não diferem em termos de integração: ou seja, dizemos que e são equivalentes sempre que(Ω,S,P)L2(Ω)XYXY
E(|X−Y|2)=∫Ω|X(ω)−Y(ω)|2dP(ω)=0.
É fácil verificar que esta é uma verdadeira relação de equivalência: o mais importante, quando é equivalente a e é equivalente a , então, necessariamente, será equivalente a . Podemos, portanto, dividir todas as variáveis aleatórias integráveis em quadrados em classes de equivalência. Essas classes formam o conjunto . Além disso, herda a estrutura de espaço vetorial de definida pela adição de valores por pontos e multiplicação escalar por pontos. Nesse espaço vetorial, a funçãoXYYZXZL2(Ω)L2L2
X→(∫Ω|X(ω)|2dP(ω))1/2=E(|X|2)−−−−−−√
é uma norma , geralmente escrita . Essa norma transforma em um espaço de Hilbert. Pense em um espaço de Hilbert como um "espaço euclidiano de dimensão infinita". Qualquer subespaço de dimensão finita herda a norma de e , com essa norma, é um espaço euclidiano: podemos fazer nele geometria euclidiana.||X||2L2(Ω)HV⊂HHV
Finalmente, precisamos de um fato que seja especial para os espaços de probabilidade (em vez dos espaços de medida geral): porque é uma probabilidade, é limitado (por ), de onde as funções constantes (para qualquer número real fixo ) são variáveis aleatórias integráveis ao quadrado com normas finitas.P1ω→aa
Uma interpretação geométrica
Considere qualquer variável aleatória integrável ao quadrado , considerada um representante de sua classe de equivalência em . Ele tem um significativo que (como se pode verificar) depende apenas da classe de equivalência de . Seja a classe da variável aleatória constante.XL2(Ω)μ=E(X)X1:ω→1
X e geram um subespaço euclidiano cuja dimensão é no máximo . Nesse subespaço, é o comprimento ao quadrado de e é o comprimento ao quadrado da variável aleatória constante . É fundamental que seja perpendicular a . (Uma definição de é que é o número único para o qual esse é o caso.) A relação pode ser escrita1V⊂L2(Ω)2||X||22=E(X2)X||a1||22=a2ω→aX−μ11μ(1)
||X−a1||22=||X−μ1||22+||(a−μ)1||22.
Na verdade, é precisamente o Teorema de Pitágoras, essencialmente da mesma forma conhecida há 2500 anos. O objeto é a hipotenusa de um triângulo retângulo com pernas e .
X−a1=(X−μ1)−(a−μ)1
X−μ1(a−μ)1
Se você quiser analogias matemáticas, poderá usar qualquer coisa que possa ser expressa em termos da hipotenusa de um triângulo retângulo em um espaço euclidiano. A hipotenusa representará o "erro" e as pernas representarão o viés e os desvios da média.
Essa é uma maneira de pensar visualmente sobre a precisão e o desvio da variação. Suponha que você esteja olhando para um alvo e faça muitos disparos que estão todos espalhados perto do centro do alvo, de forma que não haja viés. Então a precisão é determinada unicamente pela variação e quando a variação é pequena, o atirador é preciso.
Agora vamos considerar um caso em que há grande precisão, mas grande viés. Nesse caso, os disparos estão espalhados em torno de um ponto distante do centro. Algo está atrapalhando o ponto de mira, mas em torno desse ponto de mira todo tiro está próximo desse novo ponto de mira. O atirador é preciso, mas muito impreciso por causa do preconceito.
Existem outras situações em que as fotos são precisas devido a pequenos desvios e alta precisão. O que queremos é que não haja viés e pequena variação ou pequena variação com pequeno viés. Em alguns problemas estatísticos, você não pode ter os dois. Portanto, o MSE se torna a medida de precisão que você deseja usar que diminui o desvio do desvio de variância e a minimização do MSE deve ser o objetivo.
fonte