É possível decompor os resíduos ajustados em viés e variância, depois de ajustar um modelo linear?

9

Eu gostaria de classificar os pontos de dados como necessitando de um modelo mais complexo ou não precisando de um modelo mais complexo. Meu pensamento atual é ajustar todos os dados a um modelo linear simples e observar o tamanho dos resíduos para fazer essa classificação. Fiz algumas leituras sobre as contribuições de viés e variância para o erro e percebi que, se eu pudesse calcular o viés diretamente, poderia ser uma medida melhor do que trabalhar com o erro total (residual ou residual padronizado).

É possível estimar o viés diretamente com um modelo linear? Com ou sem dados de teste? A validação cruzada ajudaria aqui?

Caso contrário, pode-se usar um conjunto médio de modelos lineares de inicialização (acho que é chamado de ensacamento) para aproximar o viés?

kmace
fonte
11
Talvez estes sejam equivalentes (residual vs viés) porque a variação é constante?
kmace
11
Você poderia esclarecer o que você quis dizer com a primeira declaração do seu post? Na medida em que você deseja classificar "pontos de dados" (observações individuais?) Como "precisando de um mais complexo mais ou não precisando de um modelo mais complexo". Não está claro para mim exatamente o que isso significa (embora pareça uma detecção externa ou outro problema do tipo de ajuste), ou como isso se relaciona com as perguntas posteriores sobre a estimativa do viés.
Ryan Simmons
O que quero dizer é que há um subconjunto de minhas amostras que têm uma função de destino diferente . Então, digamos que, para a maioria das amostras, a verdadeira função de destino seja a seguinte: f 1 ( x ) = 3 x 1 + 2 x 2 e, para uma minoria das amostras, a função de destino é: f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2f(x)f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2. Se eu não permitir termos de interação no meu modelo (meu conjunto de hipóteses não os contém), devo ajustar todos os dados e ver se as amostras que apresentam um erro grande provavelmente têm a função de destino f2
kmace
2
Como Ryan já apontou, a questão não está muito clara. O seu comentário aponta na direção da "qualidade do ajuste". Mas é impossível mudar isso. Você parece ter um pré-conceito em mente, o que é enganoso. Você pode calcular muitas coisas se combinar um modelo e alguns dados e determinar os parâmetros do modelo. Mas, como você sempre começa com um conjunto de dados estatisticamente limitado, não há verdade que possa descobrir cavando mais ou com mais pás. Nenhum método aplicado aplica a verdade, mas pode indicar quão errado você pode estar.
querubim

Respostas:

12

Geralmente, você não pode decompor erros (resíduos) em componentes de desvio e variação. A razão simples é que você geralmente não conhece a verdadeira função. Lembre-se que e que f ( x ) é a coisa desconhecida você deseja estimar.bias(f^(x))=E[f^(x)f(x)],f(x)

E quanto à inicialização? É possível estimar o viés do estimador por bootstrapping, mas não é sobre modelos de ensacamento, e eu não acredito que há uma maneira de usar o bootstrap para avaliar o viés de f ( x ) , porque bootstrapping ainda se baseia em alguma noção da Verdade e, apesar das origens de seu nome, não pode criar algo do nada.f^(x),

Para esclarecer: a estimativa de bootstrap de polarização no estimador θ é ^ b i um s B = θ * ( ) - θ ,θ^

bias^B=θ^()θ^,

com θ * ( ) sendo a média de sua estatística calculada B amostras de bootstrap . Esse processo simula a amostragem de alguma população e o cálculo da sua quantidade de interesse. Isso só funciona se θ poderia em princípio ser calculado diretamente da população. A estimativa do viés de inicialização avalia se a estimativa do plug-in - ou seja, apenas fazendo o mesmo cálculo em uma amostra e não na população - é tendenciosa.θ^()B θ^

Se você deseja apenas usar seus resíduos para avaliar o ajuste do modelo, isso é totalmente possível. Se você, como você diz nos comentários, querer comparar os modelos aninhados e f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2 , você pode fazer ANOVA para verificar se o modelo maior reduz significativamente a soma do erro ao quadrado.f1(x)=3x1+2x2f2(x)=3x1+2x2+x1x2

einar
fonte
8

Uma situação em que você pode obter uma estimativa da decomposição é se você replicou pontos (ou seja, para ter mais de uma resposta para várias combinações de preditores).

Isso se limita principalmente a situações nas quais você controla as variáveis ​​independentes (como em experimentos) ou onde todas são discretas (quando não há muitas combinações x e você pode coletar uma amostra grande o suficiente para que as combinações de valor x obter vários pontos).

Os pontos replicados oferecem uma maneira livre de modelo de estimar a média condicional. Nessas situações, existe a possibilidade de decomposição da soma residual dos quadrados em erro puro e falta de ajuste , mas você também tem estimativas diretas (embora necessariamente barulhentas) do viés em cada combinação de valores x para as quais você tem várias respostas.

Glen_b -Reinstate Monica
fonte
Eu não acho que isso vai funcionar. Considere o caso em que você omitiu uma variável explicativa importante do seu modelo. Se essa variável explicativa é ortogonal a todas as outras variáveis ​​explicativas, acredito que seu efeito (ou falta de) não pode ser detectado com essa ou qualquer outra metodologia sugerida em outras respostas.
Cagdas Ozgenc 30/10
2
@Cagdas Não funciona em todas as circunstâncias; ele detecta viés de forma modelo mispecified, preditores não necessariamente ausentes
Glen_b -Reinstate Monica
1

No domínio de filtragem de Kalman, um tanto mais complexo, às vezes as pessoas testam os resíduos (medidas observadas menos medidas previstas) para procurar mudanças no modelo ou condições de falha. Em teoria, se o modelo for perfeito e o ruído for gaussiano, os resíduos também deverão ser gaussianos com média zero e também consistentes com uma matriz de covariância prevista. As pessoas podem testar a média diferente de zero com testes sequenciais, como um Teste de Razão de Probabilidade Sequencial (SPRT). Sua situação é diferente porque você tem um lote fixo de dados em vez de um fluxo constante de novos dados. Mas a idéia básica de observar a distribuição amostral dos resíduos ainda pode ser aplicada.

Você indica que o processo que está modelando pode mudar ocasionalmente. Então, para fazer mais com os dados que você possui, você provavelmente precisará identificar outros fatores que causam essa alteração. Considere duas possibilidades: (1) talvez você precise de modelos locais em vez de um modelo global, por exemplo, porque existem não linearidades graves apenas em algumas regiões operacionais ou (2), talvez o processo mude ao longo do tempo.

Se este for um sistema físico e suas amostras não tiverem grandes intervalos de tempo, é possível que essas alterações no processo persistam por períodos significativos. Ou seja, os parâmetros verdadeiros do modelo podem mudar ocasionalmente, persistindo por algum período de tempo. Se os dados tiverem carimbo de data / hora, você poderá observar os resíduos ao longo do tempo. Por exemplo, suponha que você tenha ajustado y = Ax + b usando todos os seus dados, localizando A e b. Depois, volte e teste a sequência residual r [k] = y [k] - Ax [k] - b, onde k é um índice correspondente aos tempos em ordem seqüencial. Procure padrões ao longo do tempo, por exemplo, períodos em que estatísticas resumidas como || r [k] || permanece acima do normal por algum tempo. Os testes seqüenciais seriam os mais sensíveis à detecção de erros de viés sustentado, algo como SPRT ou CUSUM para índices vetoriais individuais.

gms
fonte
1

A resposta é não , porque viés e variação são atributos dos parâmetros do modelo, e não os dados usados ​​para estimar. Há uma exceção parcial a essa declaração que diz respeito ao viés e variância que variam (ha!) Através do espaço do preditor; mais sobre isso abaixo. Observe que isso não tem absolutamente nada a ver com o conhecimento de alguma função "verdadeira" relacionada aos preditores e variáveis ​​de resposta.

ββ^=(XTX)1XTYXN×Pβ^P×1YN×1NPPreditores deEm seguida, calculamos nossa estimativa de e registramos os valores. Vamos então pegar todo esse processo e repeti-lo vezes, cada vez fazendo atrair independentemente da população. Acumularemos estimativas de sobre as quais podemos calcular a variação de cada elemento no vetor de parâmetros. Observe que a variância dessas estimativas de parâmetro é inversamente proporcional a e proporcional a , assumindo a ortogonalidade dos preditores.β^NiterNNiterβ^NP

O viés de cada parâmetro pode ser estimado da mesma forma. Embora possamos não ter acesso à função "true", suponhamos que possamos fazer um número arbitrariamente grande de empates da população para calcular , que servirá como proxy para o valor do parâmetro "true" . Assumiremos que essa é uma estimativa imparcial (mínimos quadrados comuns) e que o número de observações utilizadas foi suficientemente grande para que a variação dessa estimativa seja insignificante. Para cada um dos parâmetros , calculamos , em que varia de a . Tomamos a média dessas diferenças como uma estimativa do viés no parâmetro correspondente.P β bestj - β jj1Niterβ^bestPβ^bestjβ^jj1Niter

Existem maneiras correspondentes de relacionar viés e variação aos próprios dados, mas são um pouco mais complicadas. Como você pode ver, o viés e a variação podem ser estimados para modelos lineares, mas você precisará de alguns dados de espera. Um problema mais insidioso é o fato de que, uma vez que você comece a trabalhar com um conjunto de dados fixo, suas análises serão poluídas por sua variação pessoal , já que você já terá começado a vagar pelo jardim de caminhos bifurcados e não há como saber como isso. replicaria fora da amostra (a menos que você tivesse criado um único modelo e executasse essa análise e se comprometesse a deixá-lo sozinho depois disso).

YY^YY^Y^=Xβ^β^ YX

Josh
fonte