Eu gostaria de classificar os pontos de dados como necessitando de um modelo mais complexo ou não precisando de um modelo mais complexo. Meu pensamento atual é ajustar todos os dados a um modelo linear simples e observar o tamanho dos resíduos para fazer essa classificação. Fiz algumas leituras sobre as contribuições de viés e variância para o erro e percebi que, se eu pudesse calcular o viés diretamente, poderia ser uma medida melhor do que trabalhar com o erro total (residual ou residual padronizado).
É possível estimar o viés diretamente com um modelo linear? Com ou sem dados de teste? A validação cruzada ajudaria aqui?
Caso contrário, pode-se usar um conjunto médio de modelos lineares de inicialização (acho que é chamado de ensacamento) para aproximar o viés?
Respostas:
Geralmente, você não pode decompor erros (resíduos) em componentes de desvio e variação. A razão simples é que você geralmente não conhece a verdadeira função. Lembre-se que e que f ( x ) é a coisa desconhecida você deseja estimar.b i a s ( f^( x ) ) = E[ f^( x ) - f( X ) ] , f( X )
E quanto à inicialização? É possível estimar o viés do estimador por bootstrapping, mas não é sobre modelos de ensacamento, e eu não acredito que há uma maneira de usar o bootstrap para avaliar o viés de f ( x ) , porque bootstrapping ainda se baseia em alguma noção da Verdade e, apesar das origens de seu nome, não pode criar algo do nada.f^( X ) ,
Para esclarecer: a estimativa de bootstrap de polarização no estimador θ é ^ b i um s B = θ * ( ⋅ ) - θ ,θ^
com θ * ( ⋅ ) sendo a média de sua estatística calculada B amostras de bootstrap . Esse processo simula a amostragem de alguma população e o cálculo da sua quantidade de interesse. Isso só funciona se θ poderia em princípio ser calculado diretamente da população. A estimativa do viés de inicialização avalia se a estimativa do plug-in - ou seja, apenas fazendo o mesmo cálculo em uma amostra e não na população - é tendenciosa.θ^∗( ⋅ ) B θ^
Se você deseja apenas usar seus resíduos para avaliar o ajuste do modelo, isso é totalmente possível. Se você, como você diz nos comentários, querer comparar os modelos aninhados e f 2 ( x ) = 3 x 1 + 2 x 2 + x 1 x 2 , você pode fazer ANOVA para verificar se o modelo maior reduz significativamente a soma do erro ao quadrado.f1 1( x ) = 3 x1 1+ 2 x2 f2( x ) = 3 x1 1+ 2 x2+ x1 1x2
fonte
Uma situação em que você pode obter uma estimativa da decomposição é se você replicou pontos (ou seja, para ter mais de uma resposta para várias combinações de preditores).
Isso se limita principalmente a situações nas quais você controla as variáveis independentes (como em experimentos) ou onde todas são discretas (quando não há muitas combinações x e você pode coletar uma amostra grande o suficiente para que as combinações de valor x obter vários pontos).
Os pontos replicados oferecem uma maneira livre de modelo de estimar a média condicional. Nessas situações, existe a possibilidade de decomposição da soma residual dos quadrados em erro puro e falta de ajuste , mas você também tem estimativas diretas (embora necessariamente barulhentas) do viés em cada combinação de valores x para as quais você tem várias respostas.
fonte
No domínio de filtragem de Kalman, um tanto mais complexo, às vezes as pessoas testam os resíduos (medidas observadas menos medidas previstas) para procurar mudanças no modelo ou condições de falha. Em teoria, se o modelo for perfeito e o ruído for gaussiano, os resíduos também deverão ser gaussianos com média zero e também consistentes com uma matriz de covariância prevista. As pessoas podem testar a média diferente de zero com testes sequenciais, como um Teste de Razão de Probabilidade Sequencial (SPRT). Sua situação é diferente porque você tem um lote fixo de dados em vez de um fluxo constante de novos dados. Mas a idéia básica de observar a distribuição amostral dos resíduos ainda pode ser aplicada.
Você indica que o processo que está modelando pode mudar ocasionalmente. Então, para fazer mais com os dados que você possui, você provavelmente precisará identificar outros fatores que causam essa alteração. Considere duas possibilidades: (1) talvez você precise de modelos locais em vez de um modelo global, por exemplo, porque existem não linearidades graves apenas em algumas regiões operacionais ou (2), talvez o processo mude ao longo do tempo.
Se este for um sistema físico e suas amostras não tiverem grandes intervalos de tempo, é possível que essas alterações no processo persistam por períodos significativos. Ou seja, os parâmetros verdadeiros do modelo podem mudar ocasionalmente, persistindo por algum período de tempo. Se os dados tiverem carimbo de data / hora, você poderá observar os resíduos ao longo do tempo. Por exemplo, suponha que você tenha ajustado y = Ax + b usando todos os seus dados, localizando A e b. Depois, volte e teste a sequência residual r [k] = y [k] - Ax [k] - b, onde k é um índice correspondente aos tempos em ordem seqüencial. Procure padrões ao longo do tempo, por exemplo, períodos em que estatísticas resumidas como || r [k] || permanece acima do normal por algum tempo. Os testes seqüenciais seriam os mais sensíveis à detecção de erros de viés sustentado, algo como SPRT ou CUSUM para índices vetoriais individuais.
fonte
A resposta é não , porque viés e variação são atributos dos parâmetros do modelo, e não os dados usados para estimar. Há uma exceção parcial a essa declaração que diz respeito ao viés e variância que variam (ha!) Através do espaço do preditor; mais sobre isso abaixo. Observe que isso não tem absolutamente nada a ver com o conhecimento de alguma função "verdadeira" relacionada aos preditores e variáveis de resposta.
O viés de cada parâmetro pode ser estimado da mesma forma. Embora possamos não ter acesso à função "true", suponhamos que possamos fazer um número arbitrariamente grande de empates da população para calcular , que servirá como proxy para o valor do parâmetro "true" . Assumiremos que essa é uma estimativa imparcial (mínimos quadrados comuns) e que o número de observações utilizadas foi suficientemente grande para que a variação dessa estimativa seja insignificante. Para cada um dos parâmetros , calculamos , em que varia de a . Tomamos a média dessas diferenças como uma estimativa do viés no parâmetro correspondente.P β bestj - β jj1Niterβ^b e s t P β^bestj−β^j j 1 Niter
Existem maneiras correspondentes de relacionar viés e variação aos próprios dados, mas são um pouco mais complicadas. Como você pode ver, o viés e a variação podem ser estimados para modelos lineares, mas você precisará de alguns dados de espera. Um problema mais insidioso é o fato de que, uma vez que você comece a trabalhar com um conjunto de dados fixo, suas análises serão poluídas por sua variação pessoal , já que você já terá começado a vagar pelo jardim de caminhos bifurcados e não há como saber como isso. replicaria fora da amostra (a menos que você tivesse criado um único modelo e executasse essa análise e se comprometesse a deixá-lo sozinho depois disso).
fonte