Sobre a importância da suposição iid na aprendizagem estatística

54

No aprendizado estatístico, implícita ou explicitamente, sempre se assume que o conjunto de treinamento é composto de tuplas de entrada / resposta que são desenhados independentemente da mesma distribuição conjunta comD={X,y}NP ( X , y )(Xi,yi) P(X,y)

p(X,y)=p(y|X)p(X)

e o relacionamento que estamos tentando capturar através de um algoritmo de aprendizado específico. Matematicamente, essa suposição iid escreve:p(y|X)

(Xi,yi)P(X,y),i=1,...,N(Xi,yi) independent of (Xj,yj),ij{1,...,N}

Penso que todos podemos concordar que esta suposição raramente é satisfeita na prática, consulte esta pergunta SE relacionada e os sábios comentários de @Glen_b e @Luca.

Minha pergunta é, portanto:

Onde exatamente a suposição iid se torna crítica na prática?

[Contexto]

Estou perguntando isso porque consigo pensar em muitas situações em que uma suposição tão rigorosa não é necessária para treinar um determinado modelo (por exemplo, métodos de regressão linear), ou pelo menos alguém pode contornar a suposição iid e obter resultados robustos. Na verdade, os resultados geralmente permanecem os mesmos, são as inferências que podemos tirar que mudam (por exemplo, estimadores de HAC consistentes em heterocedasticidade e autocorrelação em regressão linear: a idéia é reutilizar os bons e velhos pesos de regressão do OLS, mas adaptar o comportamento de amostra finita do estimador OLS para explicar a violação dos pressupostos de Gauss-Markov).

Meu palpite é, portanto, que a suposição iid é necessária para que não seja possível treinar um algoritmo de aprendizado específico, mas para garantir que técnicas como a validação cruzada possam realmente ser usadas para inferir uma medida confiável da capacidade do modelo de generalizar bem , o que é a única coisa em que estamos interessados ​​no final do dia em aprendizado estatístico, porque mostra que realmente podemos aprender com os dados. Intuitivamente, eu posso realmente entender que o uso da validação cruzada em dados dependentes pode ser otimista (como ilustrado / explicado neste exemplo interessante ).

Para mim, o iid não tem nada a ver com o treinamento de um modelo específico, mas tudo a ver com a generalização desse modelo . Isso parece concordar com um artigo que encontrei por Huan Xu et al., Veja "Robustez e generalização para amostras markovianas" aqui .

Você concorda com isso?

[Exemplo]

Se isso puder ajudar na discussão, considere o problema de usar o algoritmo LASSO para executar uma seleção inteligente entre os recursos com amostras de treinamento com Podemos assumir ainda que:N ( X i , y i )PN(Xi,yi)X i = [ X I 1 , . . . , X i P ]i=1,...,N

Xi=[Xi1,...,XiP]
  • As entradas são dependentes, levando a uma violação da suposição iid (por exemplo, para cada recurso , observamos uma série temporal do ponto , introduzindo assim a auto-correlação temporal)j=1,. . ,PNXij=1,..,PN
  • As respostas condicionais são independentes.yi|Xi
  • Temos .PN

De que maneira a violação da suposição iid pode representar um problema nesse caso, supondo que planejamos determinar o coeficiente de penalização do LASSO usando uma abordagem de validação cruzada (no conjunto de dados completo) + use uma validação cruzada aninhada para ter uma idéia do erro de generalização dessa estratégia de aprendizado (podemos deixar de lado a discussão sobre os prós / contras inerentes ao LASSO, exceto se for útil).λ

Quantuple
fonte
11
Você pode fornecer uma estrutura de referência que seja do seu interesse, para que a discussão não seja muito ampla sobre todo o método. Estamos falando de regressão linear aqui? Ou estamos falando de estimativa de pontos para parâmetros usando, digamos MLE? Ou estamos falando sobre a estrutura CLT?
Greenparker
2
Se você também está assumindo que você é dependente de , na regressão logística penalizada, uma penaliza a probabilidade de log. Se os dados não forem independentes, você não poderá anotar a probabilidade conjunta de log e, portanto, não poderá concluir o problema de otimização associado. yi
Greenparker
11
Não, estou pensando o contrário - se você pular rapidamente para uma suposição de IID, poderá deixar de incluir atrasos de , falsamente (para fins como imparcialidade, mas também prejudicar o poder preditivo), acreditando que não são necessários. y
Christoph Hanck
3
Não concordo que a suposição de independência seja "comumente violada". As séries temporais são um caso muito especial - mais do que um exemplo típico. A suposição de Iid permite que você simplifique seu modelo e construa um modelo mais parcimonioso, e isso pode ser feito com frequência (por exemplo, seus casos são sorteados aleatoriamente , para que possam ser considerados independentes).
Tim
2
No exemplo, segundo marcador, os não devem ser assumidos condicionalmente iid. Eles podem ser assumidos condicionalmente independentes, mas acredita-se que a distribuição condicional dependa de e, portanto, mude com . X i iyiXii
NRH 23/05

Respostas:

32

A suposição iid sobre os pares , , geralmente é feita em estatística e em aprendizado de máquina. Às vezes, por uma boa razão, às vezes por conveniência e às vezes apenas porque costumamos fazer essa suposição. Para responder satisfatoriamente se a suposição é realmente necessária e quais são as consequências de não fazer essa suposição, eu terminaria facilmente escrevendo um livro (se você acabar fazendo algo assim com facilidade). Aqui tentarei dar uma breve visão geral do que considero os aspectos mais importantes.(Xi,yi)i=1,,N

Uma suposição fundamental

Vamos supor que queremos aprender um modelo de probabilidade de dado , que chamamos de . Não fazemos nenhuma suposição sobre esse modelo como prioritário, mas faremos a suposição mínima de que esse modelo existe de tal forma queyXp(yX)

  • a distribuição condicional de dado é .yiXip(yiXi)

O que vale a pena notar sobre essa suposição é que a distribuição condicional de depende de apenas através de . É isso que torna o modelo útil, por exemplo, para previsão. A suposição é mantida como conseqüência da parte distribuída identicamente sob a suposição iid, mas é mais fraca porque não fazemos suposições sobre as 's.yiiXiXi

A seguir, o foco será principalmente o papel da independência.

Modelagem

Existem duas abordagens principais para aprender um modelo de dado . Uma abordagem é conhecida como modelagem discriminativa e a outra como modelagem generativa .yX

  • Modelagem discriminativa : modelamos diretamente, por exemplo, um modelo de regressão logística, uma rede neural, uma árvore ou uma floresta aleatória. A suposição de modelagem de trabalho normalmente será que os são independentes condicionalmente, dados os , embora as técnicas de estimativa baseadas em subamostragem ou bootstrap façam mais sentido sob a premissa iid ou mais fraca de troca (veja abaixo). Mas geralmente, para modelagem discriminativa, não precisamos fazer suposições distributivas sobre as 's. p(yX)yiXiXi
  • Modelagem generativa : modelamos a distribuição conjunta, , de tipicamente modelando a distribuição condicional e a marginal distribuição . Então usamos a fórmula de Bayes para calcular . A análise discriminante linear e os métodos ingênuos de Bayes são exemplos. A suposição de modelagem de trabalho normalmente será a suposição iid.p(X,y)(X,y)p(Xy)p(y)p(yX)

Para ambas as abordagens de modelagem, a premissa de modelagem de trabalho é usada para derivar ou propor métodos de aprendizagem (ou estimadores). Isso poderia ser maximizando a probabilidade logarítmica (penalizada), minimizando o risco empírico ou usando métodos bayesianos. Mesmo que a suposição de modelagem de trabalho esteja incorreta, o método resultante ainda pode fornecer um ajuste sensato de . p(yX)

Algumas técnicas usadas em conjunto com a modelagem discriminativa, como bagging (agregação de bootstrap), funcionam ajustando muitos modelos aos dados amostrados aleatoriamente no conjunto de dados. Sem a suposição iid (ou permutabilidade), os conjuntos de dados reamostrados não terão uma distribuição conjunta semelhante à do conjunto de dados original. Qualquer estrutura de dependência tornou-se "confusa" pela reamostragem. Eu não pensei profundamente sobre isso, mas não vejo por que isso necessariamente deva quebrar o método como um método para aprender . Pelo menos não para métodos baseados nas premissas de independência de trabalho. Fico feliz em provar que estou errado aqui.p(yX)

Consistência e limites de erro

Uma questão central para todos os métodos de aprendizagem é se eles resultam em modelos próximos de . Existe uma vasta literatura teórica em estatística e aprendizado de máquina que lida com limites de consistência e erro. Um objetivo principal desta literatura é provar que o modelo aprendido está próximo de quando é grande. A consistência é uma garantia qualitativa, enquanto os limites de erro fornecem controle quantitativo (semi-) explícito da proximidade e fornecem taxas de convergência.p(yX)p(yX)N

Todos os resultados teóricos se baseiam em suposições sobre a distribuição conjunta das observações no conjunto de dados. Frequentemente, são feitas as suposições de modelagem de trabalho mencionadas acima (ou seja, independência condicional para modelagem discriminativa e iid para modelagem generativa). Para modelagem discriminativa, os limites de consistência e erro exigirão que o cumpra determinadas condições. Na regressão clássica, uma dessas condições é que para , em que denota a matriz de design com linhasXi1NXTXΣNXXiT. Condições mais fracas podem ser suficientes para consistência. No aprendizado esparso, outra condição é a condição de autovalor restrito, consulte, por exemplo, Sobre as condições usadas para provar os resultados do oráculo para o Lasso . A suposição iid, juntamente com algumas suposições distributivas técnicas, implica que algumas dessas condições suficientes sejam cumpridas com grande probabilidade e, portanto, a suposição iid pode revelar-se uma suposição suficiente, mas não necessária, para obter consistência e limites de erro para modelagem discriminativa.

A suposição de independência de modelagem de trabalho pode estar errada para qualquer uma das abordagens de modelagem. Como regra geral, ainda é possível esperar consistência se os dados vierem de um processo ergódico , e ainda se pode esperar alguns limites de erro se o processo for uma mistura suficientemente rápida . Uma definição matemática precisa desses conceitos nos levaria muito longe da questão principal. É suficiente notar que existem estruturas de dependência além da suposição iid, para a qual se pode provar que os métodos de aprendizado funcionam enquanto tende ao infinito.N

Se tivermos um conhecimento mais detalhado sobre a estrutura de dependência, podemos optar por substituir a suposição de independência de trabalho usada para modelagem por um modelo que captura também a estrutura de dependência. Isso geralmente é feito para séries temporais. Um modelo de trabalho melhor pode resultar em um método mais eficiente.

Avaliação do modelo

Em vez de provar que o método de aprendizagem fornece um modelo próximo de , é de grande valor prático obter uma avaliação (relativa) de "quão bom é um modelo aprendido". Essas pontuações de avaliação são comparáveis ​​para dois ou mais modelos aprendidos, mas não fornecem uma avaliação absoluta de quão próximo um modelo aprendido está de . As estimativas das pontuações da avaliação são tipicamente calculadas empiricamente com base na divisão do conjunto de dados em um conjunto de dados de treinamento e teste ou usando validação cruzada.p(yX)p(yX)

Assim como no empacotamento, uma divisão aleatória do conjunto de dados "atrapalha" qualquer estrutura de dependência. No entanto, para métodos baseados nas premissas de independência de trabalho, as premissas de ergodicidade mais fracas que o iid devem ser suficientes para que as estimativas da avaliação sejam razoáveis, embora os erros padrão nessas estimativas sejam muito difíceis de encontrar.

[ Editar: A dependência entre as variáveis ​​resultará em uma distribuição do modelo aprendido que difere da distribuição sob a premissa iid. A estimativa produzida pela validação cruzada não está obviamente relacionada ao erro de generalização. Se a dependência for forte, provavelmente será uma estimativa ruim.]

Resumo (tl; dr)

Tudo acima está sob a suposição de que existe um modelo de probabilidade condicional fixa, . Portanto, não pode haver tendências ou mudanças repentinas na distribuição condicional não capturadas por .p(yX)X

Ao aprender um modelo de dado , a independência desempenha um papel importante.yX

  • uma suposição útil de modelagem de trabalho que nos permite derivar métodos de aprendizagem
  • uma suposição suficiente, mas não necessária, para provar consistência e fornecer limites de erro
  • uma suposição suficiente, mas não necessária, para o uso de técnicas de divisão aleatória de dados, como ensacamento para aprendizado e validação cruzada para avaliação.

Entender com precisão quais alternativas ao IDI também são suficientes não são triviais e, até certo ponto, um assunto de pesquisa.

NRH
fonte
2
Esta é uma resposta extremamente bem polida. Está no local e me dá referência suficiente para auto-estudo, muito obrigado por isso @NRH Estou emocionado. Vou deixar a recompensa para incentivar outras opiniões sobre a questão, mas já a marquei como a resposta aceita, uma vez que lida com todas as minhas preocupações originais.
Quantuple
10

A suposição de iid afirma é que variáveis ​​aleatórias são independentes e distribuídas de forma idêntica . Você pode definir formalmente o que isso significa, mas informalmente diz que todas as variáveis ​​fornecem o mesmo tipo de informação independentemente uma da outra (você também pode ler sobre a permutabilidade relacionada ).

Das idéias abstratas, vamos pular um momento para um exemplo concreto: na maioria dos casos, seus dados podem ser armazenados em uma matriz, com observações em linhas e variáveis ​​em colunas. Se você supõe que seus dados são iid , significa que você precisa se preocupar apenas com relações entre colunas e não precisa se preocupar com relações entre linhas. Se você se preocupasse com os dois, modelaria a dependência de colunas em colunas e linhas em linhas, ou seja, tudo em tudo. É muito difícil simplificar e construir um modelo estatístico de tudo, dependendo de tudo.

Você percebeu corretamente que a permutabilidade possibilita o uso de métodos como validação cruzada ou inicialização, mas também o teorema do limite central e possibilita simplificações úteis para modelagem (pensando em termos de colunas) )

Como você notou no exemplo do LASSO, a suposição de independência geralmente é suavizada para independência condicional . Mesmo nesse caso, precisamos de "partes" independentes e identicamente distribuídas. Uma suposição semelhante e mais suave é frequentemente feita para modelos de séries temporais, que você mencionou, que assumem estacionariedade (para que haja dependência, mas também haja uma distribuição comum e a série se estabilize com o tempo - novamente partes "iid"). É uma questão de observar várias coisas semelhantes que carregam a mesma idéia sobre algum fenômeno geral. Se temos um número de coisas distintas e dependentes, não podemos fazer generalizações.

O que você deve se lembrar é que isso é apenas uma suposição, não somos rigorosos quanto a isso. Trata-se de ter coisas suficientes para que todas, independentemente, transmitam informações semelhantes sobre algum fenômeno comum. Se as coisas se influenciassem, elas obviamente transmitiriam informações semelhantes para que não fossem tão úteis.

Imagine que você queria aprender sobre as habilidades das crianças na sala de aula, e faça alguns testes. Você poderia usar os resultados dos testes como um indicador das habilidades das crianças apenas se elas as fizessem sozinhas, independentemente uma da outra. Se eles interagissem, você provavelmente mediria as habilidades do garoto mais inteligente ou do mais influente. Isso não significa que você precise assumir que não houve interação ou dependência entre as crianças, mas simplesmente que elas fizeram os testes sozinhas. As crianças também precisam ser "distribuídas de forma idêntica", para que não possam vir de países diferentes, falar idiomas diferentes, estar em idades diferentes, pois dificultará a interpretação dos resultados (talvez eles não tenham entendido as perguntas e respondido aleatoriamente). Se você pode assumir que seus dados são iidentão você pode se concentrar na construção de um modelo geral. Você pode lidar com dados não- iid, mas precisa se preocupar muito mais com "ruído" nos dados.


Além da sua pergunta principal, você também está perguntando sobre a validação cruzada com dados não- iid . Embora você pareça subestimar a importância da suposição de iid , ao mesmo tempo exagerar os problemas de não atender a essa suposição cria validação cruzada. Existem várias maneiras de lidar com esses dados ao usar métodos de reamostragem, como autoinicialização ou validação cruzada. Se você está lidando com séries temporais, não pode assumir que os valores são independentes; portanto, tomar a fração aleatória dos valores seria uma má ideia, pois ignoraria a estrutura correlacionada automaticamente dos dados. Por esse motivo, nas séries temporais, geralmente usamos um passo à frente na validação cruzada, ou seja, você participa da série para prever o próximo valor (não usado para modelagem). Da mesma forma, se seus dados tiverem uma estrutura em cluster , você amostrará clusters inteiros para preservar a natureza dos dados. Assim como com a modelagem, podemos lidar com não iid -sness também ao fazer a validação cruzada, mas temos de nos adaptar nossos métodos à natureza dos dados desde que os métodos desenvolvidos para iid dados não se aplicam em tais casos.

Tim
fonte
Compreendo que você tenha demorado um pouco para responder às minhas preocupações. Enquanto você forneceu uma explicação muito boa do que a suposição iid transmite ... isso me deixa frustrado. (1) Para treinar o LASSO é suficiente (já que permite escrever a estimativa de probabilidade de log penalizada), mas qual é o impacto de não ser um iid sample (que é o caso se os preditores vierem de uma série temporal e, portanto, se correlacionarem automaticamente). (2) Além disso, qual é o resultado de não haver permutabilidade no uso da validação cruzada, por exemplo? (ctd) ... #yi|XiXi
276 Quantuple
(ctd) ... Em outras palavras, embora sua resposta definitivamente ilumine o conceito iid, eu gostaria de saber mais em uma base técnica: quando isso é violado, quais são os efeitos?
Quantuple
@Quantuple então você usa métodos para dados não iid, por exemplo, na amostra de séries temporais blocos inteiros de dados de inicialização etc
Tim
Obrigado novamente. Lembro-me de ter lido em algum lugar sobre essas técnicas. Existe uma fonte que discuta todos os possíveis métodos candidatos? Acabei de encontrar o artigo de C. Bergmeir, R. Hyndman, B. Koo "Uma nota sobre a validade da validação cruzada para avaliar a previsão de séries temporais" que tentarei ler o mais rápido possível.
Quantuple
11
@Quantuple check o clássico "Uma Introdução ao Bootstrap" de Efron e Tibshirani e "Métodos de Bootstrap e Sua Aplicação" de Davison e Hinkley para ler sobre o bootstrap (as mesmas idéias se aplicam à validação cruzada); os manuais de séries temporais descrevem como usar a validação cruzada e o bootstrap para esses dados (isto é, um passo à frente na validação cruzada). Veja também minha edição.
Tim
3

O único lugar em que se pode ignorar o IID com segurança é nos cursos de estatística e de aprendizado de máquina. Você escreveu isso:

pode-se contornar a suposição iid e obter resultados robustos. Na verdade, os resultados geralmente permanecem os mesmos, são as inferências que se pode traçar que mudarão ...

Isso só é verdade se for assumido que a forma funcional dos modelos está basicamente correta. Mas, tal suposição é ainda menos plausível do que o iid.

Há pelo menos duas maneiras pelas quais o iid é extremamente importante em termos de modelagem aplicada:

  1. É uma suposição explícita na maioria das inferência estatística, como você observa na sua pergunta. Na maioria das modelagens do mundo real, em algum momento precisamos usar a inferência para testar a especificação, como durante a seleção de variáveis ​​e a comparação de modelos. Portanto, embora cada ajuste de modelo específico possa ser bom, apesar das violações do iid, você pode escolher o modelo errado de qualquer maneira.

  2. Acho que pensar em violações do iid é uma maneira útil de pensar sobre o mecanismo de geração de dados, o que, por sua vez, me ajuda a pensar na especificação apropriada de um modelo a priori. Dois exemplos:

    • Se os dados estiverem agrupados, isso é uma violação do iid. Um remédio para isso pode ser um modelo de mistura. A inferência que tirarei de um modelo de mistura é geralmente completamente diferente daquela que extraí do OLS.
    • As relações não lineares entre as variáveis ​​dependentes e independentes geralmente aparecem ao inspecionar resíduos como parte da investigação de iid.

É claro que, em praticamente todos os modelos que já construí, falhei em minha busca em reduzir a distribuição dos resíduos para algo próximo a uma distribuição verdadeiramente normal. Mas, no entanto, sempre ganho muito tentando muito, muito, muito difícil fazê-lo.

Tim
fonte
Obrigado pela sua resposta, que é muito perspicaz. Na última frase de (1), você quer dizer que pode ter vários modelos com um ajuste decente aos dados observados, mas quando usar técnicas de seleção de modelo padrão (por exemplo, validação cruzada), não escolherá a melhor ( em termos de generalização), porque a inferência que você faz será tendenciosa devido à violação da IID? (2) Parece-me que o seu falar resíduos IID como parte de uma especificação funcional (por exemplo, resíduos da regressão) o que não invalida o que você escreve (CTD) ...
Quantuple
(ctd) ... mas a pergunta original estava relacionada a exemplos de treinamento não-iid (x, y) e não resíduos não-iid após a estimativa de um modelo. Eu acho que minha pergunta poderia ser: quando você tem exemplos de treinamento não-iid (por exemplo, séries temporais), precisa adicionar uma etapa de pré-processamento para torná-los iid? Caso contrário, e aplique o procedimento padrão para estimar / validar cruzadamente seu modelo, onde está a ressalva?
Quantuple
11
Quando você tem exemplos de treinamento não-iid, a idéia é encontrar um modelo que leve em consideração a natureza não-iid e produza resíduos que são iid. Embora existam alguns problemas nos quais faz sentido pré-processar os dados (por exemplo, transformações de variáveis ​​em regressão linear), muitos problemas de identificação são melhor solucionados encontrando um modelo que lide explicitamente com o problema de identificação. Por exemplo, funções de transferência em séries temporais ou modelos hierárquicos em dados transversais.
Tim
Concordo com o fato de que, como os dados de séries temporais geralmente exibem alguma forma de dependência, é natural ter como objetivo capturá-lo por meio de modelos estatísticos personalizados para isso, por exemplo, funções de transferência. Isso é no que diz respeito ao treinamento. Agora, no que diz respeito à validação cruzada (CV), acho que também preciso de métodos especiais para explicar a não-identidade? Quero dizer, o uso de funções de transferência não mudou o fato de que meus dados não são iid em primeiro lugar. Existe uma lista desses métodos especiais em algum lugar? Qual é o tamanho do viés otimista ao usar o método CV padrão com dados não-iid?
Quantuple
11
Isso dependeria da natureza do método de validação cruzada e do problema. Eu acho que o truque é usar métodos de validação cruzada que não estão implicitamente estruturados em torno do iid. Por exemplo, um canivete faria pouco sentido. Porém, provavelmente dividir a amostra em amostras de estimativa, teste e validação. Mas, essa é realmente uma pergunta diferente da sua original e não é minha área de especialização.
Tim
2

Na minha opinião, existem duas razões bastante mundanas pelas quais a suposição iid é importante no aprendizado estatístico (ou estatística em geral).

  1. Muitos dos bastidores da matemática dependem dessa suposição. Se você quiser provar que seu método de aprendizado realmente funciona para mais de um conjunto de dados, a suposição de iid surgirá eventualmente. É possível evitá-lo, mas a matemática se torna várias vezes mais difícil.

  2. Se você deseja aprender alguma coisa com os dados, precisa assumir que há algo a aprender. O aprendizado é impossível se cada ponto de dados for gerado por um mecanismo diferente. Portanto, é essencial supor que algo unifique determinado conjunto de dados. Se assumirmos que os dados são aleatórios, então isso é naturalmente uma distribuição de probabilidade, porque a distribuição de probabilidade abrange todas as informações sobre a variável aleatória.

    Portanto, se tivermos dados ( pode ser um vetor ou escalar), assumimos que eles provêm da distribuição :x1,...,xnxiFn

    (x1,...,xn)Fn.

    Aqui temos um problema. Precisamos garantir que esteja relacionado a , para diferentes e ; caso contrário, temos o problema inicial, que cada ponto de dados seja gerado de maneira diferente. O segundo problema é que, embora tenhamos pontos de dados, basicamente temos um ponto de dados para estimar , porque é uma distribuição de probabilidade variável. A solução mais simples para esses dois problemas é uma suposição de iid. Com ele onde . Temos uma relação muito clara entre e e temosFnFmnmnFnFnnFn=Fn,xiFFnFmnpontos de dados para estimar um . Existem outras maneiras de resolver esses dois problemas, mas é essencial observar que todo método de aprendizado estatístico precisa solucionar esse problema e acontece que a suposição de que essa é de longe a maneira mais simples de fazer isso.F

mpiktas
fonte
Obrigado pela sua opinião interessante sobre a questão. No que diz respeito ao seu primeiro ponto, é realmente fácil conceber que a suposição iid surgirá em algum lugar do raciocínio, mas você teria uma referência (não que eu não acredite, apenas que gostaria de saber onde exatamente). Seu segundo ponto é cristalino e eu nunca pensei nisso dessa maneira. Mas, para o treinamento, essa distribuição de dados "de entrada" não interessa ao modelador em geral, certo? No exemplo LASSO, estamos apenas interessados no independente condicional de respostas dada entradas (CTD) ...xyx
Quantuple
(ctd) ... mas como você declarou em seu primeiro ponto, a suposição de exemplos de treinamento de iid voltará quando examinaremos as propriedades de generalização do LASSO. O que seria bom (e o que estou procurando desesperadamente, acho) é uma referência / explicação técnica simples que mostra como a violação da suposição iid introduz um viés otimista no estimador de validação cruzada, por exemplo.
Quantuple
A distribuição dos dados de entrada é importante. Se não assumirmos que a distribuição de dados é de alguma forma fixa, não podemos confiar que o treinamento resultará em um modelo robusto, ou seja, que tenha um bom desempenho nos dados de teste. Suponha que a suposição iid falhe, ou melhor, que a suposição de independência não seja violada, mas os dados não precisam ser idênticos distribuídos. Isso significa que o DGP pode ser o seguinte: para e , por . Suponha que e sejam independentes. yi=α+β1x1i+εii=1,...,n/2yi=α+β2x2i+εii=n/2+1,...,nx1ix2i
mpiktas 24/05
Agora escolha um conjunto de treinamento e um conjunto de teste . Independentemente do método de treinamento escolhido, ele terá um desempenho horrível no conjunto de testes, pois os dados são gerados por dois processos diferentes, que não são idênticos. Este é um exemplo artificial, mas nada impede que isso aconteça no exemplo real de aprendizado estatístico. i = n / 2 + 1 , . . . , ni=1,...,n/2i=n/2+1,...,n
mpiktas 24/05
Sim, com certeza ... escrevi rápido demais e resultou em um comentário muito claro. Quando escrevi "a distribuição dos dados de entrada não interessa ao modelador", eu estava realmente pensando no fato de que a parte independente da suposição iid não é relevante ao estimar um modelo (uma vez que não afeta a função de regressão ). No que diz respeito à parte idêntica da suposição iid, é de fato uma suposição necessária para pôr em movimento toda a roda de inferência estatística (evita em suas palavras que "todo ponto de dados é gerado por um mecanismo diferente"). E [ y | X ]xE[y|X]
Quantuple
1

Gostaria de enfatizar que, em algumas circunstâncias, os dados não são e a aprendizagem estatística ainda é possível. É crucial ter um modelo identificável para a distribuição conjunta de todas as observações; se as observações são iid, essa distribuição conjunta é facilmente obtida a partir da distribuição marginal de observações únicas. Mas, em alguns casos, a distribuição conjunta é dada diretamente, sem recorrer a uma distribuição marginal.

Um modelo amplamente utilizado no qual as observações não são líquidas é o modelo misto linear: com , , , , e . A matriz (de design) e são consideradas fixas, é um vetor de parâmetros, é um vetor aleatório e , e

Y=Xα+Zu+ε
YRnXRn×pαRpZRn×quRqεRnXZαuuN(0,τIq)εN(0,σ2In)τσ2 são parâmetros do modelo.

Este modelo é melhor expresso dando a distribuição de : Os parâmetros a serem aprendidos são , , . Um único vetor da dimensão é observado; seus componentes não são iidY N ( X α , τ Z Z + σ 2 I n ) . α τ σ 2 Y nY

YN(Xα,τZZ+σ2In).
ατσ2Yn
Elvis
fonte