No aprendizado estatístico, implícita ou explicitamente, sempre se assume que o conjunto de treinamento é composto de tuplas de entrada / resposta que são desenhados independentemente da mesma distribuição conjunta comP ( X , y )
e o relacionamento que estamos tentando capturar através de um algoritmo de aprendizado específico. Matematicamente, essa suposição iid escreve:
Penso que todos podemos concordar que esta suposição raramente é satisfeita na prática, consulte esta pergunta SE relacionada e os sábios comentários de @Glen_b e @Luca.
Minha pergunta é, portanto:
Onde exatamente a suposição iid se torna crítica na prática?
[Contexto]
Estou perguntando isso porque consigo pensar em muitas situações em que uma suposição tão rigorosa não é necessária para treinar um determinado modelo (por exemplo, métodos de regressão linear), ou pelo menos alguém pode contornar a suposição iid e obter resultados robustos. Na verdade, os resultados geralmente permanecem os mesmos, são as inferências que podemos tirar que mudam (por exemplo, estimadores de HAC consistentes em heterocedasticidade e autocorrelação em regressão linear: a idéia é reutilizar os bons e velhos pesos de regressão do OLS, mas adaptar o comportamento de amostra finita do estimador OLS para explicar a violação dos pressupostos de Gauss-Markov).
Meu palpite é, portanto, que a suposição iid é necessária para que não seja possível treinar um algoritmo de aprendizado específico, mas para garantir que técnicas como a validação cruzada possam realmente ser usadas para inferir uma medida confiável da capacidade do modelo de generalizar bem , o que é a única coisa em que estamos interessados no final do dia em aprendizado estatístico, porque mostra que realmente podemos aprender com os dados. Intuitivamente, eu posso realmente entender que o uso da validação cruzada em dados dependentes pode ser otimista (como ilustrado / explicado neste exemplo interessante ).
Para mim, o iid não tem nada a ver com o treinamento de um modelo específico, mas tudo a ver com a generalização desse modelo . Isso parece concordar com um artigo que encontrei por Huan Xu et al., Veja "Robustez e generalização para amostras markovianas" aqui .
Você concorda com isso?
[Exemplo]
Se isso puder ajudar na discussão, considere o problema de usar o algoritmo LASSO para executar uma seleção inteligente entre os recursos com amostras de treinamento com Podemos assumir ainda que:N ( X i , y i )X i = [ X I 1 , . . . , X i P ]
- As entradas são dependentes, levando a uma violação da suposição iid (por exemplo, para cada recurso , observamos uma série temporal do ponto , introduzindo assim a auto-correlação temporal)j=1,. . ,PN
- As respostas condicionais são independentes.
- Temos .
De que maneira a violação da suposição iid pode representar um problema nesse caso, supondo que planejamos determinar o coeficiente de penalização do LASSO usando uma abordagem de validação cruzada (no conjunto de dados completo) + use uma validação cruzada aninhada para ter uma idéia do erro de generalização dessa estratégia de aprendizado (podemos deixar de lado a discussão sobre os prós / contras inerentes ao LASSO, exceto se for útil).
fonte
Respostas:
A suposição iid sobre os pares , , geralmente é feita em estatística e em aprendizado de máquina. Às vezes, por uma boa razão, às vezes por conveniência e às vezes apenas porque costumamos fazer essa suposição. Para responder satisfatoriamente se a suposição é realmente necessária e quais são as consequências de não fazer essa suposição, eu terminaria facilmente escrevendo um livro (se você acabar fazendo algo assim com facilidade). Aqui tentarei dar uma breve visão geral do que considero os aspectos mais importantes.(Xi,yi) i=1,…,N
Uma suposição fundamental
Vamos supor que queremos aprender um modelo de probabilidade de dado , que chamamos de . Não fazemos nenhuma suposição sobre esse modelo como prioritário, mas faremos a suposição mínima de que esse modelo existe de tal forma quey X p(y∣X)
O que vale a pena notar sobre essa suposição é que a distribuição condicional de depende de apenas através de . É isso que torna o modelo útil, por exemplo, para previsão. A suposição é mantida como conseqüência da parte distribuída identicamente sob a suposição iid, mas é mais fraca porque não fazemos suposições sobre as 's.yi i Xi Xi
A seguir, o foco será principalmente o papel da independência.
Modelagem
Existem duas abordagens principais para aprender um modelo de dado . Uma abordagem é conhecida como modelagem discriminativa e a outra como modelagem generativa .y X
Para ambas as abordagens de modelagem, a premissa de modelagem de trabalho é usada para derivar ou propor métodos de aprendizagem (ou estimadores). Isso poderia ser maximizando a probabilidade logarítmica (penalizada), minimizando o risco empírico ou usando métodos bayesianos. Mesmo que a suposição de modelagem de trabalho esteja incorreta, o método resultante ainda pode fornecer um ajuste sensato de .p(y∣X)
Algumas técnicas usadas em conjunto com a modelagem discriminativa, como bagging (agregação de bootstrap), funcionam ajustando muitos modelos aos dados amostrados aleatoriamente no conjunto de dados. Sem a suposição iid (ou permutabilidade), os conjuntos de dados reamostrados não terão uma distribuição conjunta semelhante à do conjunto de dados original. Qualquer estrutura de dependência tornou-se "confusa" pela reamostragem. Eu não pensei profundamente sobre isso, mas não vejo por que isso necessariamente deva quebrar o método como um método para aprender . Pelo menos não para métodos baseados nas premissas de independência de trabalho. Fico feliz em provar que estou errado aqui.p(y∣X)
Consistência e limites de erro
Uma questão central para todos os métodos de aprendizagem é se eles resultam em modelos próximos de . Existe uma vasta literatura teórica em estatística e aprendizado de máquina que lida com limites de consistência e erro. Um objetivo principal desta literatura é provar que o modelo aprendido está próximo de quando é grande. A consistência é uma garantia qualitativa, enquanto os limites de erro fornecem controle quantitativo (semi-) explícito da proximidade e fornecem taxas de convergência.p(y∣X) p(y∣X) N
Todos os resultados teóricos se baseiam em suposições sobre a distribuição conjunta das observações no conjunto de dados. Frequentemente, são feitas as suposições de modelagem de trabalho mencionadas acima (ou seja, independência condicional para modelagem discriminativa e iid para modelagem generativa). Para modelagem discriminativa, os limites de consistência e erro exigirão que o cumpra determinadas condições. Na regressão clássica, uma dessas condições é que para , em que denota a matriz de design com linhasXi 1NXTX→Σ N→∞ X XTi . Condições mais fracas podem ser suficientes para consistência. No aprendizado esparso, outra condição é a condição de autovalor restrito, consulte, por exemplo, Sobre as condições usadas para provar os resultados do oráculo para o Lasso . A suposição iid, juntamente com algumas suposições distributivas técnicas, implica que algumas dessas condições suficientes sejam cumpridas com grande probabilidade e, portanto, a suposição iid pode revelar-se uma suposição suficiente, mas não necessária, para obter consistência e limites de erro para modelagem discriminativa.
A suposição de independência de modelagem de trabalho pode estar errada para qualquer uma das abordagens de modelagem. Como regra geral, ainda é possível esperar consistência se os dados vierem de um processo ergódico , e ainda se pode esperar alguns limites de erro se o processo for uma mistura suficientemente rápida . Uma definição matemática precisa desses conceitos nos levaria muito longe da questão principal. É suficiente notar que existem estruturas de dependência além da suposição iid, para a qual se pode provar que os métodos de aprendizado funcionam enquanto tende ao infinito.N
Se tivermos um conhecimento mais detalhado sobre a estrutura de dependência, podemos optar por substituir a suposição de independência de trabalho usada para modelagem por um modelo que captura também a estrutura de dependência. Isso geralmente é feito para séries temporais. Um modelo de trabalho melhor pode resultar em um método mais eficiente.
Avaliação do modelo
Em vez de provar que o método de aprendizagem fornece um modelo próximo de , é de grande valor prático obter uma avaliação (relativa) de "quão bom é um modelo aprendido". Essas pontuações de avaliação são comparáveis para dois ou mais modelos aprendidos, mas não fornecem uma avaliação absoluta de quão próximo um modelo aprendido está de . As estimativas das pontuações da avaliação são tipicamente calculadas empiricamente com base na divisão do conjunto de dados em um conjunto de dados de treinamento e teste ou usando validação cruzada.p(y∣X) p(y∣X)
Assim como no empacotamento, uma divisão aleatória do conjunto de dados "atrapalha" qualquer estrutura de dependência. No entanto, para métodos baseados nas premissas de independência de trabalho, as premissas de ergodicidade mais fracas que o iid devem ser suficientes para que as estimativas da avaliação sejam razoáveis, embora os erros padrão nessas estimativas sejam muito difíceis de encontrar.
[ Editar: A dependência entre as variáveis resultará em uma distribuição do modelo aprendido que difere da distribuição sob a premissa iid. A estimativa produzida pela validação cruzada não está obviamente relacionada ao erro de generalização. Se a dependência for forte, provavelmente será uma estimativa ruim.]
Resumo (tl; dr)
Tudo acima está sob a suposição de que existe um modelo de probabilidade condicional fixa, . Portanto, não pode haver tendências ou mudanças repentinas na distribuição condicional não capturadas por .p(y∣X) X
Ao aprender um modelo de dado , a independência desempenha um papel importante.y X
Entender com precisão quais alternativas ao IDI também são suficientes não são triviais e, até certo ponto, um assunto de pesquisa.
fonte
A suposição de iid afirma é que variáveis aleatórias são independentes e distribuídas de forma idêntica . Você pode definir formalmente o que isso significa, mas informalmente diz que todas as variáveis fornecem o mesmo tipo de informação independentemente uma da outra (você também pode ler sobre a permutabilidade relacionada ).
Das idéias abstratas, vamos pular um momento para um exemplo concreto: na maioria dos casos, seus dados podem ser armazenados em uma matriz, com observações em linhas e variáveis em colunas. Se você supõe que seus dados são iid , significa que você precisa se preocupar apenas com relações entre colunas e não precisa se preocupar com relações entre linhas. Se você se preocupasse com os dois, modelaria a dependência de colunas em colunas e linhas em linhas, ou seja, tudo em tudo. É muito difícil simplificar e construir um modelo estatístico de tudo, dependendo de tudo.
Você percebeu corretamente que a permutabilidade possibilita o uso de métodos como validação cruzada ou inicialização, mas também o teorema do limite central e possibilita simplificações úteis para modelagem (pensando em termos de colunas) )
Como você notou no exemplo do LASSO, a suposição de independência geralmente é suavizada para independência condicional . Mesmo nesse caso, precisamos de "partes" independentes e identicamente distribuídas. Uma suposição semelhante e mais suave é frequentemente feita para modelos de séries temporais, que você mencionou, que assumem estacionariedade (para que haja dependência, mas também haja uma distribuição comum e a série se estabilize com o tempo - novamente partes "iid"). É uma questão de observar várias coisas semelhantes que carregam a mesma idéia sobre algum fenômeno geral. Se temos um número de coisas distintas e dependentes, não podemos fazer generalizações.
O que você deve se lembrar é que isso é apenas uma suposição, não somos rigorosos quanto a isso. Trata-se de ter coisas suficientes para que todas, independentemente, transmitam informações semelhantes sobre algum fenômeno comum. Se as coisas se influenciassem, elas obviamente transmitiriam informações semelhantes para que não fossem tão úteis.
Imagine que você queria aprender sobre as habilidades das crianças na sala de aula, e faça alguns testes. Você poderia usar os resultados dos testes como um indicador das habilidades das crianças apenas se elas as fizessem sozinhas, independentemente uma da outra. Se eles interagissem, você provavelmente mediria as habilidades do garoto mais inteligente ou do mais influente. Isso não significa que você precise assumir que não houve interação ou dependência entre as crianças, mas simplesmente que elas fizeram os testes sozinhas. As crianças também precisam ser "distribuídas de forma idêntica", para que não possam vir de países diferentes, falar idiomas diferentes, estar em idades diferentes, pois dificultará a interpretação dos resultados (talvez eles não tenham entendido as perguntas e respondido aleatoriamente). Se você pode assumir que seus dados são iidentão você pode se concentrar na construção de um modelo geral. Você pode lidar com dados não- iid, mas precisa se preocupar muito mais com "ruído" nos dados.
Além da sua pergunta principal, você também está perguntando sobre a validação cruzada com dados não- iid . Embora você pareça subestimar a importância da suposição de iid , ao mesmo tempo exagerar os problemas de não atender a essa suposição cria validação cruzada. Existem várias maneiras de lidar com esses dados ao usar métodos de reamostragem, como autoinicialização ou validação cruzada. Se você está lidando com séries temporais, não pode assumir que os valores são independentes; portanto, tomar a fração aleatória dos valores seria uma má ideia, pois ignoraria a estrutura correlacionada automaticamente dos dados. Por esse motivo, nas séries temporais, geralmente usamos um passo à frente na validação cruzada, ou seja, você participa da série para prever o próximo valor (não usado para modelagem). Da mesma forma, se seus dados tiverem uma estrutura em cluster , você amostrará clusters inteiros para preservar a natureza dos dados. Assim como com a modelagem, podemos lidar com não iid -sness também ao fazer a validação cruzada, mas temos de nos adaptar nossos métodos à natureza dos dados desde que os métodos desenvolvidos para iid dados não se aplicam em tais casos.
fonte
O único lugar em que se pode ignorar o IID com segurança é nos cursos de estatística e de aprendizado de máquina. Você escreveu isso:
Isso só é verdade se for assumido que a forma funcional dos modelos está basicamente correta. Mas, tal suposição é ainda menos plausível do que o iid.
Há pelo menos duas maneiras pelas quais o iid é extremamente importante em termos de modelagem aplicada:
É uma suposição explícita na maioria das inferência estatística, como você observa na sua pergunta. Na maioria das modelagens do mundo real, em algum momento precisamos usar a inferência para testar a especificação, como durante a seleção de variáveis e a comparação de modelos. Portanto, embora cada ajuste de modelo específico possa ser bom, apesar das violações do iid, você pode escolher o modelo errado de qualquer maneira.
Acho que pensar em violações do iid é uma maneira útil de pensar sobre o mecanismo de geração de dados, o que, por sua vez, me ajuda a pensar na especificação apropriada de um modelo a priori. Dois exemplos:
É claro que, em praticamente todos os modelos que já construí, falhei em minha busca em reduzir a distribuição dos resíduos para algo próximo a uma distribuição verdadeiramente normal. Mas, no entanto, sempre ganho muito tentando muito, muito, muito difícil fazê-lo.
fonte
Na minha opinião, existem duas razões bastante mundanas pelas quais a suposição iid é importante no aprendizado estatístico (ou estatística em geral).
Muitos dos bastidores da matemática dependem dessa suposição. Se você quiser provar que seu método de aprendizado realmente funciona para mais de um conjunto de dados, a suposição de iid surgirá eventualmente. É possível evitá-lo, mas a matemática se torna várias vezes mais difícil.
Se você deseja aprender alguma coisa com os dados, precisa assumir que há algo a aprender. O aprendizado é impossível se cada ponto de dados for gerado por um mecanismo diferente. Portanto, é essencial supor que algo unifique determinado conjunto de dados. Se assumirmos que os dados são aleatórios, então isso é naturalmente uma distribuição de probabilidade, porque a distribuição de probabilidade abrange todas as informações sobre a variável aleatória.
Portanto, se tivermos dados ( pode ser um vetor ou escalar), assumimos que eles provêm da distribuição :x1,...,xn xi Fn
Aqui temos um problema. Precisamos garantir que esteja relacionado a , para diferentes e ; caso contrário, temos o problema inicial, que cada ponto de dados seja gerado de maneira diferente. O segundo problema é que, embora tenhamos pontos de dados, basicamente temos um ponto de dados para estimar , porque é uma distribuição de probabilidade variável. A solução mais simples para esses dois problemas é uma suposição de iid. Com ele onde . Temos uma relação muito clara entre e e temosFn Fm n m n Fn Fn n Fn=Fn, xi∼F Fn Fm n pontos de dados para estimar um . Existem outras maneiras de resolver esses dois problemas, mas é essencial observar que todo método de aprendizado estatístico precisa solucionar esse problema e acontece que a suposição de que essa é de longe a maneira mais simples de fazer isso.F
fonte
Gostaria de enfatizar que, em algumas circunstâncias, os dados não são e a aprendizagem estatística ainda é possível. É crucial ter um modelo identificável para a distribuição conjunta de todas as observações; se as observações são iid, essa distribuição conjunta é facilmente obtida a partir da distribuição marginal de observações únicas. Mas, em alguns casos, a distribuição conjunta é dada diretamente, sem recorrer a uma distribuição marginal.
Um modelo amplamente utilizado no qual as observações não são líquidas é o modelo misto linear: com , , , , e . A matriz (de design) e são consideradas fixas, é um vetor de parâmetros, é um vetor aleatório e , e
Este modelo é melhor expresso dando a distribuição de : Os parâmetros a serem aprendidos são , , . Um único vetor da dimensão é observado; seus componentes não são iidY ∼ N ( X α , τ Z Z ′ + σ 2 I n ) . α τ σ 2 Y nY
fonte