Eu estava lendo o livro Deep Learning e me deparei com o seguinte parágrafo (página 109, segundo parágrafo):
Os dados de treinamento e teste são gerados por uma distribuição de probabilidade em conjuntos de dados denominados processo de geração de dados. Normalmente fazemos um conjunto de suposições conhecidas coletivamente como suposições iid. Essas suposições são que os exemplos em cada conjunto de dados são independentes um do outro e que o conjunto de treinamento e o conjunto de testes são distribuídos de forma idêntica, extraídos da mesma distribuição de probabilidade um do outro. Essa suposição nos permite descrever o processo de geração de dados com uma distribuição de probabilidade em um único exemplo. A mesma distribuição é usada para gerar todos os exemplos de trem e todos os exemplos de teste. Chamamos essa distribuição subjacente compartilhada de distribuição geradora de dados, denotada. Essa estrutura probabilística e as suposições iid nos permitem estudar matematicamente a relação entre erro de treinamento e erro de teste.
Alguém pode me explicar o significado deste parágrafo?
Na página 122, o último parágrafo, também fornece um exemplo
um conjunto de amostras distribuídos de forma independente e idêntica, de acordo com uma distribuição de Bernoulli com média .
O que isto significa?
Aqui estão algumas perguntas mais específicas.
A distribuição de probabilidade sobre conjuntos de dados: Quais são os conjuntos de dados? Como é gerada a distribuição de probabilidade?
Os exemplos são independentes um do outro. Você pode me dar um exemplo de onde os exemplos são dependentes?
Extraído da mesma distribuição de probabilidade um do outro. Suponha que a distribuição de probabilidade seja gaussiana. O termo "mesma distribuição de probabilidade" significa que todos os exemplos são extraídos de uma distribuição gaussiana com a mesma média e variância?
"Esta suposição nos permite". O que isto significa?
Finalmente, para o último parágrafo da página 122, é dado que as amostras seguem a distribuição de Bernoulli. O que isso significa intuitivamente?
fonte
Respostas:
Depois que podemos estimar as distribuições subjacentes dos dados de entrada, sabemos essencialmente como eles são selecionados e podemos fazer boas previsões. (modelo generativo). Normalmente, podemos assumir uma distribuição subjacente de acordo com o que acreditamos (viés indutivo). Por exemplo, se acreditarmos que existe uma alta probabilidade de que os valores sejam próximos de zero, podemos obter uma distribuição gaussiana com média0 0 e ajustar os parâmetros como variação quando treinamos. Os conjuntos de dados são, por exemplo, conjunto de todos os lançamentos de moedas e a distribuição assumida será binomial. Quando dizemos maximizar a probabilidade de log para os pontos de dados reais, obteremos os parâmetros que ajustam o conjunto de dados à distribuição assumida.
Por exemplo, jogamos uma moeda e, se temos uma cabeça, jogamos outra, caso contrário não o fazemos. Aqui existe uma dependência entre os lançamentos subsequentes
Sim. É por isso que (4) é dito. Depois de ter uma distribuição de probabilidade de um exemplo, você não precisa de outros exemplos para descrever o processo de geração de dados.
Isso significa que cada exemplo pode ser pensado como um sorteio. Se o experimento consistisse em vários lançamentos de moedas, cada um deles seria independente com uma probabilidade de cabeça ser1 12 . Da mesma forma, se você escolher qualquer outro experimento, o resultado de cada exemplo poderá ser considerado um sorteio ou um dado n-dimensional.
Gerar exemplos significa obter uma distribuição mais próxima do que vemos no conjunto de dados para treinamento. Isso é obtido assumindo uma distribuição e maximizando a probabilidade do conjunto de dados fornecido e gerando os parâmetros ideais.
fonte