Na análise de regressão, qual é a diferença entre processo e modelo de geração de dados?

19

Na análise de regressão, qual é a diferença entre 'processo de geração de dados' e 'modelo'?

Porco voador
fonte
1
O processo de geração de dados nunca é conhecido; escolhemos o modelo na esperança de aproximar o processo de geração de dados suficientemente. Essa é uma das respostas possíveis, ajudaria se você fornecesse mais contexto; portanto, fica mais claro que tipo de resposta você está procurando. Confira o bate-papo, o clube de jornal em andamento no momento discute o artigo em que essa questão é levantada.
precisa saber é o seguinte
3
As respostas a essa pergunta variam, como deveriam, porque o "processo de geração de dados" e o "modelo" são usados ​​de várias maneiras por vários autores. @Weijie, você tem uma referência específica em mente?
whuber

Respostas:

15

Todos nós sabemos bem o que "modelo" pode significar, embora sua definição técnica varie entre as disciplinas. Para comparar isso com o DGP, comecei analisando os cinco principais hits (contando dois hits com o mesmo autor como um) no "processo de geração de dados" do Google.

  1. Um artigo sobre como a Força Aérea dos EUA realmente cria dados em suporte logístico.

  2. Resumo de um artigo publicado no Environment and Planning A sobre como "micropopulações sintéticas" são criadas por meio de "modelos de simulação".

  3. Uma página da Web sobre "geração sintética de dados"; isto é, simulação "para explorar os efeitos de certas características de dados em ... modelos".

  4. Resumo de um documento de conferência em mineração de dados, afirmando que "os dados nos bancos de dados são o resultado de um processo de geração de dados subjacente (dgp)".

  5. Um capítulo do livro que caracteriza os dados de interesse como "decorrentes de alguma transformação de um subjacente [estocástica] processo de V t ... alguns ou todos [de que] pode ser despercebido ..."WtVt

Esses links exibem três usos ligeiramente diferentes, mas intimamente relacionados, do termo "processo de geração de dados". O mais comum é em um contexto de simulação estatística. Os demais se referem aos meios reais pelos quais os dados são criados em uma situação contínua (logística) e a um modelo de probabilidade para um procedimento contínuo de criação de dados, que não deve ser analisado diretamente. No último caso, o texto está diferenciando um processo estocástico não observável, que é modelado matematicamente, a partir dos números reais que serão analisados.

Eles sugerem que duas respostas ligeiramente diferentes são sustentáveis:

  1. No contexto de simulação ou criação de dados "sintéticos" para análise, o "processo de geração de dados" é uma maneira de criar dados para estudos subsequentes, geralmente por meio do gerador de números pseudo-aleatórios de um computador. A análise adotará implicitamente algum modelo que descreve as propriedades matemáticas deste DGP.

  2. No contexto da análise estatística, podemos querer distinguir um fenômeno do mundo real (o DGP) das observações que serão analisadas. Temos modelos para o fenômeno e as observações, bem como um modelo de como os dois estão conectados.

Em regressão, em seguida, o DGP normalmente descrever a forma como um conjunto de dados = ( X 1 i , x 2 i , ... , X p i , Y i ) , i = 1 , 2 , ... , n é assumido como produzido. Por exemplo , o X j i poderia ser definida pelo experimentador ou poderiam ser observado, de alguma forma e então presume-se que causa(X,Y)Eu(X1Eu,X2Eu,...,XpEu,YEu)Eu=1,2,...,nXjEuou estar relacionado aos valores de . O modelo descreveria as possíveis maneiras pelas quais esses dados podem ser matematicamente relacionados; por exemplo , pode-se dizer que cada Y i é uma variável aleatória com expectativa X β e variância σ 2 para os parâmetros desconhecidos p e σ .YEuYEuXβσ2βσ

whuber
fonte
Você escreve as palavras "causa" ou "relacionado". Eu tenho uma pergunta sobre isso. De sua resposta, parece que o conceito de DGP não implica causalidade. No entanto, essa "relação" é algo mais que correlação (ou qualquer tipo de associação) ou não? Veja também esta minha pergunta relacionada: stats.stackexchange.com/questions/399671/…
markowitz
@markowitz "Correlação", estritamente falando, refere-se a um segundo momento da variável aleatória bivariada. Eu uso "relacionado" no sentido mais amplo de "não [estatisticamente] independente".
whuber
Eu sei, e exatamente por esse motivo afirmei "ou qualquer tipo de [apenas estatística] associação". Posso repetir minha pergunta como: No entanto, esse "relacionamento" é algo mais do que a associação ou não? Partindo do conceito de "modelo verdadeiro", às vezes usado como sinônimo de DGP, parece algo mais. Nesse caso, não entendo exatamente o que é. Meu link anterior dá um exemplo.
markowitz 29/03
@ Markowitz Acho que não entendo o que você está tentando perguntar. Isso pode ser porque não tenho certeza do que você quer dizer exatamente com "relacionamento" ou "associação". Eu vi seu link, mas o uso incomum de inglês não me transmite nada de significativo.
whuber
Me desculpe pelo meu Inglês. Tentei modificar a questão vinculada em um sentido mais claro. Espero que seja compreensível.
markowitz 29/03
4

O DGP é o verdadeiro modelo. O modelo é o que tentamos, usando nossas melhores habilidades, para representar o verdadeiro estado da natureza. O DGP é influenciado pelo "ruído". O ruído pode ser de vários tipos:

  1. Intervenções únicas
  2. Mudanças de nível
  3. Tendências
  4. Mudanças na sazonalidade
  5. Alterações nos parâmetros do modelo
  6. Mudanças na variação

Se você não controla esses 6 itens, sua capacidade de identificar o verdadeiro DGP é reduzida.

Tom Reilly
fonte
4

A resposta de Whuber é excelente, mas vale a pena acrescentar ênfase ao fato de que um modelo estatístico não precisa se assemelhar ao modelo de geração de dados em todos os aspectos para ser um modelo apropriado para a exploração inferencial de dados. Liu e Meng explicam esse ponto com grande clareza em seu recente artigo arXived ( http://arxiv.org/abs/1510.08539 ):

Equívoco 1. Um modelo de probabilidade deve descrever a geração dos dados.

θ) Em nenhum lugar esse ponto é mais claro do que nas aplicações que envolvem experimentos em computador onde um padrão probabilístico é usado para descrever dados que seguem um padrão determinístico conhecido (mas altamente complicado) (Kennedy e O'Hagan, 2001; Conti et al., 2009). Precisamos de um modelo descritivo, não necessariamente de um modelo generativo. Veja Lehmann (1990), Breiman (2001) e Hansen e Yu (2001) para mais informações sobre este ponto.

Michael Lew
fonte
+1. Gosto especialmente da distinção entre modelos descritivos e generativos de dados.
whuber
1

DGP é a realidade virtual e uma receita única para simulação. Um modelo é uma coleção de DGP ou possíveis maneiras pelas quais os dados poderiam ter sido gerados.

Leia a primeira página deste minicurso de Russell Davidson:

http://russell-davidson.arts.mcgill.ca/Aarhus/bootstrap_course.pdf

Ehsan Fazel
fonte