O que exatamente está construindo um modelo estatístico?

15

O que exatamente está construindo um modelo estatístico?

Hoje em dia, quando me candidato a trabalhos de pesquisa ou consultoria, o termo "construção de um modelo" ou "modelagem" costuma aparecer. O termo parece legal, mas a que eles estão se referindo exatamente? Como você constrói seu modelo?

Olhei para cima modelagem preditiva , que inclui k-nn e regressão logística.

user13985
fonte
11
Isso é muito amplo, que poderia referir-se a uma enorme variedade de modelos - vários tipos de regressão, modelos multinível, árvores e suas variantes, clustering .... etc
Peter Flom - Reintegrar Monica
Um modelo estatístico é o mesmo que um modelo matemático, exceto que um modelo estatístico possui uma variável responsável por erros. Modelo matemático: Peso = Altura * 2.7. Modelo estatístico: Peso = Altura * 2,7 + erro.
Neil McGuigan
2
Gostaria de citar este papel : Modelagem Estatística: As duas culturas
user13985

Respostas:

12

Vou dar uma olhada nisso, embora eu não seja um estatístico, de maneira alguma, mas acabo fazendo muitas 'modelagens' - estatísticas e não estatísticas.

Primeiro vamos começar com o básico:

O que é exatamente um modelo?

Um modelo é uma representação da realidade, embora altamente simplificada. Pense em um modelo de cera / madeira para uma casa. Você pode tocar / sentir / cheirar. Agora, um modelo matemático é uma representação da realidade usando números.

O que é essa "realidade" que ouço você perguntar? OK. Então pense nesta situação simples: o governador do seu estado implementa uma política dizendo que o preço de um maço de cigarros agora custaria US $ 100 para o próximo ano. O "objetivo" é impedir que as pessoas comprem cigarros, diminuindo assim o fumo, tornando os fumantes mais saudáveis ​​(porque eles pararam).

Depois de um ano, o governador pergunta: isso foi um sucesso? Como você pode dizer aquilo? Bem, você captura dados como número de pacotes vendidos / dia ou por ano, respostas de pesquisas, quaisquer dados mensuráveis ​​que você possa colocar em mãos que sejam relevantes para o problema. Você acabou de começar a 'modelar' o problema. Agora você deseja analisar o que esse 'modelo' diz . É aí que a modelagem estatística é útil. Você pode executar um gráfico de correlação / dispersão simples para ver como o modelo 'se parece'. Você pode ter vontade de determinar a causalidade, por exemplo, se o aumento do preço levar à diminuição do fumo ou se houver outros fatores de confusão em jogo (por exemplo, talvez seja outra coisa completamente diferente e seu modelo tenha sentido alguma falta?).

Agora, a construção desse modelo é feita por um 'conjunto de regras' (mais como diretrizes), isto é, o que é / não é legal ou o que faz / não faz sentido. Você deve saber o que está fazendo e como interpretar os resultados deste modelo. Construir / Executar / Interpretar este modelo requer conhecimentos básicos de estatística. No exemplo acima, você precisa saber sobre gráficos de correlação / dispersão, regressão (uni e multivariada) e outras coisas. Sugiro a leitura intuitiva da leitura divertida / informativa sobre a compreensão intuitiva de estatísticas: o que é um valor-p de qualquer maneira É uma introdução bem-humorada à estatística e ensinará a 'modelar' ao longo do caminho, do simples ao avançado (ou seja, regressão linear). Então você pode continuar e ler outras coisas.

Portanto, lembre-se de que um modelo é uma representação da realidade e que "todos os modelos estão errados, mas alguns são mais úteis que outros" . Um modelo é uma representação simplificada da realidade e você não pode considerar tudo, mas deve saber o que fazer e o que não deve considerar como um bom modelo que pode fornecer resultados significativos.

Não para por aqui. Você pode criar modelos para simular a realidade também! É assim que muitos números mudam ao longo do tempo (digamos). Esses números são mapeados para uma interpretação significativa em seu domínio. Você também pode criar esses modelos para extrair seus dados para ver como as várias medidas se relacionam (a aplicação das estatísticas aqui pode ser questionável, mas não se preocupe por enquanto). Exemplo: você analisa as vendas de supermercado de uma loja por mês e percebe que sempre que a cerveja é comprada, há um pacote de fraldas (você cria um modelo que percorre o conjunto de dados e mostra essa associação). Pode ser estranho, mas pode significar que a maioria dos pais compra isso no fim de semana quando o bebê está sentado com os filhos? Coloque fraldas perto de cervejas e você poderá aumentar suas vendas! Aaah! Modelagem :)

Estes são apenas exemplos e de modo algum uma referência para o trabalho profissional. Basicamente, você constrói modelos para entender / estimar como a realidade funcionará / e para tomar melhores decisões com base nos resultados. Estatística ou não, você provavelmente está modelando toda a sua vida sem perceber. Boa sorte :)

Doutorado
fonte
11

A construção de um modelo estatístico envolve a construção de uma descrição matemática de alguns fenômenos do mundo real que respondem pela incerteza e / ou aleatoriedade envolvidas nesse sistema. Dependendo do campo de aplicação, isso pode variar de algo tão simples como regressão linear ou teste básico de hipóteses, até complicada análise fatorial multivariada ou mineração de dados.

Dave
fonte
5
Eu votei positivo porque é um esforço valioso e conciso para responder a uma pergunta extremamente ampla. Tenho algumas dúvidas sobre se a "mineração de dados" envolve alguma modelagem estatística e gostaria de ver um exemplo ou um esclarecimento do que você quer dizer com essa frase.
whuber
@whuber LASSO possui seleção, não é isso que constrói um modelo de regressão em algum sentido?
User13985
Em outras palavras, é como construir uma casa usando apenas tijolos e argamassa imaginários? Meu comentário esotérico é dito em tom de brincadeira. :)
Graeme Walsh
11
A mineração de dados pode ser usada como parte do processo de construção ou validação de um determinado modelo.
Dave
5

Modelar para mim envolve a especificação de uma estrutura probabilística para dados observados com parâmetros estimados que podem ser usados ​​para discernir diferenças valiosas nos dados observáveis ​​quando eles existem. Isso se chama poder. Modelos probabilísticos podem ser usados ​​para previsão ou inferência. Eles podem ser usados ​​para calibrar máquinas, demonstrar deficiência no retorno do investimento, prever clima ou estoques ou simplificar a tomada de decisões médicas.

Um modelo não precisa necessariamente ser construído. Em um experimento isolado, pode-se usar uma abordagem de modelagem não paramétrica, como o teste t, para determinar se há uma diferença significativa nas médias entre dois grupos. No entanto, para muitos propósitos de previsão, os modelos podem ser construídos para detectar mudanças no tempo. Por exemplo, os modelos de Markov baseados em transição podem ser usados ​​para prever oscilações no valor de mercado dos investimentos, mas até que ponto um "mergulho" pode ser considerado pior que o esperado? Utilizando evidências históricas e preditores observados, pode-se construir um modelo sofisticado para calibrar se as quedas observadas são significativamente diferentes daquelas que foram historicamente sustentadas. Usando ferramentas como gráficos de controle, gráficos cumulativos de incidência, curvas de sobrevivência e outros gráficos "com base no tempo", é '

Como alternativa, alguns modelos são "construídos", tendo a flexibilidade de se adaptar à medida que os dados crescem. A detecção de tendências do Twitter e o sistema de recomendação da Netflix são exemplos excelentes de tais modelos. Eles têm uma especificação geral (média bayesiana do modelo, para o último) que permite um modelo flexível para acomodar mudanças e tendências históricas e recalibrar para manter a melhor previsão, como a introdução de filmes de alto impacto, uma grande aceitação de novos usuários ou um mudança dramática na preferência de filme devido à sazonalidade.

Algumas das abordagens de mineração de dados são introduzidas porque são altamente hábeis em alcançar certos tipos de abordagens de previsão (novamente, a questão de obter tendências ou valores "esperados" nos dados). O K-NN é uma maneira de incorporar dados de alta dimensão e inferir se os sujeitos podem receber previsões confiáveis ​​simplesmente devido à proximidade (seja de idade, gosto musical, história sexual ou alguma outra característica mensurável). A regressão logística, por outro lado, pode obter um classificador binário, mas é muito mais comumente usado para inferir sobre a associação entre um resultado binário e uma ou mais exposições e condições por meio de um parâmetro chamado razão de chances. Devido aos teoremas de limite e sua relação com os modelos lineares generalizados, as razões de chances são parâmetros altamente regulares que possuem um erro do tipo I "altamente conservado" (ou seja,

AdamO
fonte
Grata pelas suas palavras. No caso da detecção de Netflix pelo Twitter, isso não é mais ou menos no domínio do aprendizado de máquina? Muitas vezes não consigo traçar a linha entre modelagem e aprendizado de máquina.
User13985
11
O aprendizado de máquina geralmente é modelagem de alta dimensão. Muitos métodos são casos especiais de métodos existentes baseados em probabilidade, com penalidades ou ponderações empregadas.
Adamo
Obrigado por validar meus pensamentos, deixe-me saber se você gostaria de mais alguma coisa.
User13985
3

Modelagem é o processo de identificação de um modelo adequado.

Freqüentemente, um modelador terá uma boa idéia de variáveis ​​importantes e talvez até tenha uma base teórica para um modelo específico. Eles também conhecerão alguns fatos sobre a resposta e o tipo geral de relacionamento com os preditores, mas ainda podem não estar certos de que sua idéia geral de modelo é completamente adequada - mesmo com uma excelente idéia teórica de como a média deve funcionar, eles por exemplo, pode não estar confiante de que a variação não esteja relacionada à média ou suspeitar que alguma dependência em série seja possível.

Portanto, pode haver um ciclo de vários estágios de identificação do modelo que faz referência a (pelo menos alguns dos) dados. A alternativa é arriscar-se regularmente a ter modelos bastante inadequados.

(Obviamente, se eles estão sendo responsáveis, devem levar em consideração como o uso de dados dessa maneira afeta suas inferências.)

O processo real varia um pouco de área para área e de pessoa para pessoa, mas é possível encontrar algumas pessoas explicitamente listando as etapas do processo (por exemplo, Box e Jenkins descrevem uma dessas abordagens em seu livro sobre séries temporais). As idéias sobre como fazer a identificação do modelo são alteradas com o tempo.

Glen_b -Reinstate Monica
fonte
0

Eu não acho que exista uma definição comum do que constitui um modelo estatístico. Da minha experiência no setor, parece ser um sinônimo do que na econometria é chamado de modelo de forma reduzida . Eu vou explicar.

Suponha que em seu campo haja relações ou "leis" estabelecidas, por exemplo, na Física, isso seria F=md2xdt2declarando que a força é proporcional à aceleração (também conhecida como "segunda lei da mecânica"). Portanto, conhecendo essa lei, você pode construir um modelo matemático de uma trajetória de bala de canhão.

Este modelo terá o que os físicos chamam de "constantes" ou "coeficientes", por exemplo, uma densidade do ar a uma dada temperatura e elevação. Você terá que descobrir quais são esses coeficientes experimentalmente. No nosso caso, pediremos à artilharia para disparar os canhões sob muitas condições diferentes e rigidamente controladas, como ângulos, temperatura etc.

Coletamos todos os dados e ajustamos o modelo usando técnicas estatísticas. Pode ser tão simples quanto regressão linear ou médias. Depois de obter todos os coeficientes, agora executamos nosso modelo matemático para produzir as tabelas de queima. Isso é descrito de maneira bem detalhada no documento não classificado aqui , chamado "A PRODUÇÃO DE MESAS DE FOGO PARA ARTILHARIA DE CANHÃO".

O que acabei de descrever não é um modelo estatístico. Sim, ele usa estatísticas, mas esse modelo usa estabelece leis da Física, que são a essência do modelo. Aqui, a estatística é uma mera ferramenta para determinar os valores de alguns parâmetros importantes. A dinâmica do sistema é descrita e pré-determinada pelo campo.

Suponha que não soubéssemos ou não gostássemos das leis da Física e simplesmente tentássemos estabelecer as relações entre a distância de vôo do canhão e os parâmetros como ângulo e temperatura de disparo usando um "modelo estatístico". Criaríamos um grande conjunto de dados com várias variáveis ​​candidatas, ou recursos, e transformações de variáveis, talvez séries polinomiais de temperatura, etc. Em seguida, executaríamos uma espécie de regressão e coeficientes identificados. Esses coeficientes não teriam necessariamente estabelecido interpretações em campo. Nós os chamaríamos de sensibilidades ao quadrado da temperatura, etc. Esse modelo pode ser realmente bom em prever os pontos finais das bolas de canhão, porque o processo subjacente é bastante estável.

Aksakal
fonte