Fiz essa pergunta no site matemathics stackexchange e foi recomendado fazer aqui.
Estou trabalhando em um projeto de hobby e precisaria de ajuda com o seguinte problema.
Um pouco de contexto
Digamos que haja uma coleção de itens com uma descrição dos recursos e um preço. Imagine uma lista de carros e preços. Todos os carros têm uma lista de recursos, por exemplo, tamanho do motor, cor, potência, modelo, ano etc. Para cada marca, algo como isto:
Ford:
V8, green, manual, 200hp, 2007, $200
V6, red, automatic, 140hp, 2010, $300
V6, blue, manual, 140hp, 2005, $100
...
Indo além, a lista de carros com preços é publicada com algum intervalo de tempo, o que significa que temos acesso a dados históricos de preços. Nem sempre pode incluir exatamente os mesmos carros.
Problema
Gostaria de entender como modelar os preços de qualquer carro com base nessas informações básicas, principalmente os carros que não estão na lista inicial.
Ford, v6, red, automatic, 130hp, 2009
Para o carro acima, é quase o mesmo que o da lista, apenas um pouco diferente em potência e ano. Para determinar o preço, o que é necessário?
O que estou procurando é algo prático e simples, mas também gostaria de ouvir sobre abordagens mais complexas sobre como modelar algo assim.
O que eu tentei
Aqui está o que eu tenho experimentado até agora:
1) usando dados históricos para procurar carro X. Se não encontrado, não há preço. É claro que isso é muito limitado e só se pode usar isso em combinação com algum tempo de deterioração para alterar os preços dos carros conhecidos ao longo do tempo.
2) usando um esquema de ponderação de recurso de carro junto com um carro de amostra com preço. Basicamente, existe um preço base e os recursos apenas alteram isso com algum fator. Com base nisso, o preço de qualquer carro é calculado.
O primeiro mostrou-se insuficiente e o segundo nem sempre estava correto, e talvez eu não tivesse a melhor abordagem para usar os pesos. Isso também parece um pouco pesado para manter pesos, então é por isso que pensei que talvez houvesse alguma maneira de usar os dados históricos como estatísticas de alguma forma para obter pesos ou obter outra coisa. Só não sei por onde começar.
Outros aspectos importantes
- integrar em algum projeto de software que eu tenho. Ou usando bibliotecas existentes ou escrevendo o algoritmo.
- recálculo rápido quando novos dados históricos são recebidos.
Alguma sugestão de como um problema como esse poderia ser abordado? Todas as idéias são mais que bem-vindas.
Agradecemos antecipadamente e estamos ansiosos para ler suas sugestões!
fonte
Concordo com @whuber, que a regressão linear é um caminho a percorrer, mas é preciso ter cuidado ao interpretar os resultados. O problema é que, na economia, o preço está sempre relacionado à demanda. Se a demanda aumenta, os preços aumentam, se a demanda diminui, os preços diminuem. Portanto, o preço é determinado pela demanda e, em troca, a demanda é determinada pelo preço. Portanto, se modelarmos o preço como uma regressão a partir de alguns atributos sem a demanda, há um risco real de que as estimativas de regressão estejam erradas devido ao viés da variável omitida .
fonte
Após algum tipo de discussão, aqui está minha visão completa das coisas
O problema
Objetivo: entender como precificar melhor os carros
Contexto: no processo de decisão, as pessoas resolvem várias perguntas: eu preciso de um carro, se precisar, quais atributos eu prefiro (incluindo o preço, porque, sendo racional, eu gostaria de ter um carro com a melhor relação qualidade / preço) , compare o número de atributos entre carros diferentes e escolha a avaliação conjunta deles .
Na posição de vendedor, eu gostaria de definir o preço o mais alto possível e vender o carro o mais rápido possível. Portanto, se eu definir um preço muito alto e aguardar meses, ele poderá ser considerado como não exigido no mercado e marcado com 0 em comparação com conjuntos de atributos muito exigidos.
Observações: negócios reais que relacionam os atributos de um carro em particular com o preço estabelecido no processo de negociação (em relação à observação anterior, é importante saber quanto tempo leva para definir o negócio).
Prós: você observa as coisas que foram realmente compradas no mercado; portanto, você não está imaginando se existe uma pessoa com um preço de reserva alto o suficiente que queira comprar um carro específico
Contras:
Métodos de solução
O primeiro, como sugerido por whuber, é o modelo clássico de regressão de mínimos quadrados
Prós:
Contras:
No caso de regressão clássica, como você não está limitado nos graus de liberdade, tente também termos de interação diferentes.
Portanto, uma solução mais complicada seria o modelo tobit ou Heckman ; você pode consultar a AC Cameron e a PK Trivedi Microeconometrics: métodos e aplicativos para obter mais detalhes sobre os métodos principais.
Prós:
Contras:
E, finalmente, se você estiver simplesmente interessado em saber como o preço influencia a probabilidade de compra, poderá trabalhar com algum tipo de modelo de logit .
Concordamos que a análise conjunta não é adequada aqui, porque você tem diferentes contextos e observações.
Boa sorte.
fonte
Parece um problema de regressão linear para mim também, mas e K vizinhos KNN mais próximos . Você pode criar uma fórmula de distância entre cada carro e calcular o preço como a média entre o K (digamos 3) mais próximo. Uma fórmula de distância pode ser baseada em euclidianos, como a diferença de cilindros mais a diferença de portas, mais a diferença de potência e assim por diante.
Se você for com regressão linear, sugiro algumas coisas:
Outra idéia é fazer um híbrido entre os modelos. Use a regressão e o KNN como pontos de dados e crie o preço final como a média ponderada ou algo assim.
fonte
Além do que foi dito, e não muito diferente de algumas das sugestões já feitas, você pode querer dar uma olhada na vasta literatura sobre modelos de preços hedônicos . Tudo se resume a um modelo de regressão que tenta explicar o preço de um bem composto em função de seus atributos.
Isso permitiria que você precisasse de um carro conhecendo seus atributos (potência, tamanho, marca etc.), mesmo se uma mistura exatamente semelhante de atributos não estiver presente em sua amostra. É uma abordagem muito popular para a avaliação de ativos essencialmente não replicáveis - como propriedades de imóveis. Se você pesquisar no Google por "modelos hedônicos", encontrará muitas referências e exemplos.
fonte