A questão geral, como o título sugere, é:
- Qual é a diferença entre DS e OR / otimização.
Em um nível conceitual, entendo que o DS tenta extrair conhecimento dos dados disponíveis e usa principalmente técnicas estatísticas, de aprendizado de máquina. Por outro lado, OR usa os dados para tomar decisões com base nos dados, por exemplo, otimizando alguma função objetiva (critério) sobre os dados (entrada).
Eu me pergunto como esses dois paradigmas se comparam.
- Um subconjunto do outro?
- Eles são considerados campos complementares?
- Existem exemplos de que um campo complementa o outro ou eles são usados em conjunção?
Em particular, estou interessado no seguinte:
Existe algum exemplo em que técnicas de OR são usadas para resolver uma questão / problema de ciência de dados?
optimization
data-mining
PsySp
fonte
fonte
Respostas:
Embora a Pesquisa Operacional e a Ciência de Dados abranjam uma grande quantidade de tópicos e áreas, tentarei dar uma perspectiva do que considero a parte mais representativa e mainstream de cada uma.
Como outros já apontaram, a maior parte da Pesquisa Operacional se preocupa principalmente com a tomada de decisões . Embora existam muitas maneiras diferentes de determinar como tomar decisões, as partes mais comuns do OR (na minha opinião) estão focadas na modelagem de problemas de decisão em uma estrutura de programação matemática. Nesses tipos de estruturas, você normalmente possui um conjunto de variáveis de decisão, restrições sobre essas variáveis e uma função objetiva dependente das variáveis de decisão que você está tentando minimizar ou maximizar. Quando as variáveis de decisão podem assumir valores em , as restrições são desigualdades lineares sobre as variáveis de decisão e a função objetivo é uma função linear das variáveis de decisão, então você tem um programa linearR - o principal cavalo de batalha da OR nos últimos sessenta anos. Se você tem outros tipos de funções ou restrições objetivas, encontra-se no domínio da programação inteira , programação quadrática , programação semi-definida , etc.
A Ciência de Dados, por outro lado, preocupa-se principalmente em fazer inferências. Aqui, você normalmente começa com uma grande pilha de dados e deseja inferir algo sobre dados que ainda não viu em sua grande pilha. Os tipos típicos de coisas que você vê aqui são: 1) a grande pilha de dados representa os resultados anteriores de duas opções diferentes e você gostaria de saber qual opção produzirá os melhores resultados, 2) a grande pilha de dados representa um tempo séries e você gostaria de saber como essas séries temporais se estenderão para o futuro; 3) a grande pilha de dados representa um conjunto de observações rotuladas e você deseja inferir rótulos para observações novas e não identificadas. Os dois primeiros exemplos se enquadram diretamente nas áreas estatísticas clássicas (teste de hipóteses e previsão de séries temporais, respectivamente), enquanto o terceiro exemplo, eu acho, está mais intimamente associado aos tópicos modernos de aprendizado de máquina (classificação).
Então, na minha opinião, Pesquisa Operacional e Ciência de Dados são principalmente disciplinas ortogonais, embora haja alguma sobreposição. Em particular, acho que a previsão de séries temporais aparece em um valor não trivial em OR; é uma das partes mais significativas e não-matemáticas da OR. A Pesquisa Operacional é o local para onde você gira, se tiver um relacionamento conhecido entre entradas e saídas; A Ciência de Dados é o local para onde você procura, se estiver tentando determinar esse relacionamento (para alguma definição de entrada e saída).
fonte
Esta não é uma resposta completa, uma vez que o mhum's é muito bom em contrastar os diferentes objetivos de OR vs DS.
Em vez disso, quero abordar este seu comentário:
A resposta é sim. O exemplo mais claro que vem à mente é SVMs (Support Vector Machines) .
Para "ajustar" um modelo SVM a alguns dados (o que deve ser feito antes que você possa usá-lo para inferir previsões), o seguinte problema de otimização deve ser resolvido:
Esse é um problema de otimização restrito, assim como muitos no campo OR, e é resolvido usando métodos de programação quadrática ou métodos de pontos interiores. Geralmente, eles são associados ao campo OR ou ao DS, mas este é um exemplo de sua aplicabilidade mais ampla.
De maneira mais geral, a otimização é fundamental para muitos dos modelos estatísticos e de aprendizado de máquina empregados no campo da DS, uma vez que o processo de treinamento desses modelos geralmente pode ser formulado como um problema de minimização envolvendo uma função de perda / arrependimento - desde os humildes séculos de idade. modelo de regressão linear para a mais recente rede neural de aprendizado profundo.
Uma boa referência sobre SVMs é Bishop .
fonte
Como estrategista, tive a oportunidade de trabalhar com os dois lados da disciplina. Ao tentar explicar o que é OR e DS para um executivo qualitativo de MBA, minha introdução excessivamente simplista de uma linha para cada
OU: economistas que sabem codificar
DS: estatísticos que sabem codificar.
Em termos práticos, como os dois grupos normalmente se reúnem: o lado OR desenvolve o modelo de decisão e o DS descobre a implementação de dados apropriada para alimentar o modelo.
Cada um, por si só, confiará nas tradições teóricas de suas disciplinas - juntos, eles conduzem experimentos para estruturar os dados e refinar o modelo, a fim de obter os verdadeiros insights necessários para decisões ideais. À medida que cada um se conhece, seu pensamento e sua linguagem normalmente convergem.
fonte
A ciência de dados é um campo amplo que lida com dados em geral. Se isso parece vago, é normal, porque realmente é. Tem sido uma palavra da moda há alguns anos. Essencialmente, ele tenta encontrar uma maneira de explorar dados: o que posso fazer com meus dados (que informações posso extrair deles?).
A pesquisa operacional é a ciência da otimização matemática: você modela um problema em “equações”, resolve esse modelo matemático e converte as soluções de volta à sua configuração inicial de problemas. É uma ferramenta para ajudar a tomar decisões: o que devo / posso fazer para obter isso ou aquilo.
Muitos problemas de negócios podem ser vistos como um problema de otimização. Dado que estou tentando maximizar minha receita, dadas as restrições de recursos, como exatamente conduzirei meus negócios, de quais valores devo definir para minhas variáveis de decisão. Problemas como agendamento, planejamento de instalações, gerenciamento da cadeia de suprimentos ... etc, todas utilizam técnicas de otimização.
A otimização de portfólio também é um exemplo clássico em que a otimização está sendo usada. Suponha que eu possa investir em vários ativos diferentes em meu portfólio, cada um com retornos não determinísticos, como devo equilibrar meu portfólio para minimizar o risco de meu portfólio geral e, ao mesmo tempo, manter um nível de retorno monetário. Nesse cenário, a função objetivo geralmente se torna o risco / variação do portfólio, e as restrições são a taxa de retorno necessária do investimento, bem como a quantidade de dinheiro que você possui.
fonte
Se você contar o ML e o AI dirigidos pelo ML como parte da Data Science (o que algumas pessoas fazem e outros não de acordo com a minha experiência, por exemplo, o programa profissional da Microsoft em AI contém aspectos-chave do Data Science + Machine Learning (com DL e RL ), enquanto a Escola Superior de Economia apresenta praticamente as mesmas partes avançadas do Microsoft Cuuriculum que o Advanced Machine Learning), existem muitas semelhanças em matemática usadas nos dois campos. Por exemplo: Programação não linear (multiplicadores Lagrange, condições KKT ...) -> usada para derivação de máquinas de vetores de suporte ... Econometria, que é baseada principalmente em regressões ---> Regressões são parte essencial do Data Scinece em geral e mais especificamente Aprendizado supervisionado ... Estatísticas (normalmente encontradas no currículo OR) ---> chave para ciência de dados e aprendizado de máquina também ... Processos estocásticos ---> muito importantes no aprendizado por reforço ... Programação dinâmica ---> novamente encontrada no aprendizado por reforço ... Então, eu diria que existem algumas semelhanças com a ciência de dados em geral e praticamente semelhanças com o ML. Obviamente, os objetivos dessas disciplinas são diferentes, mas há muitas semelhanças em matemática que estão sendo usadas nessas disciplinas.
fonte