Ciência de Dados x Pesquisa Operacional

11

A questão geral, como o título sugere, é:

  • Qual é a diferença entre DS e OR / otimização.

Em um nível conceitual, entendo que o DS tenta extrair conhecimento dos dados disponíveis e usa principalmente técnicas estatísticas, de aprendizado de máquina. Por outro lado, OR usa os dados para tomar decisões com base nos dados, por exemplo, otimizando alguma função objetiva (critério) sobre os dados (entrada).

Eu me pergunto como esses dois paradigmas se comparam.

  • Um subconjunto do outro?
  • Eles são considerados campos complementares?
  • Existem exemplos de que um campo complementa o outro ou eles são usados ​​em conjunção?

Em particular, estou interessado no seguinte:

Existe algum exemplo em que técnicas de OR são usadas para resolver uma questão / problema de ciência de dados?

PsySp
fonte
3
Não tenho certeza se essa é realmente uma questão sobre ciência da computação, mas suponho que seja próxima o suficiente. Eu editei a parte sobre o que as pessoas de um lado pensam do outro, já que isso parece ser uma questão de opinião.
David Richerby
@DavidRicherby thanks. Concordo com você que poderia ser uma questão de opinião. Tradicionalmente, as duas disciplinas são ensinadas e emergiram da comunidade de CS, então, suponho, este é o lugar correto para perguntar.
PsySp 14/03/19
@ DW obrigado. Li os artigos e, para ser sincero, não vejo nenhuma discussão sobre sobreposição e / ou diferenças entre os dois campos mencionados. Em particular, como um complementa o outro.
PsySp 14/03/19
1
A ciência de dados trata principalmente de trabalhar para encontrar informações por meio de dados. A Pesquisa Operacional é principalmente sobre trabalhar para melhorar a tomada de decisão. Muitas vezes, você pode ver o OR usando métodos para encontrar uma política ideal para uso na tomada de decisões. Alguns métodos usados ​​na sala de cirurgia podem ser classificados como métodos de aprendizado por reforço na comunidade de CS, embora nem todos os problemas da sala de cirurgia sejam desse tipo.
Spektr

Respostas:

9

Embora a Pesquisa Operacional e a Ciência de Dados abranjam uma grande quantidade de tópicos e áreas, tentarei dar uma perspectiva do que considero a parte mais representativa e mainstream de cada uma.

Como outros já apontaram, a maior parte da Pesquisa Operacional se preocupa principalmente com a tomada de decisões . Embora existam muitas maneiras diferentes de determinar como tomar decisões, as partes mais comuns do OR (na minha opinião) estão focadas na modelagem de problemas de decisão em uma estrutura de programação matemática. Nesses tipos de estruturas, você normalmente possui um conjunto de variáveis ​​de decisão, restrições sobre essas variáveis ​​e uma função objetiva dependente das variáveis ​​de decisão que você está tentando minimizar ou maximizar. Quando as variáveis ​​de decisão podem assumir valores em , as restrições são desigualdades lineares sobre as variáveis ​​de decisão e a função objetivo é uma função linear das variáveis ​​de decisão, então você tem um programa linearR- o principal cavalo de batalha da OR nos últimos sessenta anos. Se você tem outros tipos de funções ou restrições objetivas, encontra-se no domínio da programação inteira , programação quadrática , programação semi-definida , etc.

A Ciência de Dados, por outro lado, preocupa-se principalmente em fazer inferências. Aqui, você normalmente começa com uma grande pilha de dados e deseja inferir algo sobre dados que ainda não viu em sua grande pilha. Os tipos típicos de coisas que você vê aqui são: 1) a grande pilha de dados representa os resultados anteriores de duas opções diferentes e você gostaria de saber qual opção produzirá os melhores resultados, 2) a grande pilha de dados representa um tempo séries e você gostaria de saber como essas séries temporais se estenderão para o futuro; 3) a grande pilha de dados representa um conjunto de observações rotuladas e você deseja inferir rótulos para observações novas e não identificadas. Os dois primeiros exemplos se enquadram diretamente nas áreas estatísticas clássicas (teste de hipóteses e previsão de séries temporais, respectivamente), enquanto o terceiro exemplo, eu acho, está mais intimamente associado aos tópicos modernos de aprendizado de máquina (classificação).

Então, na minha opinião, Pesquisa Operacional e Ciência de Dados são principalmente disciplinas ortogonais, embora haja alguma sobreposição. Em particular, acho que a previsão de séries temporais aparece em um valor não trivial em OR; é uma das partes mais significativas e não-matemáticas da OR. A Pesquisa Operacional é o local para onde você gira, se tiver um relacionamento conhecido entre entradas e saídas; A Ciência de Dados é o local para onde você procura, se estiver tentando determinar esse relacionamento (para alguma definição de entrada e saída).

mhum
fonte
Obrigado pela resposta clara. Fiquei me perguntando se, por exemplo, alguém poderia usar alguma técnica OR para resolver problemas do DS. Eu estaria interessado nesse exemplo, mas, pela sua resposta, duvido que exista.
PsySp 17/03/19
@ Psysp Eh, talvez? Não consigo pensar em nada da minha cabeça, mas isso está longe de ser definitivo.
Mhum 17/03/19
1
Não acho que a divisão entre OR e DS seja estrita como você acredita, mas isso pode ser porque considero tópicos como aprendizado de máquina e datamining como partes do DS, em vez de considerá-lo sinônimo de estatística. (Infelizmente, como DS é uma palavra da moda, ele não tem uma definição amplamente aceita, até onde eu sei). No entanto, as tarefas de decisão e inferência não precisam ser mutuamente exclusivas. O aprendizado de máquina é precisamente o campo em que os dois são combinados: às vezes decisões inteligentes devem ser tomadas para fazer inferências decentes, outras vezes inferências inteligentes são usadas para boas decisões.
Lagarto discreto
@ Discretelizard Claro, concordo até certo ponto. Estou apresentando uma divisão bastante rígida (talvez quase uma caricatura?) E concentrando-me nas partes principais de cada campo, a fim de destacar as diferenças nos tipos de problemas em que cada campo é tipicamente sintonizado. As bordas de ambos os campos podem ser bastante confusas (especialmente no DS, que é muito mais recente) e provavelmente há mais sobreposições. Além disso, eu concordo que boa parte do mainstream do DS inclui material de ML, mas não tinha certeza exatamente de como o DS é dividido do ML.
Mhum 21/03
4

Esta não é uma resposta completa, uma vez que o mhum's é muito bom em contrastar os diferentes objetivos de OR vs DS.

Em vez disso, quero abordar este seu comentário:

Fiquei me perguntando se, por exemplo, alguém poderia usar alguma técnica OR para resolver problemas do DS.

A resposta é sim. O exemplo mais claro que vem à mente é SVMs (Support Vector Machines) .

Para "ajustar" um modelo SVM a alguns dados (o que deve ser feito antes que você possa usá-lo para inferir previsões), o seguinte problema de otimização deve ser resolvido:

Maximize o dual,

g(uma)=Eu=1mαEu-12Eu=1mj=1mαEuαjyEuyjxEuTxj,

sujeito às restrições

0 0αEuC,Eu=1nyEuαEu=0 0

Esse é um problema de otimização restrito, assim como muitos no campo OR, e é resolvido usando métodos de programação quadrática ou métodos de pontos interiores. Geralmente, eles são associados ao campo OR ou ao DS, mas este é um exemplo de sua aplicabilidade mais ampla.

De maneira mais geral, a otimização é fundamental para muitos dos modelos estatísticos e de aprendizado de máquina empregados no campo da DS, uma vez que o processo de treinamento desses modelos geralmente pode ser formulado como um problema de minimização envolvendo uma função de perda / arrependimento - desde os humildes séculos de idade. modelo de regressão linear para a mais recente rede neural de aprendizado profundo.

Uma boa referência sobre SVMs é Bishop .

AG
fonte
2

Como estrategista, tive a oportunidade de trabalhar com os dois lados da disciplina. Ao tentar explicar o que é OR e DS para um executivo qualitativo de MBA, minha introdução excessivamente simplista de uma linha para cada

OU: economistas que sabem codificar
DS: estatísticos que sabem codificar.

Em termos práticos, como os dois grupos normalmente se reúnem: o lado OR desenvolve o modelo de decisão e o DS descobre a implementação de dados apropriada para alimentar o modelo.

Cada um, por si só, confiará nas tradições teóricas de suas disciplinas - juntos, eles conduzem experimentos para estruturar os dados e refinar o modelo, a fim de obter os verdadeiros insights necessários para decisões ideais. À medida que cada um se conhece, seu pensamento e sua linguagem normalmente convergem.

user88056
fonte
1
Entendo a descrição prática do DS como 'estatísticos que codificam', mas a descrição para OR parece um pouco estranha para mim. OU inclui problemas de logística e roteamento relacionados. Isso realmente não parece um lugar natural para um economista para mim. Talvez você possa explicar por que a OR é feita pelos economistas na prática?
Lagarto discreto
1
@ Discretelizard Não duvido que os economistas façam OR, mas há, como você diz, um monte de OR que não tem nada a ver com economia e é feito por cientistas da computação, matemáticos e outros.
experiência
0

A ciência de dados é um campo amplo que lida com dados em geral. Se isso parece vago, é normal, porque realmente é. Tem sido uma palavra da moda há alguns anos. Essencialmente, ele tenta encontrar uma maneira de explorar dados: o que posso fazer com meus dados (que informações posso extrair deles?).

A pesquisa operacional é a ciência da otimização matemática: você modela um problema em “equações”, resolve esse modelo matemático e converte as soluções de volta à sua configuração inicial de problemas. É uma ferramenta para ajudar a tomar decisões: o que devo / posso fazer para obter isso ou aquilo.

Muitos problemas de negócios podem ser vistos como um problema de otimização. Dado que estou tentando maximizar minha receita, dadas as restrições de recursos, como exatamente conduzirei meus negócios, de quais valores devo definir para minhas variáveis ​​de decisão. Problemas como agendamento, planejamento de instalações, gerenciamento da cadeia de suprimentos ... etc, todas utilizam técnicas de otimização.

A otimização de portfólio também é um exemplo clássico em que a otimização está sendo usada. Suponha que eu possa investir em vários ativos diferentes em meu portfólio, cada um com retornos não determinísticos, como devo equilibrar meu portfólio para minimizar o risco de meu portfólio geral e, ao mesmo tempo, manter um nível de retorno monetário. Nesse cenário, a função objetivo geralmente se torna o risco / variação do portfólio, e as restrições são a taxa de retorno necessária do investimento, bem como a quantidade de dinheiro que você possui.

Rameez
fonte
3
Você lista apenas breves resumos dos dois campos. Esta resposta não aborda as diferenças e / ou semelhanças entre DS e OR, para as quais a pergunta foi feita especificamente. Você pode melhorar sua resposta concentrando-se nessa parte
Lagarto discreto
-1

Se você contar o ML e o AI dirigidos pelo ML como parte da Data Science (o que algumas pessoas fazem e outros não de acordo com a minha experiência, por exemplo, o programa profissional da Microsoft em AI contém aspectos-chave do Data Science + Machine Learning (com DL e RL ), enquanto a Escola Superior de Economia apresenta praticamente as mesmas partes avançadas do Microsoft Cuuriculum que o Advanced Machine Learning), existem muitas semelhanças em matemática usadas nos dois campos. Por exemplo: Programação não linear (multiplicadores Lagrange, condições KKT ...) -> usada para derivação de máquinas de vetores de suporte ... Econometria, que é baseada principalmente em regressões ---> Regressões são parte essencial do Data Scinece em geral e mais especificamente Aprendizado supervisionado ... Estatísticas (normalmente encontradas no currículo OR) ---> chave para ciência de dados e aprendizado de máquina também ... Processos estocásticos ---> muito importantes no aprendizado por reforço ... Programação dinâmica ---> novamente encontrada no aprendizado por reforço ... Então, eu diria que existem algumas semelhanças com a ciência de dados em geral e praticamente semelhanças com o ML. Obviamente, os objetivos dessas disciplinas são diferentes, mas há muitas semelhanças em matemática que estão sendo usadas nessas disciplinas.

Goran Mabic
fonte
Como ele responde à pergunta?
Mal