R vs SAS, por que o SAS é preferido por empresas privadas?

143

Eu aprendi R, mas parece que as empresas estão muito mais interessadas na experiência do SAS. Quais são as vantagens do SAS sobre o R?

Benoit_Plante
fonte
17
É trágico, mas é verdade temo ...
gung
19
Um estatístico médico me disse uma vez que eles usam o SAS porque, se cometerem erros devido a bugs de software e se tratarem de ações judiciais, o SAS os recompensará. R vem sem garantia.
Momo
42
O @Momo R vem sem garantia, é verdade, mas eu gostaria de ver uma referência de que o SAS tem essa força. Não consegui encontrar o texto da licença do SAS no site deles, mas consegui encontrar algo para um componente: support.sas.com/documentation/onlinedoc/sasc/doc650/common/… Que tem uma garantia de 90 dias na mídia que o o software é enviado e um aviso de isenção de qualquer outra garantia. Por favor, dê uma referência diferente de "alguém me disse uma vez".
Brian Diggs
13
Foi apenas uma anedota, eu gosto do cinismo pragmático do comentário. Mas feliz que você tenha verificado, eu nunca me importei.
Momo
36
O SAS vem com a mesma garantia que R: nenhum.
precisa

Respostas:

139

Eu acho que existem vários problemas (em ordem crescente de possível validade):

  1. Tradição / hábito : as pessoas estão acostumadas com o SAS e não querem aprender algo novo. (Tornando mais difícil, a maneira como você pensa no SAS e no R é diferente.) Isso pode se aplicar a qualquer pessoa que precise enviar seu código ou ler / usar seu código, incluindo gerentes e colegas.
  2. Desconfie do freeware : várias pessoas disseram que não estão dispostas a aceitar os resultados do R porque você não tem uma empresa com fins lucrativos que veta o código para garantir que ele produza os resultados corretos antes de serem enviados aos clientes, para que não acabam perdendo negócios.
  3. Big data : R executa operações com tudo na memória, enquanto o SAS não necessariamente. Portanto, se seus dados se aproximarem dos limites de sua memória, haverá problemas.

Pessoalmente, acho que o número 3 tem algum mérito legítimo, embora existam abordagens para big data que foram desenvolvidas com R. Os problemas do número 1 falam por si. Eu acho que o número 2 ignora vários fatos: há alguns exames que acontecem com o R, muitos dos principais pacotes são escritos por alguns dos maiores nomes da estatística e existem estudos que comparam a precisão de diferentes softwares estatísticos. certamente foi competitivo.

gung
fonte
41
O ponto 1 ganha mais legitimidade se você também incluir "infraestrutura existente" sob esse banner de inércia. Se houver processos de negócios existentes que já usem SAS, haverá um custo de transição com a alteração. Se for esse o caso, não é escolher entre SAS e R, mas escolher entre permanecer no SAS e mudar para R, o que pode ter uma conclusão diferente.
Brian Diggs
25
O ponto 2 é que, enquanto ALGUNS pacotes R são escritos por especialistas, outros não. Quem atesta por eles? Quem os testa? (Eu sei que eles são testados e executados, mas quem testa se eles funcionam corretamente?) Eu sei, você pode examinar o código, mas isso pressupõe o tempo e a capacidade de examinar o código de outra pessoa e verificá-lo, geralmente para métodos que são muito complexos.
Peter Flom
18
@ PeterFlom, você levanta um ponto razoável. À medida que os pacotes se tornam mais esotéricos, há menos garantia do que as coisas básicas. Mas até onde você tem que ir? Até o SEM, que é bastante avançado, foi escrito em R por John Fox. Além disso, o StasK destaca a realidade da verificação de software estatístico na prática. Finalmente, o R é muito mais abrangente do que qualquer outra coisa; portanto, quando você quer fazer coisas esotéricas com outros softwares, é necessário codificá-lo. Quem garante a precisão desse código?
gung
33
Quem examina exatamente o código SAS, Stata, SPSS? Existe alguma maneira de saber se os resultados que eles fornecem, pelos métodos que eles dizem estar usando, são realmente implementados corretamente? Sei que, a seguir, por exemplo, a lme4lista de correspondência que se compara ao SAS é apresentada regularmente. Mas é impossível saber se deveríamos fazer essas comparações. Sem acesso à fonte, temos que acreditar nessas empresas que os resultados produzidos pelo software são realmente válidos. Sinceramente, prefiro ter a capacidade de revisar o código de software que uso.
Jason Morgan
28
É verdade, mas é difícil penalizar um sistema de computação estatística por sua abrangência. Ou, dito de outra maneira, a maneira de R fazer algo é melhor do que a maneira de outro sistema não fazer.
31712 Frank
105

Além das boas respostas até agora, acrescentaria o fator constrangimento. Se você gastou centenas de milhares de dólares no ano passado em suporte a SAS e SAS, e propõe gastar nada para R, com preços extremamente baixos de suporte (Revolution, etc), alguém da cadeia perguntará por quê. Foi um erro gastar tanto dinheiro no ano passado quando R existiu no ano passado? Ou é um erro descartar software profissional para algo criado por um grupo de voluntários?

Uma vez que o problema é estruturado dessa maneira, é uma proposta de perder-perder, então talvez seja melhor não abordá-lo.

Wayne
fonte
47
Esta é talvez a resposta mais cínica na validação cruzada. +1
probabilityislogic
11
@probabilityislogic: Obrigado! Para deixar claro, isso é mais um comentário sobre um gerenciamento de alto nível ruim do que sobre as pessoas que usam o software. Eu trabalhei em lugares onde realmente havia atitude (em níveis mais altos): "Hmmm ... você não gastou todo o dinheiro que orçamos para você este ano. Obviamente, você pode ganhar menos dinheiro, então nós está cortando seu orçamento para o próximo ano e dando o extra ao departamento que gastou demais ". Regras de Dilbert.
7113 Wayne
11
"Você não gastou o dinheiro ..." - é exatamente assim que o sistema de planejamento soviético costumava funcionar, pelo meu conhecimento em primeira mão.
StasK
5
Alguém na cadeia precisa ser explicado que, por uma fração do custo de uma licença SAS, você pode instalar o R ​​Studio Server em uma AWS Virtual Machine com 16 núcleos e 256 GB de RAM - nas mãos de 2 bons programadores de R, isso é mais poderoso do que qualquer coisa que o SAS possa fazer. Pense na rapidez com que bilhões de registros podem ser pareados entre si! Ou, nesse caso, mesmo o PostgreSQL de código aberto com Python + PERL alcançará a uma fração de custo.
errante
11
"Ou é um erro abandonar o software profissional para algo criado por um grupo de voluntários?" Esta é uma falsa dicotomia!
Kjetil b halvorsen
54

Além do que o gung identificou corretamente aqui, o maior problema no mundo corporativo é o legado. E quando você tem um código de produção de boa qualidade que é conhecido por fazer o trabalho, você não o altera. O SAS existe desde os anos 1970 e, na época, era a única linguagem estatística de script eficaz para os padrões da época. A quantidade de código de produção acumulada desde então no SAS no setor farmacêutico e no governo é inimaginável, dezenas de milhares de anos humanos. Reescrever isso em R ou Stata levaria alguns anos, o código resultante se tornará mais flexível, mais eficiente, mais transparente, mais fácil e mais barato de manter, mas ninguém pagará por essa refatoração. (Minha experiência ao fazer isso é que meu código Stata geralmente é cerca de três vezes menor; eu já tive um projeto de conversão de código SPSS em Stata, onde o tornei 20 vezes mais curto.

De certa forma, essa é uma história semelhante com os editores acadêmicos: eles estão enfrentando uma onda de usuários finais, mantendo suas assinaturas desnecessárias; uma universidade sem assinatura da Nature não é realmente uma universidade. A publicação gratuita através de sociedades profissionais tornará mais barato, as pessoas preparam seus envios no LaTeX hoje em dia, para que estejam prontas para a câmera e as mesmas pessoas fornecerão a revisão por pares, para que não haja retrocesso de qualidade em nenhuma das dimensões. Mas ... não há nome de marca e o fator de impacto por trás dos periódicos on-line.

Isso resume tudo: http://scatter.wordpress.com/2011/06/28/stata-12/ . O Stata é preferido nos círculos relacionados à economia e às políticas, e quanto mais eu aprendo sobre SAS, mais eu gosto do Stata.

StasK
fonte
38
O SAS tem uma sintaxe horrível que começou com algo semelhante ao JCL (Job Control Language da IBM) para enviar tarefas em lote de cartões perfurados de volta no dia. É notável que as pessoas ainda o estejam usando.
Wayne
6
+1 Gostei especialmente do BlackBerry: iOS: Android: Nokia como SAS: Stata: R: analogia com SPSS no post do gráfico de dispersão.
Jtetzel #
6
Wayne, se você já pensou sobre a instrução CARDS, percebe que o SAS é o pacote estatístico de software para trabalhar com cartões perfurados. Stata trabalha com conjuntos de dados retangulares. R trabalha com objetos. Portanto, dependendo do tipo de formato de dados com o qual você precisa lidar, um pode ser melhor que outros.
StasK
3
Um grande ponto no legado são coisas como a aprovação do FDA ou regulamentos semelhantes. A indústria com a qual falei não tocará em nada (TM) depois de passar por isso para garantir que eles não precisem passar por todo o processo novamente. E esse é um grande argumento em termos de dinheiro.
Cbeleites
48

Trabalhei de maneira tão eficaz como programador do SAS nos últimos sete anos. Ao meu lado, um colega de trabalho programa o SAS por mais tempo do que vivo. Como observado aqui, há uma enorme quantidade de inércia / legado por trás do SAS; mas o SAS, assim como R, é um caminho para um meio, não o meio em si.

O SAS é extremamente eficiente no acesso seqüencial a dados, e o acesso ao banco de dados através do SQL é extremamente bem integrado. Os PROCs estão muito bem documentados, mas infelizmente não são totalmente padronizados com notação (PROC OPTMODEL e IML são dois exemplos). É um pouco desajeitado quando se trata de escrever código complicado, e não é tão elegante para código paralelo. Também achei que a importação de arquivos CSV é uma fonte de grande miséria às vezes e prefiro simplesmente despejá-lo no R e depois em um banco de dados.

Embora o SAS tenha interfaces para objetos e dlls compartilhados, você não obtém um bom acesso a nenhum arquivo de cabeçalho ou algo assim, e a distribuição de código também não está disponível através de pacotes felizes.

No entanto, existe pouca preocupação com alguém que inclua um pacote esotérico agora extinto ou quebrado no código que você precisa manter, e a qualidade do código no SAS tende a ser uniformemente excelente (o código principal R também é excelente e também livremente disponível para qualquer pessoa).

Como mencionado anteriormente, o SAS também é extremamente caro, mas é uma boa ferramenta que eu uso quando sei que existe um procedimento fixo que funciona bem para minhas necessidades.

R + SAS + mysql com um pouco de perl para colar juntos funciona incrivelmente :)

Jonathan Lisic
fonte
11
A observação sobre a manutenção de pacotes antigos também é válida para uma macro escrita por usuário ou um processo antigo que o sas não atualizou.
probabilityislogic
4
O R também possui um suporte SQL muito bom obtido recentemente por meio da dplyrbiblioteca - literalmente converte a sintaxe R / dplyr em SQL e chama o banco de dados, você pode decidir quais operações fazer no servidor db e o local usando a mesma sintaxe: cran.r-project. org / web / packages / dplyr / vignettes / database.html
Tim
41

Então, eu uso o R e o SAS - reconhecidamente na academia -, mas há algumas razões pelas quais eu costumo seguir o SAS às vezes:

  1. Melhor documentação. R está melhorando nisso, mas a documentação, especialmente a documentação oficial, costuma ser meio terrível e opaca. Além disso, o SAS é suportado por uma enorme infraestrutura de livros - o uso do R! série está ajudando isso em R, mas ainda não está lá. Posso recorrer à análise de sobrevivência de Paul Allison usando SAS , ou à análise de dados categóricos usando SAS ou ao livro que tenho sobre métodos de Monte Carlo usando SAS e tenho um livro claramente escrito em um estilo bastante consistente para o idioma que estou usando.
  2. Inércia. Isso não é apenas "as empresas são preguiçosas" - a inércia também tem valor. Existe conhecimento institucional. Fulano tem código que faz isso - e faz bem.
  3. Pacotes. Alguns pacotes no R são incríveis. Alguns pacotes não são. Você precisa encontrá-los, avaliá-los e, mesmo assim, há alguns problemas de fé, pois o pacote é tão bom quanto o cara que está escrevendo. É difícil confiar nisso. O SAS tem essencialmente a "fé e o crédito completos do SAS Institute", que tem um histórico bastante sólido.
  4. Suporte de fonte única. Se o SAS estiver quebrado, você chamará o SAS. Se R estiver quebrado, você liga ....?
Fomite
fonte
21
"Se R estiver quebrado, você liga ...?" Brian Ripley :-) (+1 para esta resposta bem fundamentada)
chl
6
Em relação a 4), acho que há uma confusão de conceitos. Se você usa um programa e ele quebra, geralmente você tem duas opções. Você pode pagar pelo suporte ou procurar suporte disponível gratuitamente (comunidade on-line, literatura, você mesmo). R e SAS podem ser comparados como linguagens de programação estatística. Ambos têm suporte disponível gratuitamente, o que também pode ser comparado. R e SAS não pode ser comparado como soluções de suporte pago ...
jthetzel
7
... O SAS Institute fornece suporte pago ao SAS. Empresas como Revolution Analytics e TIBCO (S +) fornecem suporte pago para R. Se você deseja comparar soluções de suporte pago para R e SAS, você deve comparar o SAS Institute com o Revolution Analytics e TIBCO, e não com R. A confusão, acredito, decorre de a forte integração da linguagem SAS com o SAS Institute e a não integração da linguagem R com suporte e educação corporativa relacionados à R.
precisa saber é o seguinte
3
@ jthetzel Eu não acho que é "confusão". SAS, o idioma está fortemente associado ao serviço SAS. Qualquer plataforma em que o SAS trabalha tem suporte do SAS. Isso não é verdade para o suporte a R e o idioma está dissociado, pode não haver ajuda para você, dependendo da plataforma (tente conversar com o Revolution em algum momento sem usar o Windows ou o RHEL ...) e eles não se responsabilizarão necessariamente por Erros do RandomPackage, onde o SAS oferecerá suporte ao PROC arbitrário.
Fomite 11/08
2
@probabilityislogic Acho que está além de ter que avaliá-lo para ver se é apropriado para sua análise. Sim, ambos podem estar errados e precisam ser avaliados. Mas confio mais na equipe de controle de qualidade da SAS do que em mim.
fomite
39

Ninguém sugeriu que a razão de sua preferência seja pura idiotice. Aqui estão duas citações que me deparei recentemente:

"O uso de software de código aberto como o R estava fora de questão - não podíamos garantir um resultado perfeitamente repetível"

e

"Não poderíamos fornecer suporte para isso, pois é um software de código aberto"

Dois minutos com essas pessoas lhes mostrariam o quanto estão errados.

Spacedman
fonte
3
Dois minutos com quais pessoas? Sem referências, é quase como se você tivesse feito essas citações.
David Heffernan
4
a segunda citação parece boa de um departamento de TI do conselho, não se espera que eles ofereçam suporte a todos os softwares de código aberto possíveis que um cliente possa usar, daí o aviso geral. Acho que a pior cotação de open source anti eu ouvi foi da SAS dizendo soemthing como 'você confiaria em um jato jumbo projetado em código aberto, um motor pode cair fora'
PaulHurleyuk
5
@PaulHurleyuk: +1 A cotação era “Temos clientes que constroem motores para aeronaves. Estou feliz que eles não estão usando gratuito quando eu chegar em um jato.”Por um diretor de marketing SAS no presente artigo do New York Times em R . A representante da SAS esclareceu suas observações em uma postagem no blog posterior .
precisa saber é o seguinte
4
@PaulHurleyuk: Da mesma forma, não se pode esperar que o conselho suporte qualquer software proprietário que o cliente possa querer usar. A abertura não é a razão. Se eles dissessem que não podiam suportar nada fora do conjunto de software suportado, tudo bem.
Spacedman 7/08
5
Nos dois casos que cito, poderia muito bem haver uma decisão racional, mas as razões apresentadas claramente não são essas. Um motivo racional pode ser "já suportamos SAS e não podemos dar ao luxo de suportar dois pacotes de estatísticas". Mas "Não podemos apoiar isso porque é de código aberto" não é sequitur. As duas partes podem ser verdadeiras, mas a conclusão não segue. É como dizer "Elizabeth é a rainha porque o céu é azul".
Spacedman 8/08/12
23

Parece que um problema não foi tratado explicitamente: cobertura de bunda. Se você trabalha com SAS e as coisas explodem, o tomador de decisão sempre pode dizer que comprou um software de ponta, e como ele sabia que isso iria quebrar? Se ele decidiu ir com R, esse argumento será mais difícil de argumentar. Sim, isso está relacionado ao argumento de inércia já mencionado aqui.

Algumas décadas atrás, eles costumavam dizer que "ninguém foi demitido por comprar a IBM" , que foi considerada a maior frase de marketing de todos os tempos.

Stephan Kolassa
fonte
2
Embora eu não tenha certeza de como o R é menos moderno que o SAS (e com relação a muitos procedimentos, tenho a impressão de que R é mais avançado que o SAS). Meu palpite é que um monte de usuários SAS não sei sobre isso embora ...
Patrick Coulombe
21

Como usuário do SAS e do R, eu diria que o maior motivo pelo qual usamos o SAS sobre o R (quando o fazemos) é sua capacidade de processamento sequencial. Só precisamos de máquinas com mais de 4 GB de RAM para processar 15 anos de dados. Eu precisaria de uma máquina muito maior usando o estoque R e não tentei migrar o código SAS para executar com o Revolution R.

dmonder
fonte
8
+1, embora valha a pena notar que existem algumas maneiras de trabalhar com conjuntos de dados maiores que a memória em R ( bigmemory , ff , agrupando dados de um banco de dados, uma ampla variedade de opções de computação distribuída). Mas tudo isso requer configuração; O SAS, de fato, apenas verifica o que você joga nele, o que é uma vantagem real.
Matt Parker
21

Os tempos estão mudando

A partir de 2015, os atuários com menos de 35 anos preferem usar R - os livros de texto usam os códigos R e SAS. Os atuários mais antigos nunca aprenderam a usar R e preferem o SAS e não usam R. A proporção de atuários que realmente codificam no SAS diminuirá.

Se você pesquisar no Google scholar por artigos referentes ao SAS -, encontrará uma constante publicação de 550 publicações por ano nos últimos anos. Se você procurar artigos usando R ("Fundação R para Estatística Computacional"), havia 25.100 em 2014 e em meados de julho de 2015 havia 16.700. Traçando a taxa - está crescendo muito rápido!

O SAS não se ajudou por alguns anos exigindo grandes taxas de licenciamento de universidades - as quais foram revertidas desde então - mas agora é tarde demais para muitas universidades se converterem ao ensino usando R e não SAS.

Novas técnicas estatísticas são publicadas em artigos em conjunto com um pacote R. Algumas técnicas que estão na base R há anos ainda não foram exibidas no SAS. Agora você pode usar o R ​​de dentro do SAS.

Em resumo, as coisas estão mudando e mudando rapidamente.

Sean
fonte
19

Na indústria farmacêutica, o SAS é usado porque é o que o FDA usa e gosta. Existem algumas razões sérias. Os resultados são rastreáveis ​​e a saída possui um registro de data e hora. Os estatísticos da FDA podem verificar o que você recebe. É muito bom para gerenciamento de banco de dados e é um software confiável. É claro que muitos dos atributos do SAS podem estar presentes em outros pacotes de software, incluindo R e SAS, que são caros. Ainda assim, acho que qualquer pessoa que queira ser um estatístico aplicado que trabalha na indústria será melhor, pelo menos, aprender a programar no SAS. Use R ou STATA se preferir, mas conhece o SAS. Quando você trabalha para uma empresa que deseja que você use o SAS, eles pagam pelo licenciamento.

Michael Chernick
fonte
4
Aqui estão algumas informações adicionais sobre o pensamento do FDA em relação à R: blog.revolutionanalytics.com/2012/06/fda-r-ok.html
Matt Parker
4
A Fundação R publicou um artigo em 2008 discutindo o uso de R em ensaios clínicos regulamentados . Deve ser uma boa referência para os colaboradores que são céticos de usar R.
jthetzel
2
eu concordo que existe um movimento para usar R mais em pesquisas clínicas e que muitos acreditam que R pode ser tão rastreável quanto o SAS.
Michael Chernick
6
O FDA fala bastante sobre NÃO endossar ou exigir que qualquer software seja usado. Historicamente, é verdade que a maioria das submissões usou SAS, portanto, o FDA tem muito conhecimento sobre SAS, mas eles foram muito rápidos em adotar outros sistemas, usando R para muitos trabalhos recentes, especialmente em metanálises.
PaulHurleyuk
11
@PaulHurleyuk O que a FDA dirá publicamente e como eles agem na prática não são necessariamente os mesmos. A maioria das empresas farmacêuticas se preocupa principalmente com os ensaios clínicos de fase II e III e geralmente espera que eles precisem e continuem precisando usar o SAS para a análise desses estudos.
Michael Chernick
18

Penso que esta citação de Anne H. Milley resume a maneira como muitas pessoas se sentem sobre R:

Temos clientes que constroem motores para aeronaves. Fico feliz que eles não estejam usando freeware quando entro em um jato.

Infelizmente, acho que esse equívoco (gratuito == inferior) é comum no público em geral.

Zach
fonte
16

(tópico um pouco fora do assunto): vendo o outro ponto: algumas das vantagens que R tem na academia não se aplicam à indústria.

Por exemplo, no meio acadêmico, é uma clara vantagem se você puder pedir aos alunos para irem buscar o software e trabalhar em casa. Na indústria, geralmente você não deve levar dados para casa com você ...

Você também não deve tentar algumas coisas (TM), baixar toneladas de pacotes (mesmo que respeitáveis ​​e testados), usar métodos de ponta. Em vez disso, espera-se que você se atenha aos métodos e códigos usados ​​há anos e nos quais o comportamento é conhecido há séculos. Você não ganharia muitos méritos acadêmicos com isso.

E, é claro, como já foi mencionado: ninguém corre o risco de refazer todos os tipos de aprovação regulatória para mudar para R. .

cbeleites
fonte
3
Não há nada que precisa ser feito para refazer aprovação regulatória em prol da mudança para R.
Frank Harrell
2
@Frank: talvez estejamos pensando em diferentes cenários: acho que você possivelmente está pensando em um novo estudo (e aí está) - estou pensando mais em termos de análise de processos (análise química + estatística) Produção. AFAIK, você não pode simplesmente mudar sua análise de dados para lá (mas não é o país do SAS). Mas eu posso estar errado.
Cbeleites
2
Não estou familiarizado com esse mundo, mas suspeito que os cientistas tenham mais liberdade do que pensam.
31712 Frank
13

Embora seja bastante pessimista, minha resposta seria que o tipo de pessoa que toma decisões abrangentes em empresas como 'nós apenas usamos SAS' também é o tipo de pessoa que não confia no que não entende e automaticamente pensa no valor de algo é diretamente proporcional à quantidade de dinheiro que você gasta nele. Isso os leva a preferir pagar pelo SAS ao invés de gastar tempo investigando alternativas.

PaulHurleyuk
fonte
12

Por que uma grande empresa farmacêutica gostaria de converter para SAS o R? O SAS custa milhões, mas não é nada para uma empresa farmacêutica. No entanto, converter todos os sistemas de relatórios estáveis ​​do SAS para R custaria 50 a 100 vezes mais.

O SAS possui um sistema de suporte fenomenal: toda vez que eu precisava de ajuda, eles eram capazes de fornecê-lo em poucas horas.

E o que exatamente R tem que o SAS não possui: 1) gráficos melhores ... ok, é grande, mas os gráficos não são tudo. além do R sempre pode ser usada uma ferramenta extra para criar alguns gráficos interessantes e o SAS não é tão ruim quando se trata de gráficos 2) linguagem de programação moderna e mais eficiente. Muitos usuários do SAS não são programadores e não se preocupam em usar uma linguagem interessante. Eles só querem poder analisar os dados.

Eu amo R, mas seria uma loucura para uma grande empresa converter em SAS. No entanto, poderia fazer sentido para empresas menores

C máximo
fonte
3
Concordo com você, @Max. Finalmente, uma resposta vinda de alguém da indústria. É caro mudar para R.
Dan
3
Isso é falso. O custo do suporte de programação para o SAS é muito mais alto do que o da R. As empresas contratam hordas de programadores do SAS para compensar a linguagem arcaica que o SAS usa.
Frank Harrell
Estou na indústria e uso os dois. R pode executar manipulações de dados e, mais importante, análises com muito menos linhas e, portanto, pode ser desenvolvido muito mais rapidamente. Eu direi que algumas empresas farmacêuticas construíram completamente os sistemas SAS para programação regulatória que foram bem-sucedidos. O ponto é levado em consideração: por que mudar (neste momento)? Se eles estavam fazendo isso do zero, talvez R em vez disso.
AdamO 24/09
11

Existem várias vantagens principais, em nenhuma ordem específica

  • O SAS possui uma grande base instalada e um longo histórico

Evito intencionalmente o uso de termos pejorativos como "legado" ou "hábito" Muitas empresas usam o SAS há 30 ou 40 anos e possuem milhões de linhas de código em funcionamento. Além disso, existem todos os benefícios de uma base de código estável com milhões de dias de usuário em uma área onde pequenos erros podem ser críticos. Esta é a mesma razão pela qual os sabores do Unix ainda são populares, embora o Unix tenha mais de 40 anos e seja obsoleto de algumas maneiras. Por fim, existe uma grande comunidade de profissionais experientes do SAS, acostumados a resolver problemas de negócios

  • O SAS é adequado para ambientes operacionais e de dados heterogêneos e complexos

As empresas têm muitas fontes de dados diferentes, baseadas em diferentes tipos de sistemas e, em muitos casos, vários ambientes operacionais. Recentemente, o R obteve alguns recursos extremamente básicos para lidar com mais do que pode ser mantido na memória. Compare isso com a capacidade do SAS de suportar processamento nativo, otimizado no banco de dados para terradata, para citar apenas um exemplo. Na maioria das situações do mundo real, a parte mais difícil da análise é lidar com os dados e o ambiente operacional. (é necessário executar o código de pontuação do modelo desenvolvido pelo Windows no mainframe? Com ​​SAS, não há problema. Com R, você está sem sorte.) R não resolve nenhum desses problemas.

  • O usuário não precisa se preocupar em estar "sozinho"

Um usuário do SAS pode estar razoavelmente certo de que todos os módulos de código foram testados por pessoas qualificadas. Não é necessário dedicar tempo e esforço para aprender a procedência do código ou validá-lo independentemente. Além disso, se forem encontrados problemas de qualquer tipo, assistência robusta (de algo tão básico quanto a documentação a algo tão abrangente quanto a exploração detalhada de resultados inesperados ou o comportamento de um método sofisticado), o usuário pode pegar o telefone e obter ajuda.

  • É bom o suficiente"

A linguagem desliga algumas pessoas porque é diferente das linguagens modernas para programação geral. Dito isto, a linguagem é de alto nível, poderosa, expressiva e abrangente. Em suma, uma vez que você aprende, ele faz o trabalho. Para as empresas, a elegância da solução não é um ponto de venda.

JBK
fonte
2
Elegância talvez - mas custa? Eu acho que as empresas se importam com isso!
probabilityislogic
2
O R pode ser executado em qualquer coisa, desde um telefone celular a um supercomputador a custo zero e também a um mainframe, também a custo zero.
Sean
9

Suporte ao cliente.

Certa vez, conversei com um amigo que trabalha em uma empresa especializada na instalação de servidores e ele me explicou por que as grandes empresas sempre optam pelos produtos da Microsoft em vez de se tornarem de código aberto. A vantagem que a Microsoft tem sobre seus concorrentes de código aberto é o suporte ao cliente. Se algo der errado com o produto, a empresa pode ligar para a Microsoft, grandes empresas ainda têm suporte personalizado para eles. Não é assim com o software de código aberto.

Eu acho que é exatamente o mesmo motivo pelo qual o SAS está tendo precedência sobre o R.

Raskolnikov
fonte
2
revolução R (ou outras empresas)?
Ben Bolker 9/08/12
4
Eu acho que esses comentários não estão corretos. No mundo dos servidores, as regras de código aberto e o servidor da web Apache são os servidores da web mais populares.
31712 Frank
Eu nunca disse que ele estava falando sobre servidores. Antes, sobre produtos como o Microsoft Office. Eu apenas mencionei que ele está trabalhando no mundo dos servidores.
Raskolnikov
2
Lembra-me de empresas que usam um sharepoint e um wiki de código aberto. Quase sempre o sharepoint é estéril e apenas o wiki é atualizado.
TLJ
9

E os Frontends? Qual é o equivalente de R para o SAS Enterprise Guide, Web Report Studio ou Enterprise Miner? Editar: essas ferramentas possibilitam que um usuário que não esteja programando use um DATA WAREHOUSE, sem conhecimento sobre a tecnologia subjacente. Eles não são principalmente ferramentas para o uso do SAS como tal. As GUI R são apenas IDE's para a linguagem / sistema R, AFAIK. Eles não podem fornecer ajuda para o usuário não técnico que deseja obter informações e insights do DWH.

Kurt
fonte
2
É uma resposta. O que torna o SAS tão valioso para os clientes (como nós) é a facilidade de uso para pessoas que não precisam escrever uma única linha de código.
Kurt
2
@Kurt, gung não queria dizer que isso não é uma resposta, mas sim que a sua resposta não cabe a este site (e especialmente para a presente questão, na verdade)
Stéphane Laurent
Existem toneladas de GUIs para R, consulte stats.stackexchange.com/questions/5292/…
naught101
2
Bem, eu trabalhei com o RStudio. Comparado ao SAS Enterprise Guide, ele ainda tem um longo caminho até alcançar a facilidade de uso para um usuário iniciante. Adicione o fato de que R está faltando um equivalente ao Metadata Server. E eu sinto falta completamente de um equivalente pronto para uso para o WRS (talvez eu seja cego :)). A beleza de uma linguagem e a produtividade que você pode alcançar não significam quase nada para empresas em que 90% dos "clientes" do data warehouse não conseguiam escrever "Hello World" em qualquer ambiente de programação. Era isso que eu queria destacar e é aí que resta muito trabalho a fazer.
Kurt
2
Obrigado por atualizar sua resposta, @Kurt. Eu acho que será mais útil para futuros leitores agora. É verdade que existem ofertas point & click e data warehouse para SAS que são mais abrangentes e prontas para uso imediato do que R. Esse é um ponto razoável a ser levantado. +1
gung
8

Certa vez, trabalhei para uma empresa de consultoria que prestava assistência à SAS a um grande fabricante de chips no Vale do Silício. Nossa pessoa de contato da empresa nos disse que recebeu uma oferta de outra empresa para fornecer exatamente a mesma consultoria, usando um software diferente que abrange todas as áreas cobertas pelo SAS e que custaria à empresa uma fração do que o SAS estava cobrando. ( US $ 30.000 em vez de US $ 1.000.000). A pessoa de contato considerou o que fazer e decidiu não informar o chefe sobre a oferta, porque temia ser demitido por usar o SAS em primeiro lugar e não considerar alternativas mais baratas. Em vez disso, ele insistiu para que nossa empresa de consultoria desse à empresa uma grande diferença em nossa taxa de consultoria. Nossa empresa concordou.

sAV
fonte
11
Portanto, sua pessoa de contato não conseguiu argumentar que R ainda é relativamente novo em relação ao SAS e queria esperar para garantir que R fosse estabelecido antes de usá-lo.
probabilityislogic
6

Eu não acho que a segurança do aplicativo tenha sido mencionada. Esta pergunta foi levantada no Stack Overflow mas foi descartada, pois estava fora do tópico.

Colaboro com o Conselho Nacional Sueco de Saúde e Bem-Estar que usa o SAS. Quando conversei com seus estatísticos (como R), eles afirmam que o pessoal de TI prefere o SAS, pois não confiam nos pacotes baixados no R. Minha esposa também trabalha no SAS e sua instituição costuma reivindicar o mesmo problema ...

Gostaria muito de ver alguns comentários sobre esse assunto. Fiz uma pesquisa rápida, mas não encontrei boas referências ...

Max Gordon
fonte
3
Qual é a alternativa para baixar um pacote que fornece novos recursos (como a maioria dos pacotes R)? É para crescer em casa esses recursos? Isso é mais confiável?
23712 Frank Frank Harrell
2
@FrankHarrell Concordo, mas acho que essa pode ser uma área fácil para os desenvolvedores de R segmentarem e melhorarem. Uma solução simples pode ter diferentes níveis de segurança para pacotes - se um pacote tiver uma chamada do sistema ou se conectar sozinho à Internet, o pacote deverá ter uma folga mais alta. Isso poderia permitir instalações com apenas liberação de baixo nível nas instituições / empresas onde um vazamento de dados é uma grande preocupação. Como usuário, eu também poderia fazer uma verificação extra quando optar por instalar um pacote de alta folga. (Btw, quando é o seu livro (RMS ver 2) agendada?)
Max Gordon
Espero que a 2ª edição do RMS esteja disponível em pouco mais de um ano.
precisa
5

A razão pela qual eu entendi a mais convincente foi que o SAS possui uma extensa biblioteca de módulos verticais de negócios específicos que as pessoas nessas verticais usam, por isso é meio que um bloqueio.
Mas também que o SAS atendeu às necessidades desses segmentos verticais nos negócios e otimizou em torno de suas necessidades - otimizado no sentido de "o usuário não precisa fazer muito trabalho extra para obter os resultados". Como eu não sou usuário do SAS, isso não significa uma defesa tendenciosa da estratégia de negócios do SAS.

Nitin
fonte
4

Sendo o grande produto comercial que o SAS é, há um esforço forte e coordenado dos vendedores pagos para promovê-lo. Não acho que os esforços para promover o uso de R possam corresponder a eles.

Itamar
fonte
8
Sim, as pessoas precisam descobrir até certo ponto o R. Mas grande parte da questão se resume à inércia de aprender um novo idioma. Sempre estão surgindo novos idiomas com vantagens sobre os idiomas mais antigos, mas os usuários se apegam aos idiomas antigos (testemunha COBOL). Programar no SAS é extremamente ineficiente, exigindo talvez o dobro do número de programadores para fazer o mesmo trabalho que o R, mas os especialistas em SAS gostam de cantarolar no seu caminho alegre e as empresas têm medo do tipo de interrupção que os pouparia milhões de dólares em salários.
precisa
3

Eu olho para código aberto ou software licenciado como este, seja SAS ou qualquer outra coisa. Meu departamento de TI está lá para fornecer um serviço aos nossos negócios. A empresa não ganha dinheiro com TI, apenas com os negócios que a TI suporta. O negócio tem receita anual de US $ 16 bilhões. A TI custa cerca de US $ 200 milhões por ano. Se o dinheiro fosse o problema, eu cortaria custos, mas se economizar 10% ( US $ 20 milhões) do meu orçamento, a empresa notará? Eles apenas reduzirão meu orçamento no próximo ano? Se a TI falhar, os negócios perderão receita, quanto variará na natureza da falha. Partes do negócio não podem mais gerar receita. Se um produto como o SAS falhar, posso processar sob um contrato. Se um produto OSS falhar, não posso. Não recuperarei meus $16 bilhões, mas eu posso receber de volta e, realisticamente, com o SAS, é improvável que você perca muito. A diferença de preço versus custo deve justificar qualquer risco adicional percebido para os negócios. Às vezes, é mais barato ficar com o SAS do que treinar novamente. Às vezes, existem problemas de prioridade mais alta, então as empresas ficam com o SAS. Algumas empresas não precisam da funcionalidade completa; nesse caso, alternativas são viáveis. Alguns não precisam do suporte e, novamente, as alternativas são viáveis. Se você atender aos requisitos de negócios, as duas opções serão válidas. Se você deseja fornecer suporte para uma empresa, precisa analisar o custo total de propriedade em 5 a 10 anos, a capacidade de recrutar especialistas nas ferramentas, a estabilidade no produto para que você não precise reescrever tudo a cada novo lançamento, os cursos de treinamento disponíveis para aperfeiçoar as habilidades,

Bruce Rei
fonte
4
Eu não sigo o seu raciocínio. A quantidade de dinheiro desperdiçada em pagar aos programadores para programar em um idioma arcaico (SAS) versus os idiomas gratuitos modernos é impressionante.
precisa
4
@ Frank - Eu tenho que discordar de sua caracterização. Um programador SAS competente pode ser altamente produtivo no SAS, e os programadores SAS competentes estão amplamente disponíveis. Eu garanto que o R é estruturado mais como uma linguagem moderna e, portanto, pode ser mais fácil aprender para programadores que conhecem, digamos, Java. Na minha experiência em muitas empresas, a produtividade do desenvolvedor usando SAS raramente é um problema material.
JBK #
9
Tendo usado o SAS por 23 anos e o S-Plus / R por 22 anos, posso dizer que um programador SAS altamente experiente pode ser altamente produtivo, mas que um programador R experiente pode ser facilmente três vezes mais produtivo.
precisa
2
"Eu posso processar sob contrato" haha - código incorreto escrito por funcionários é muito mais propensos a causar problemas do que algo SAS ou R faz "por conta própria"
probabilityislogic
1

Algumas razões que eu não vi mencionadas:

  1. Melhor documentação. A documentação do SAS é detalhada, a documentação do R é concisa. Muitas empresas podem preferir documentação detalhada.

  2. Melhores mensagens de erro. As mensagens de erro de R geralmente parecem projetadas para provar que a pessoa que escreve a mensagem é mais inteligente do que a pessoa que a lê.

  3. Suporte técnico. O SAS possui o melhor suporte técnico que já encontrei em qualquer lugar, fornecido pelo SAS. Você pode obter ajuda com o R, mas essa ajuda está espalhada por diferentes lugares e nem sempre está disponível. As pessoas nos vários sites que fornecem ajuda com R são voluntários - e os voluntários não são obrigados a ajudar. As pessoas no suporte técnico da SAS são pagas para fazer o que fazem - e o fazem bem. Eles não apenas fazem isso bem, eles fazem educadamente uma característica que muitas vezes não está presente em todas as comunidades R (minha favorita? "Recebi ajuda digitando 'help', por que você não tenta digitar 'help'?")

  4. euUMATEX

Peter Flom
fonte
11
Tenho certeza de que existem empresas que vendem suporte técnico para R. Mas como isso é bom, não tenho experiência!
kjetil b halvorsen
1

Eu acho que o ângulo herdado pode ser grande pelo seguinte motivo. Uma organização contrata uma pessoa, chame-a de pessoa X. Eles são um guru / assistente de computação / etc. Eles constroem programas / ferramentas incríveis do SAS / etc. Eles são tão bons que outras pessoas na organização não sentem que precisam entender como os programas funcionam. Eles facilitam o pressionamento de um botão e tudo funciona (as caixas pretas mágicas).

A pessoa X sai da organização. Infelizmente, o conhecimento que a pessoa X possui deixa a organização (a documentação e o gerenciamento do conhecimento não foram priorizados, os programas de trabalho foram substituídos). Eles são substituídos pela pessoa Y. A pessoa Y é ótima com R, mas não tem idéia sobre o SAS e, portanto, não tem idéia de como os programas SAS realmente funcionam. Existe uma enorme curva de aprendizado para descobrir o queCTCTé significativamente maior que uma licença de um ano para o SAS. Espero que o SAS esteja analisando esse trade-off e deixando isso influenciar a forma como define a taxa de licença (bem, eu faria se trabalhasse no SAS). Observe também como os procedimentos de plotagem SAS são muito melhores do que uma década atrás (por exemplo, proc sgplot vs proc plot). coincidência que R fez boa plotagem primeiro? Eu acho que não! Isso reduz efetivamente a eficiência da troca porque a plotagem não é mais tão diferente - R ainda é melhor, mas não o suficiente para trocar ...

probabilityislogic
fonte
0

Para as estatísticas industriais, existem pessoas com garantia de qualidade que (geralmente) não têm programação, estatística ou formação científica e que auditam estatísticos, programadores e cientistas. Eles querem saber: "Como você sabe que o que está fazendo é certo?" e "Se estiver errado, como podemos culpar alguém e como eles pagarão por isso?".

A licença GNU / GPL Copyleft vem com texto em lata que diz: "R é um software livre e NÃO É GARANTIDO ABSOLUTAMENTE SEM GARANTIA" no texto de letras maiúsculas exatamente como eu escrevi. Isso é ofensivo. Quando uma pessoa de qualidade lê este texto, basicamente desacredita R totalmente. Quero dizer, se um produto é bom, vale a pena adicionar uma garantia, certo? Tais produtos comerciais nos levaram a acreditar. Na verdade, foi o FDA quem disse que aceitaria envios regulatórios no R que refletissem uma mudança no mar na indústria de software. (Observe que esta declaração vem após a data de postagem original da pergunta.)

Para alguém que não sabe nada sobre computadores, os cenários imaginados de segurança, irreprodutibilidade e graves erros científicos são ilimitados como resultado dessa ABSOLUTAMENTE FALTA DE GARANTIA. Todos concordamos que erros podem ter custos catastróficos. Para sua licença do SAS, o SAS possui especialistas que podem explicar seu software aos auditores e, no cenário impossível de o SAS realmente causar esse problema, eles podem ser responsabilizados por multas e punições (eles também têm dinheiro suficiente para os advogados garantirem que exonerado completamente nesse caso). O ônus e o custo de um analista / programador apresentar esse caso para R equivale basicamente a uma licença SAS. Não que a programação no SAS o exonere completamente da carga esmagadora da conformidade com a qualidade!

Então, basicamente, eu diria que a litígio tem desempenhado um papel importante na necessidade de um software de licença caro.

AdamO
fonte