Software para exploração de dados fácil, porém robusta

20

Nas minhas tentativas de combater o caos das planilhas, sou freqüentemente evangélico ao pressionar por ferramentas mais robustas, como o software de estatística verdadeira (R, Stata e similares). Recentemente, fui desafiado por essa visão por alguém que declarou claramente que simplesmente não aprenderá a programar. Eu gostaria de fornecer a eles ferramentas de análise de dados que não requerem programação (mas o ideal seria estender a programação se eles decidirem mergulhar um dedo na água mais tarde). Quais pacotes existem para exploração de dados que eu posso recomendar com uma cara séria?

Ari B. Friedman
fonte
5
@ gsk3 - pergunta interessante. Eu teria um palpite de que este "programaphobe" não tem que lidar com as planilhas complicadas? talvez ele / ela gostaria de cumprir sua ideologia e se voluntariar para fazer o trabalho duro com as próprias planilhas? :)
probabilityislogic
@probabilityislogic: O "programaphobe" lida com eles uma vez que causam problemas, mas tem um monte de truques para lidar com os resultados. Eu tentei os argumentos clássicos anti-planilha com pouco proveito (bem, alguns valem, já que eles estão dispostos a considerar esse estilo de solução!).
Ari B. Friedman
@ gsk3 - ah ha, então não é o programa que é o problema em si, mas essa pessoa não será mais "a especialista" e terá que começar de baixo?
probabilityislogic
2
@probabilityislog - acho que os custos irrecuperáveis ​​são uma grande parte do problema, sim. Alguns desses custos são sem dúvida sociais, e alguns deles são perdas de tempo e eficiência enquanto aprendem a nova maneira de fazer as coisas.
Ari B. Friedman
3
Eu acho que esse quadrinho pode ser uma representação apropriada da situação. Se a pessoa a quem você está se referindo estiver totalmente contra a programação, essa pode ser uma preferência muito forte a ser contrariada. Uma estratégia melhor pode ser apontar as deficiências da análise baseada em planilha. Tente, por exemplo, no novo arquivo do Excel, inserir os valores e11116 e soma-os (isso funciona no Excel 2007). Explique então que nenhum pacote estatístico que se preze fornecerá erros semelhantes sem nenhum aviso e trabalhará com isso. 114
precisa saber é o seguinte

Respostas:

7

Eu programo em Python 95% do meu trabalho e o restante em R ou MATLAB ou IDL / PV-WAVE (e em breve SAS). Porém, eu estou em um ambiente em que o tempo para resultados geralmente é um grande impulsionador da análise escolhida e, portanto, também uso ferramentas de apontar e clicar. Na minha experiência, não existe uma ferramenta GUI única, robusta e flexível para fazer análises, assim como não existe um único idioma. Normalmente, monte uma coleção dos seguintes softwares gratuitos e comerciais

Eu não usei JMP, Stata, Statistica, etc, mas gostaria de.

O uso dessas ferramentas envolve o aprendizado de diferentes GUIs e várias abstrações de modelagem, o que é um problema no momento, mas vamos obter resultados ad hoc mais rápidos mais tarde. Estou no mesmo barco que o OP, porque embora a maioria das pessoas com quem trabalho seja realmente inteligente, elas não se importam em aprender um idioma, nem várias GUIs e terminologia específica de aplicativo. Então, eu me resignei a aceitar que o Excel gera 90% das análises no mundo dos negócios. Dessa forma, estou procurando usar coisas como pyinex para permitir que eu forneça melhores análises para a mesma camada de apresentação do Excel que a grande maioria dos meus colegas espera.

ATUALIZAÇÃO: Continuando com o tema Do-modelagem-com-programação-mas-faça-Excel-a-camada-de-apresentação, acabei de encontrar o site desse cara, oferecendo gráficos no estilo Tufte para incorporar nas células do Excel. Simplesmente incrível e grátis!

Josh Hemann
fonte
1
Eu vou dizer que o JMP é muito bom. Mesmo se alguém é muito proficiente em R, há momentos em que o JMP é uma maneira mais rápida de navegar e analisar dados.
Iterator
8

No que diz respeito à análise de dados exploratória (possivelmente interativa), sugiro que você analise:

  • Weka , originalmente tem como alvo aplicativos de mineração de dados, mas pode ser usado para resumos de dados.
  • Mondrian , para visualização interativa de dados.
  • KNIME , que se baseia na idéia de criar fluxos de dados e é compatível com Weka e R.

Todos os três aceitam dados arffou csvformato.

Na minha opinião, o Stata não requer tanta experiência em programação. Na verdade, isso faz parte de sua atratividade: a maioria das análises básicas pode ser feita por ações do usuário aponte e clique, com caixas de diálogo para personalizar parâmetros específicos, por exemplo, para previsão em um modelo linear. O mesmo se aplica, embora em menor grau, ao R quando você usa GUIs externas como Rcmdr , Deducer, etc., como dito por @ gsk3.

chl
fonte
+1 para Stata. Você pode executar todos os conceitos básicos através do apontar e clicar, mas também fornece o comando que o apontador gerou, para que você possa aprender / modificar. Também é parecido com uma planilha na maneira como você interage com seus dados, embora você não coloque fórmulas nas células, é claro.
Wayne
8

Algumas pessoas pensam em programação simplesmente inserindo uma instrução de linha de comando. Nesse ponto, talvez você esteja um pouco perdido em encorajá-los. No entanto, se eles já estão usando planilhas, eles já precisam inserir fórmulas. Eles são semelhantes às instruções da linha de comando. Se eles realmente querem dizer que não querem fazer nenhuma programação no sentido de análises lógicas e automatizadas, você pode dizer a eles que eles ainda podem fazer as análises em R ou Stata sem nenhuma programação.

Se eles podem fazer suas estatísticas na planilha ... tudo o que eles querem fazer ... todas as análises estatísticas que desejam realizar podem ser feitas sem 'programação' em R ou Stata também. Eles poderiam organizar e organizar os dados na planilha e depois exportá-los como texto. Em seguida, a análise é realizada sem nenhuma programação.

É assim que faço introdução ao R às vezes. Nenhuma programação é necessária para fazer a análise de dados que você poderia fazer em uma planilha.

Se você os enganchar dessa maneira, apenas puxe o peixe lentamente ... :) Em alguns anos, elogie-os pelo bom programador que eles se tornaram.

Você também pode querer mostrar este documento aos seus colegas ou, pelo menos, ler você mesmo para melhor expressar sua opinião.

John
fonte
1
Bons pontos, mas há algumas ressalvas aqui: o Excel possui dicas de ferramentas que aparecem ao inserir uma fórmula em uma célula e, portanto, facilita muito a "programação" de tarefas simples. Além disso, é provável que a pessoa ao seu lado possa ajudá-lo se você ficar preso, pois há muitos usuários avançados do Excel. E, o Excel vem instalado. Convencer alguém a experimentar o R ​​envolve ajudá-lo a configurá-lo e aprender a aproveitar o software de código aberto (e quais fóruns procurar, qual dos vários pacotes de auto-inicialização deve ser usado etc.). A programação é, em certo sentido, a parte mais fácil. É o ecossistema que é a parte mais difícil.
Josh Hemann
Também não há real problemas de formatação no Excel ... De R vezes se usa pacote XTS, outro data.frames ... é uma bagunça para um novato, isso é verdade
RockScience
Em primeiro lugar, concordo que pode haver problemas na formatação dos dados, mas lembre-se de que minha resposta foi qualificada como análise que já poderia ser feita em uma planilha. Isso não é muita análise variada e geralmente estaria em um formato de dados.
John
Há um pouco mais de sobrecarga na "programação" com o R do que no Excel, e essas são as coisas que deixam os usuários loucos. Se R tivesse uma GUI de alto nível semelhante a uma tabela dinâmica, talvez. Mas até então ...
Ralph Winters
8

Vou colocar um argumento aqui para o JMP. Tenho algumas razões pelas quais é a minha ferramenta preferida de exploração de dados que não é de programação:

  1. Ferramentas de visualização realmente boas. Gráficos mais básicos do tipo EDA, é tão bom quanto R, e consideravelmente mais fácil de usar para produzir algo parecido com um gráfico pronto para publicação. Ele também possui algumas ferramentas de visualização extremamente flexíveis, para que você possa torcer e dobrar seus dados para obter a história completa.
  2. Surpreendentemente poderoso. Levei até o meu ... 4º ano de pós-graduação para encontrar algo que o JMP não pudesse fazer imediatamente. Isso não é ruim.
  3. Scriptability. Isso é uma grande coisa para mim. A principal fraqueza das GUIs é que é muito difícil replicar o que você fez. O JMP permite que você crie scripts para a GUI - e gerar esses scripts é bastante simples.
Fomite
fonte
+1 para JMP. É o melhor gui de estatísticas básicas que já usei.
Zach
1
Acordado (bem com o ponto 1). De certa forma, é ainda melhor que R para o material da EDA e pode ser inserido de maneira adequada em um fluxo de trabalho iterativo. Se alguém já estiver trabalhando sem R, então o JMP é uma maneira razoável de trabalhar sem adicionar R. Como também pode vincular ao R, um programador de R pode criar ferramentas que depois se conectam ao JMP, permitindo que o usuário Eloi, errr, continue acreditar que tudo é simplesmente dândi.
Iterator
6

Posso recomendar o Tableau como uma boa ferramenta para exploração e visualização de dados, simplesmente por causa das diferentes maneiras em que você pode explorar e visualizar os dados, simplesmente arrastando e soltando. Os gráficos são bastante nítidos e você pode facilmente imprimir em PDF para fins de apresentação. Se você quiser, pode estendê-lo com alguma "programação". Eu regularmente uso essa ferramenta junto com "R" e SAS e todos eles funcionam bem juntos.

Ralph Winters
fonte
3

Como John disse, a exploração de dados não requer muita programação em R. Aqui está uma lista de comandos de exploração de dados que você pode dar às pessoas. (Acabei de criar isso; você certamente pode expandi-lo.)

Exporte os dados de qualquer pacote em que esteja. (Exportar dados numéricos sem aspas é conveniente.) Em seguida, leia os dados em R.

ChickWeight=read.csv('chickweight.csv')

Faça uma mesa.

table(ChickWeight$Diet)

Deixe R adivinhar que tipo de gráfico você deve fornecer. Às vezes, funciona muito bem.

plot(ChickWeight)
plot(ChickWeight$weight)
plot(ChickWeight$weight~ChickWeight$Diet)

Um monte de funções específicas de plotagem funcionam simplesmente em variáveis ​​únicas.

hist(ChickWeight$weight)

Tomando subconjuntos

plot(subset(ChickWeight,Diet=='2'))

Sintaxe semelhante a SQL, caso as pessoas estejam acostumadas a isso (mais aqui )

library(sqldf)
plot(sqldf('select * from ChickWeight where Diet == "2"'))

PCA (você teria mais de duas variáveis, é claro.)

princomp(~ ChickWeight$weight + ChickWeight$Time)
Thomas Levine
fonte
3

Isso é mais um lamento do que uma resposta ...

O melhor software que eu já vi para isso é o Arc , construído sobre o Xlisp-Stat. É um software fantástico para exploração de dados com muitos gráficos interativos integrados, bem como muitos recursos de inferência estatística. Na minha opinião, nada mais chegou perto de sua facilidade de uso para exploração de dados e capacidade de estendê-lo ainda mais com a programação Lisp. Na minha opinião, a interatividade no R está começando a ser usada de maneiras como o Arc, dez longos anos depois. E até onde eu sei, ninguém ainda utilizou esses recursos para criar uma interface interativa que é tão útil quanto o Arc.

Infelizmente, ele nunca pegou, então os desenvolvedores passaram a trabalhar quase todos no R; foi atualizada pela última vez em julho de 2004. As versões para PC e Linux / Unix ainda funcionam e podem valer a pena tentar, dependendo de suas necessidades; para Macs, a melhor opção é experimentar a versão Linux / Unix no X11, consegui fazê-lo funcionar em alguns sistemas dessa maneira. A versão para Mac mencionada no site funciona apenas em Macs "Clássicos".

Mencionarei também brevemente Mondrian , que apenas tentei brevemente, mas parece ter uma ótima interatividade gráfica para exploração de dados, embora (se bem me lembro) não seja uma maneira fácil de ampliar as habilidades ou fazer inferência estatística.

Aaron - Restabelecer Monica
fonte
Não tinha ouvido falar em Arc, mas iria dar uma olhada. Obrigado.
Ari B. Friedman
1
(+1) É bom ouvir o mundo Lisp novamente. Também sou fã do xlispstat (e aprecio o fato de Luke Tierney estar sendo tão ativo no projeto R).
chl
3

Um novo sistema de software que parece promissor para esse fim é o Deducer , construído sobre R. Infelizmente, por ser novo, suspeito que ainda não cubra a amplitude de perguntas que as pessoas possam fazer, mas atende ao mesmo padrão. critério de água de levar as pessoas a um pacote verdadeiro, caso assim o decida mais tarde.

Eu também usei o JMP no passado, que tinha uma boa interatividade. Estou preocupado que parte da interface possa ser muito complicada para esses fins. E não é gratuito, o que torna mais difícil para os potenciais refugiados de planilhas experimentarem por capricho.


Há também Rattle, que parece um pouco promissor.

Ari B. Friedman
fonte
Em relação ao JMP - Se não me engano, há versões de teste e licenças acadêmicas que estão dentro do razoável.
Iterator
3

Para explorar quais dados contêm e limpá-los, o antigo Google Refine, agora Open Refine , é uma GUI muito boa. É muito mais poderoso para a preparação e limpeza do que algo como o Excel. Em seguida, mude para algo como o R-Commander para suas análises.

John
fonte
2

Qualquer pessoa que responda R ou qualquer uma das "GUIs" não leu a pergunta.

Existe um programa projetado especificamente para isso e é chamado JMP. Sim, é caro, embora tenha uma avaliação gratuita e é incrivelmente barato para estudantes ou funcionários da faculdade (como US $ 50 baratos).

Há também o RapidMiner, uma GUI baseada em fluxo de trabalho para mineração de dados e análise estatística. É gratuito e de código aberto.

Neil McGuigan
fonte
1
@ Neil Por que é assim? O OP especificou "mas idealmente o que se estenderia à programação ...". O R foi conectado a quase todos os softwares estatísticos comerciais (por exemplo, SPSS, JMP, Statistica) ou gratuitos (Knime, Rapidminer) e o Rserve pode ser usado como back-end para se comunicar com o R (por exemplo, com o software de plink para estudos genéticos), e é usado para esse fim. A versão de avaliação gratuita do JMP não permite que você trabalhe com conjuntos de dados externos, estou errado? (Curiosamente, todos nós que respondeu R, e um software alternativo , foram downvoted.)
chl
Eu gosto de R e sou a favor disso, mas as pessoas que querem aprender estatísticas / datamining e não sabem como programar realmente não podem usá-lo. e eu joguei com todos os seus guis e eles são simplesmente horríveis em comparação com o jmp. Estou apenas esperando o dia em que R recebe um gui como jmp, então tudo ficará bem com o universo.
Neil McGuigan
-1 por sugestão de que as pessoas não leem perguntas antes de responderem e por não fornecerem argumentos reais por que R é pior que JMP ou RapidMiner. Observe que, em geral, eu concordo que R não é uma resposta para tudo, mas esse tópico é um pouco contrário ao potencial de ficar realmente desagradável. Daí o voto negativo.
precisa saber é o seguinte
R é ótimo, mas não é fácil. Foi o que ele pediu no título.
Neil McGuigan
@ Neil, sim, mas você pode argumentar que não existe exploração de dados fácil, porém robusta.
mpiktas
1

Bem, essa ferramenta em particular é popular no meu setor (embora não seja específica por setor): http://www.umetrics.com/simca

Ele permite que você faça análises multivariadas latentes de tipo variável (PCA e PLS) e inclui todas as plotagens / cálculos interpretativos e ferramentas de interrogação, como plotagens de contribuição, plotagens de importância variável, cálculos de Q2 etc.

É freqüentemente usado em conjuntos de dados industriais de alta dimensão (e geralmente altamente correlacionados / colineares), onde os métodos do tipo OLS / MLR são inadequados (por exemplo, informações de uma carga de sensores, informações de log etc.).

Ele opera em um ambiente totalmente GUI, e o usuário não precisa escrever uma única linha de código. Infelizmente, não é gratuito e não pode ser estendido via programação.

Gilead
fonte
1

Na minha opinião, se você não codificar a si mesmo o teste, estará sujeito a erros e mal-entendidos nos resultados.

Eu acho que você deve recomendá-los a contratar um estatístico que tenha conhecimentos de informática.

Se é para fazer sempre a mesma coisa, na verdade você pode usar uma pequena ferramenta (caixa preta) que fará as coisas. Mas não tenho certeza se isso ainda é chamado de exploração de dados.

RockScience
fonte
1
Eu concordo mais ou menos com o sentimento, mas não acho que essa visão de opinião seja realmente possível em muitas situações.
Ari B. Friedman
1

Eu recomendaria o pacote R de John Fox chamado R commander:

http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/

Ele cria uma interface com o usuário semelhante ao SPSS (ou similar), excelente para iniciantes e não requer que o usuário insira nenhum código. Tudo é feito via caixas suspensas (você pode até minimizar o console R enquanto trabalha).

Para mim, o benefício deste pacote é que você pode tirar proveito de toda a grande capacidade computacional do R enquanto possui uma interface de usuário totalmente operacional para iniciantes.

Capitão Murphy
fonte
1

Outra ferramenta útil, embora apenas para Windows, é o Spotfire - achei bastante útil para analisar rapidamente vários histogramas e gráficos de dispersão para variáveis ​​únicas e pares. Uma ferramenta de pesquisa que ajuda a classificar variáveis ​​únicas e pares com base em estatísticas simples - Hierarchical Clustering Explorer da HCIL. É bom encontrar as variáveis ​​/ pares de variáveis ​​mais interessantes.

lince
fonte