Nas minhas tentativas de combater o caos das planilhas, sou freqüentemente evangélico ao pressionar por ferramentas mais robustas, como o software de estatística verdadeira (R, Stata e similares). Recentemente, fui desafiado por essa visão por alguém que declarou claramente que simplesmente não aprenderá a programar. Eu gostaria de fornecer a eles ferramentas de análise de dados que não requerem programação (mas o ideal seria estender a programação se eles decidirem mergulhar um dedo na água mais tarde). Quais pacotes existem para exploração de dados que eu posso recomendar com uma cara séria?
data-visualization
software
Ari B. Friedman
fonte
fonte
Respostas:
Eu programo em Python 95% do meu trabalho e o restante em R ou MATLAB ou IDL / PV-WAVE (e em breve SAS). Porém, eu estou em um ambiente em que o tempo para resultados geralmente é um grande impulsionador da análise escolhida e, portanto, também uso ferramentas de apontar e clicar. Na minha experiência, não existe uma ferramenta GUI única, robusta e flexível para fazer análises, assim como não existe um único idioma. Normalmente, monte uma coleção dos seguintes softwares gratuitos e comerciais
Eu não usei JMP, Stata, Statistica, etc, mas gostaria de.
O uso dessas ferramentas envolve o aprendizado de diferentes GUIs e várias abstrações de modelagem, o que é um problema no momento, mas vamos obter resultados ad hoc mais rápidos mais tarde. Estou no mesmo barco que o OP, porque embora a maioria das pessoas com quem trabalho seja realmente inteligente, elas não se importam em aprender um idioma, nem várias GUIs e terminologia específica de aplicativo. Então, eu me resignei a aceitar que o Excel gera 90% das análises no mundo dos negócios. Dessa forma, estou procurando usar coisas como pyinex para permitir que eu forneça melhores análises para a mesma camada de apresentação do Excel que a grande maioria dos meus colegas espera.
ATUALIZAÇÃO: Continuando com o tema Do-modelagem-com-programação-mas-faça-Excel-a-camada-de-apresentação, acabei de encontrar o site desse cara, oferecendo gráficos no estilo Tufte para incorporar nas células do Excel. Simplesmente incrível e grátis!
fonte
No que diz respeito à análise de dados exploratória (possivelmente interativa), sugiro que você analise:
Todos os três aceitam dados
arff
oucsv
formato.Na minha opinião, o Stata não requer tanta experiência em programação. Na verdade, isso faz parte de sua atratividade: a maioria das análises básicas pode ser feita por ações do usuário aponte e clique, com caixas de diálogo para personalizar parâmetros específicos, por exemplo, para previsão em um modelo linear. O mesmo se aplica, embora em menor grau, ao R quando você usa GUIs externas como Rcmdr , Deducer, etc., como dito por @ gsk3.
fonte
Algumas pessoas pensam em programação simplesmente inserindo uma instrução de linha de comando. Nesse ponto, talvez você esteja um pouco perdido em encorajá-los. No entanto, se eles já estão usando planilhas, eles já precisam inserir fórmulas. Eles são semelhantes às instruções da linha de comando. Se eles realmente querem dizer que não querem fazer nenhuma programação no sentido de análises lógicas e automatizadas, você pode dizer a eles que eles ainda podem fazer as análises em R ou Stata sem nenhuma programação.
Se eles podem fazer suas estatísticas na planilha ... tudo o que eles querem fazer ... todas as análises estatísticas que desejam realizar podem ser feitas sem 'programação' em R ou Stata também. Eles poderiam organizar e organizar os dados na planilha e depois exportá-los como texto. Em seguida, a análise é realizada sem nenhuma programação.
É assim que faço introdução ao R às vezes. Nenhuma programação é necessária para fazer a análise de dados que você poderia fazer em uma planilha.
Se você os enganchar dessa maneira, apenas puxe o peixe lentamente ... :) Em alguns anos, elogie-os pelo bom programador que eles se tornaram.
Você também pode querer mostrar este documento aos seus colegas ou, pelo menos, ler você mesmo para melhor expressar sua opinião.
fonte
Vou colocar um argumento aqui para o JMP. Tenho algumas razões pelas quais é a minha ferramenta preferida de exploração de dados que não é de programação:
fonte
Posso recomendar o Tableau como uma boa ferramenta para exploração e visualização de dados, simplesmente por causa das diferentes maneiras em que você pode explorar e visualizar os dados, simplesmente arrastando e soltando. Os gráficos são bastante nítidos e você pode facilmente imprimir em PDF para fins de apresentação. Se você quiser, pode estendê-lo com alguma "programação". Eu regularmente uso essa ferramenta junto com "R" e SAS e todos eles funcionam bem juntos.
fonte
Como John disse, a exploração de dados não requer muita programação em R. Aqui está uma lista de comandos de exploração de dados que você pode dar às pessoas. (Acabei de criar isso; você certamente pode expandi-lo.)
Exporte os dados de qualquer pacote em que esteja. (Exportar dados numéricos sem aspas é conveniente.) Em seguida, leia os dados em R.
Faça uma mesa.
Deixe R adivinhar que tipo de gráfico você deve fornecer. Às vezes, funciona muito bem.
Um monte de funções específicas de plotagem funcionam simplesmente em variáveis únicas.
Tomando subconjuntos
Sintaxe semelhante a SQL, caso as pessoas estejam acostumadas a isso (mais aqui )
PCA (você teria mais de duas variáveis, é claro.)
fonte
Isso é mais um lamento do que uma resposta ...
O melhor software que eu já vi para isso é o Arc , construído sobre o Xlisp-Stat. É um software fantástico para exploração de dados com muitos gráficos interativos integrados, bem como muitos recursos de inferência estatística. Na minha opinião, nada mais chegou perto de sua facilidade de uso para exploração de dados e capacidade de estendê-lo ainda mais com a programação Lisp. Na minha opinião, a interatividade no R está começando a ser usada de maneiras como o Arc, dez longos anos depois. E até onde eu sei, ninguém ainda utilizou esses recursos para criar uma interface interativa que é tão útil quanto o Arc.
Infelizmente, ele nunca pegou, então os desenvolvedores passaram a trabalhar quase todos no R; foi atualizada pela última vez em julho de 2004. As versões para PC e Linux / Unix ainda funcionam e podem valer a pena tentar, dependendo de suas necessidades; para Macs, a melhor opção é experimentar a versão Linux / Unix no X11, consegui fazê-lo funcionar em alguns sistemas dessa maneira. A versão para Mac mencionada no site funciona apenas em Macs "Clássicos".
Mencionarei também brevemente Mondrian , que apenas tentei brevemente, mas parece ter uma ótima interatividade gráfica para exploração de dados, embora (se bem me lembro) não seja uma maneira fácil de ampliar as habilidades ou fazer inferência estatística.
fonte
Um novo sistema de software que parece promissor para esse fim é o Deducer , construído sobre R. Infelizmente, por ser novo, suspeito que ainda não cubra a amplitude de perguntas que as pessoas possam fazer, mas atende ao mesmo padrão. critério de água de levar as pessoas a um pacote verdadeiro, caso assim o decida mais tarde.
Eu também usei o JMP no passado, que tinha uma boa interatividade. Estou preocupado que parte da interface possa ser muito complicada para esses fins. E não é gratuito, o que torna mais difícil para os potenciais refugiados de planilhas experimentarem por capricho.
Há também Rattle, que parece um pouco promissor.
fonte
Para explorar quais dados contêm e limpá-los, o antigo Google Refine, agora Open Refine , é uma GUI muito boa. É muito mais poderoso para a preparação e limpeza do que algo como o Excel. Em seguida, mude para algo como o R-Commander para suas análises.
fonte
Qualquer pessoa que responda R ou qualquer uma das "GUIs" não leu a pergunta.
Existe um programa projetado especificamente para isso e é chamado JMP. Sim, é caro, embora tenha uma avaliação gratuita e é incrivelmente barato para estudantes ou funcionários da faculdade (como US $ 50 baratos).
Há também o RapidMiner, uma GUI baseada em fluxo de trabalho para mineração de dados e análise estatística. É gratuito e de código aberto.
fonte
Bem, essa ferramenta em particular é popular no meu setor (embora não seja específica por setor): http://www.umetrics.com/simca
Ele permite que você faça análises multivariadas latentes de tipo variável (PCA e PLS) e inclui todas as plotagens / cálculos interpretativos e ferramentas de interrogação, como plotagens de contribuição, plotagens de importância variável, cálculos de Q2 etc.
É freqüentemente usado em conjuntos de dados industriais de alta dimensão (e geralmente altamente correlacionados / colineares), onde os métodos do tipo OLS / MLR são inadequados (por exemplo, informações de uma carga de sensores, informações de log etc.).
Ele opera em um ambiente totalmente GUI, e o usuário não precisa escrever uma única linha de código. Infelizmente, não é gratuito e não pode ser estendido via programação.
fonte
Na minha opinião, se você não codificar a si mesmo o teste, estará sujeito a erros e mal-entendidos nos resultados.
Eu acho que você deve recomendá-los a contratar um estatístico que tenha conhecimentos de informática.
Se é para fazer sempre a mesma coisa, na verdade você pode usar uma pequena ferramenta (caixa preta) que fará as coisas. Mas não tenho certeza se isso ainda é chamado de exploração de dados.
fonte
Eu recomendaria o pacote R de John Fox chamado R commander:
http://socserv.mcmaster.ca/jfox/Misc/Rcmdr/
Ele cria uma interface com o usuário semelhante ao SPSS (ou similar), excelente para iniciantes e não requer que o usuário insira nenhum código. Tudo é feito via caixas suspensas (você pode até minimizar o console R enquanto trabalha).
Para mim, o benefício deste pacote é que você pode tirar proveito de toda a grande capacidade computacional do R enquanto possui uma interface de usuário totalmente operacional para iniciantes.
fonte
Outra ferramenta útil, embora apenas para Windows, é o Spotfire - achei bastante útil para analisar rapidamente vários histogramas e gráficos de dispersão para variáveis únicas e pares. Uma ferramenta de pesquisa que ajuda a classificar variáveis únicas e pares com base em estatísticas simples - Hierarchical Clustering Explorer da HCIL. É bom encontrar as variáveis / pares de variáveis mais interessantes.
fonte