Parece que muitas pessoas (inclusive eu) gostam de fazer análise exploratória de dados no Excel. Algumas limitações, como o número de linhas permitido em uma planilha, são dolorosas, mas na maioria dos casos não tornam impossível o uso do Excel para brincar com dados.
Um artigo de McCullough e Heiser , no entanto, praticamente grita que você errará todos os resultados - e provavelmente queimará também no inferno - se você tentar usar o Excel.
Este artigo está correto ou é tendencioso? Os autores parecem odiar a Microsoft.
software
computational-statistics
excel
Carlos Accioly
fonte
fonte
R
SAS).Respostas:
Use a ferramenta certa para o trabalho certo e explore os pontos fortes das ferramentas que você conhece.
No caso do Excel, existem alguns problemas importantes:
Não use uma planilha para gerenciar dados, mesmo que eles se encaixem em um. Você está apenas pedindo problemas, problemas terríveis. Praticamente não há proteção contra erros tipográficos, mistura de dados por atacado, truncamento de valores de dados etc., etc.
Muitas das funções estatísticas estão de fato quebradas. A distribuição t é uma delas.
Os gráficos padrão são terríveis.
Faltam alguns gráficos estatísticos fundamentais, especialmente gráficos de caixa e histogramas.
O gerador de números aleatórios é uma piada (mas, apesar disso, ainda é eficaz para fins educacionais).
Evite as funções de alto nível e a maioria dos suplementos; eles são c ** p. Mas este é apenas um princípio geral da computação segura: se você não tiver certeza do que uma função está fazendo, não a use. Atenha-se aos de baixo nível (que incluem funções aritméticas, classificação, exp, ln, funções trigonométricas e - dentro de limites - as funções normais de distribuição). Nunca use um suplemento que produza um gráfico: será terrível. (Nota: é fácil criar seus próprios gráficos de probabilidade do zero. Eles serão corretos e altamente personalizáveis.)
A seu favor, porém, são os seguintes:
Seus cálculos numéricos básicos são tão precisos quanto os flutuadores de precisão dupla. Eles incluem alguns úteis, como gama de log.
É muito fácil envolver um controle em torno das caixas de entrada em uma planilha, possibilitando a criação de simulações dinâmicas com facilidade.
Se você precisar compartilhar um cálculo com pessoas não estatísticas, a maioria terá algum conforto com uma planilha e nenhuma com software estatístico, por mais barato que seja.
É fácil escrever macros numéricas eficazes, incluindo a transferência de código Fortran antigo, bastante próximo do VBA. Além disso, a execução do VBA é razoavelmente rápida. (Por exemplo, eu tenho um código que calcula com precisão distribuições t não centrais do zero e três implementações diferentes de Fast Fourier Transforms.)
Ele suporta algumas simulações eficazes e complementos de Monte-Carlo, como Crystal Ball e @Risk. (Eles usam seus próprios RNGs, a propósito - eu verifiquei.)
O imediatismo de interagir diretamente com (um pequeno conjunto de) dados é incomparável: é melhor do que qualquer pacote de estatísticas, Mathematica, etc. Quando usada como uma calculadora gigante com muito armazenamento, uma planilha realmente se destaca.
A boa EDA, usando métodos robustos e resistentes, não é fácil, mas depois de fazer uma vez, você pode configurá-la novamente rapidamente. Com o Excel, você pode reproduzir efetivamente todos os cálculos (embora apenas alguns dos gráficos) no livro EDA de Tukey, incluindo o polimento médio das tabelas n-way (embora seja um pouco complicado).
Em resposta direta à pergunta original, há um viés nesse artigo: ele se concentra no material em que o Excel é mais fraco e que é menos provável que um estatístico competente use. Isso não é uma crítica ao jornal, no entanto, porque avisos como esse precisam ser transmitidos.
fonte
=TINV(2*p,df)
valores de p que variam de 0,01 até quase 0 e compare-os com os valores corretos. (Verifiquei com df variando de 2 a 32.) Os erros começam na sexta figura significativa e depois explodem quando p é em torno de 1.E-5 ou inferior. Embora esses valores de p sejam pequenos, são valores realistas a serem testados porque são cruciais para testes de comparações múltiplas e para calcular valores relacionados à distribuição t, como o não central.Um artigo interessante sobre o uso do Excel em uma configuração de Bioinformática é:
Este breve artigo descreve o problema de conversões de tipo automáticas no Excel (em particular conversões de data e ponto flutuante). Por exemplo, o nome do gene Sept2 é convertido em 2-Sept. Você pode realmente encontrar esse erro em bancos de dados online .
Usar o Excel para gerenciar grandes e médias quantidades de dados é perigoso. Os erros podem facilmente aparecer sem que o usuário perceba.
fonte
Bem, a questão de saber se o artigo está correto ou tendencioso deve ser fácil: você pode apenas replicar algumas de suas análises e ver se obtém as mesmas respostas.
McCullough vem desmembrando versões diferentes do MS Excel há alguns anos e, aparentemente, a MS não achou adequado corrigir os erros que ele apontou anos atrás nas versões anteriores.
Não vejo problema em brincar com dados no Excel. Mas, para ser sincero, eu não faria minhas análises "sérias" no Excel. Meu principal problema não seria imprecisão (o que acho que raramente será um problema), mas a impossibilidade de rastrear e replicar minhas análises um ano depois, quando um revisor ou meu chefe perguntarem por que eu não fiz o X - você pode salvar o seu trabalhe e seus becos sem saída no código R comentado, mas não de maneira significativa no Excel.
fonte
Incidentalmente, uma pergunta sobre o uso de planilhas do Google levantou opiniões contrastantes (por isso, interessantes) sobre isso: alguns de vocês usam a planilha do Google Docs para conduzir e compartilhar seu trabalho estatístico com outras pessoas?
Eu tenho em mente um artigo mais antigo que não parecia tão pessimista, mas é apenas citado marginalmente no artigo que você mencionou: Keeling e Pavur, um estudo comparativo da confiabilidade de nove pacotes de software estatístico (CSDA 2007 51: 3811). Mas agora, encontrei o seu no meu disco rígido. Também houve uma edição especial em 2008, consulte a seção Especial no Microsoft Excel 2007 e, mais recentemente, no Journal of Statistical Software: Sobre a precisão numérica de planilhas .
Eu acho que é um debate de longa data, e você encontrará vários artigos / opiniões sobre a confiabilidade do Excel para computação estatística. Eu acho que existem diferentes níveis de discussão (que tipo de análise você planeja fazer, você confia no solucionador interno, existem termos não lineares que entram em um determinado modelo etc.) e podem surgir fontes de imprecisão numérica como resultado de erros de computação adequados ou problemas de escolhas de design ; isso está bem resumido em
Agora, para análise exploratória de dados, existem várias alternativas que fornecem recursos aprimorados de visualização, gráficos multivariados e dinâmicos, por exemplo, GGobi - mas consulte tópicos relacionados neste wiki.
Mas, claramente, o primeiro ponto que você mencionou aborda outro problema (IMO): o uso de uma planilha para lidar com grandes conjuntos de dados: simplesmente não é possível importar um grande arquivo csv para o Excel (estou pensando em dados genômicos, mas se aplica a outro tipo de dados de alta dimensão). Não foi construído para esse fim.
fonte
Os trabalhos e outros participantes apontam para fragilidades técnicas. Whuber faz um bom trabalho ao descrever pelo menos alguns de seus pontos fortes. Pessoalmente, faço um extenso trabalho estatístico no Excel (teste de hipóteses, regressões lineares e múltiplas) e adoro isso. Uso o Excel 2003 com uma capacidade de 256 colunas e 65.000 linhas, que podem lidar com quase 100% dos conjuntos de dados que uso. Entendo que o Excel 2007 estendeu essa capacidade em uma quantidade enorme (linhas na casa dos milhões).
Como Whuber menciona, o Excel também serve como uma plataforma inicial para uma infinidade de softwares de complementos bastante impressionantes, todos poderosos e fáceis de usar. Estou pensando em Crystal Ball e @Risk para Monte Carlo Simulation; XLStat para todas as estatísticas poderosas e análise de dados; O que é melhor para otimização. E a lista continua. É como se o Excel fosse o equivalente a um iPod ou iPad com um zilhão de aplicativos bastante incríveis. Concedido que os aplicativos do Excel não são baratos. Mas, pelo que eles são capazes de fazer, normalmente são ótimas pechinchas.
No que diz respeito à documentação do modelo, é tão fácil inserir uma caixa de texto onde você pode literalmente escrever um livro sobre sua metodologia, suas fontes, etc ... Você também pode inserir comentários em qualquer célula. Portanto, se alguma coisa, o Excel é realmente bom para facilitar a documentação incorporada.
fonte
O Excel não é bom para estatísticas, mas pode ser maravilhoso para a análise exploratória de dados. Dê uma olhada neste vídeo para algumas técnicas particularmente interessantes. A capacidade do Excel de colorir condicionalmente seus dados e adicionar gráficos de barras na célula pode fornecer uma excelente visão da estrutura dos dados brutos.
fonte
Outra boa fonte de referência sobre por que você pode não querer usar o Excel é:
Dependência da planilha
Se você se encontrar em uma situação em que realmente precisa usar o Excel (alguns departamentos acadêmicos insistem), sugiro usar o plug-in Rexcel . Isso permite que você faça interface usando o Excel, mas usa o programa R como o mecanismo computacional. Você não precisa conhecer o R para usá-lo, pode usar menus e caixas de diálogo suspensos, mas pode fazer muito mais se o fizer. Como R está fazendo os cálculos, eles são muito mais confiáveis do que o Excel e você tem gráficos e boxplots muito melhores e outros gráficos ausentes no Excel. Até funciona com a atualização automática de células no excel (embora isso possa tornar as coisas muito lentas se você tiver muitas análises complexas para recalcular toda vez). Ele não resolve todos os problemas da página de dependência de planilhas, mas é uma grande melhoria em relação ao uso do straight straight.
fonte
O Excel pode ser excelente tanto para análise exploratória de dados quanto para análise de regressão linear com os plugins corretos. Existem vários produtos comerciais, embora muitos deles deixem algo a desejar em termos de qualidade da saída que produzem (eles não aproveitam ao máximo as opções de gráficos do Excel ou a capacidade de vincular-se a outros aplicativos do Office) e em geral, eles não são tão bons quanto poderiam ser para visualização e apresentação de dados. Eles também tendem a não suportar uma abordagem de modelagem disciplinada na qual (entre outras coisas) você mantém uma trilha de auditoria bem documentada para o seu trabalho. Aqui está um plugin GRATUITO, "RegressIt", que aborda muitos desses problemas: http://regressit.com. Ele fornece um suporte muito bom para a análise exploratória (incluindo a capacidade de gerar gráficos de séries temporais paralelas e matrizes de gráficos de dispersão com até 50 variáveis), facilita a aplicação de transformações de dados, como atraso, registro e diferenciação (que geralmente não são aplicadas apropriadamente por usuários ingênuos de regressão), fornece resultados de tabelas e gráficos muito detalhados que suportam as melhores práticas de análise de dados e mantém uma planilha de trilha de auditoria que facilita as comparações de modelos lado a lado, além de manter um registro de quais modelos foram montados em que ordem. É um bom complemento para o que mais você estiver usando, se estiver lidando com dados multivariados e pelo menos parte do seu trabalho estiver sendo realizada em um ambiente do Excel.
fonte