Alguns de vocês usam a planilha do Google Docs para conduzir e compartilhar seu trabalho estatístico com outras pessoas?

15

Sei que muitos de vocês provavelmente acham que o Google Docs ainda é uma ferramenta primitiva. Não é Matlab ou R e nem mesmo Excel. No entanto, estou perplexo com o poder desse software baseado na Web, que apenas usa a capacidade operacional de um navegador (e é compatível com muitos navegadores que funcionam de maneira muito diferente).

Mike Lawrence, ativo neste fórum, compartilhou uma planilha conosco usando o Google Docs, fazendo algumas coisas bem bonitas. Pessoalmente, repliquei uma estrutura de teste de hipóteses bastante completa (incluindo vários testes paramétricos e não paramétricos) originalmente feitos no Excel no Google Docs.

Estou interessado se algum de vocês experimentou o Google Docs e o levou ao limite em aplicativos interessantes. Também estou interessado em saber sobre os bugs ou falhas que você encontrou no Google Docs

Estou designando esta pergunta "para wiki da comunidade", denotando que não há melhores respostas para isso. É mais uma pesquisa do que qualquer coisa.

Gaetan Lion
fonte
Você poderia criar um link para a planilha fornecida por Mike Lawrence?
Andy W
Aqui está o URL spreadsheets.google.com/… Estava relacionado à sua pergunta stats.stackexchange.com/questions/2956/…
Sympa
1
Os documentos do Google, quando testados formalmente, tiveram um desempenho péssimo na maioria dos cálculos estatísticos (quando era possível). Veja Kellie B. Keeling e Robert J. Pavur (2011): Precisão Estatística do Software de Planilha, The American Statistician, 65: 4, 265-273
whuber

Respostas:

12

Meu principal uso para as planilhas do Google tem sido com os formulários do Google, para coletar dados e depois importá-los facilmente para R. Aqui está um post que escrevi sobre isso há meio ano:

Planilhas do Google + formulários do Google + R = Coleta e importação de dados para análise com facilidade

Além disso, se você estiver colaborando, minha ferramenta de escolha é o DropBox. Eu escrevi um post sobre isso há alguns meses:

Sincronizando arquivos entre computadores usando o DropBox

Eu já o uso há cerca de meio ano em um projeto com 5 co-autores, e tem sido inestimável (sincronizando arquivos de dados de 3 colaboradores, todos podem ver a versão mais recente da saída que estou produzindo e todos estão procurando no mesmo arquivo .docx do artigo).

Ambas as postagens oferecem tutoriais em vídeo e instruções verbais.

Tal Galili
fonte
Obrigado pelo seu feedback. Este é o tipo exato de comentário que me interessou. Você realmente aproveitou o componente de compartilhamento e importação dos documentos do Google. Bom para você. Vou ler o seu material para aprender mais sobre ele.
Sympa
Caro Gaetan, Estou muito satisfeito com a sua resposta - obrigado pelas amáveis ​​palavras. Melhor, Tal.
Tal Galili
19

Como um usuário entusiasta do R, bash, Python, asciidoc, (La) TeX, software de código aberto ou qualquer ferramenta un * x, não posso fornecer uma resposta objetiva. Além disso, como eu frequentemente discuto contra o uso do MS Excel ou de uma planilha de qualquer tipo (bem, você vê seus dados, ou parte deles, mas o que mais?), Eu não contribuiria positivamente para o debate. Eu não sou o único, por exemplo

Um colega meu perdeu todas as suas macros por causa da falta de compatibilidade com versões anteriores etc. Outro colega tentou importar dados genéticos (cerca de 700 indivíduos genotipados em 800.000 marcadores, 120 Mo), apenas para "olhar para eles". O Excel falhou, o Bloco de Notas também desistiu ... Sou capaz de "olhar para eles" com o vi e reformatar rapidamente os dados com algum script sed / awk ou perl. Então, acho que existem diferentes níveis a serem considerados ao discutir sobre a utilidade das planilhas. Você trabalha em pequenos conjuntos de dados e deseja aplicar apenas dados estatísticos elementares e talvez seja bom. Cabe a você confiar nos resultados, ou você sempre pode solicitar o código-fonte, mas talvez seja mais simples fazer um teste rápido de todos os procedimentos em linha com o benchmark NIST. Não acho que isso corresponda a uma boa maneira de fazer estatística simplesmente porque este não é um software estatístico verdadeiro (IMHO), embora, como uma atualização da lista acima mencionada, as versões mais recentes do MS Excel pareçam ter demonstrado melhorias em sua precisão para análises estatísticas, consulte Keeling e Pavur, um estudo comparativo da confiabilidade de nove pacotes de software estatístico ( CSDA 2007 51: 3811).

Ainda assim, cerca de um artigo entre 10 ou 20 (em biomedicina, psicologia, psiquiatria) inclui gráficos feitos com Excel, às vezes sem remover o fundo cinza, a linha preta horizontal ou a legenda automática (Andrew Gelman e Hadley Wickham são certamente tão felizes quanto eu ao vê-lo). Mas, geralmente, ele é o "software" mais usado, de acordo com uma pesquisa recente da FlowingData, que me lembra uma conversa antiga de Brian Ripley (co-autor do pacote MASS R) e escreve um excelente livro sobre reconhecimento de padrões. , entre outros):

Não vamos nos enganar: o software mais utilizado para estatística é o Excel (B. Ripley via Jan De Leeuw), http://www.stats.ox.ac.uk/~ripley/RSS2002.pdf

Agora, se você acha que isso fornece uma maneira rápida e fácil de realizar suas estatísticas, por que não? O problema é que ainda existem coisas que não podem ser feitas (ou pelo menos são bastante complicadas) nesse ambiente. Penso em bootstrap, permutação, análise de dados exploratória multivariada, para citar alguns. A menos que você seja muito proficiente em VBA (que não é uma linguagem de script nem de programação), estou inclinado a pensar que mesmo operações menores de dados são melhor tratadas em R (ou Matlab ou Python, fornecendo a ferramenta certa para lidar com por exemplo, o chamado data.frame). Acima de tudo, acho que o Excel não promove boas práticas para o analista de dados (mas também se aplica a qualquer "cliquódromo", consulte a discussão no Medstats sobre a necessidade de manter um registro do processamento de dados,Documentando análises e edições de dados ), e eu achei este post sobre Estatísticas práticas relativamente ilustrativo de algumas das armadilhas do Excel. Ainda assim, aplica-se ao Excel, não sei como isso se traduz em GDocs.

Sobre como compartilhar seu trabalho, costumo pensar que o Github (ou Gist para código fonte) ou o Dropbox (embora o EULA possa desencorajar algumas pessoas) são opções muito boas (histórico de revisões, gerenciamento de doações, se necessário, etc.). Não posso incentivar o uso de um software que basicamente armazena seus dados em um formato binário. Eu sei que ele pode ser importado em R, Matlab, Stata, SPSS, mas, na minha opinião:

  • os dados devem estar definitivamente em formato de texto, que podem ser lidos por outro software estatístico;
  • a análise deve ser reproduzível, ou seja, você deve fornecer um script completo para sua análise e deve ser executado (abordamos o caso ideal aqui perto ...) em outro sistema operacional a qualquer momento;
  • seu próprio software estatístico deve implementar algoritmos reconhecidos e deve haver uma maneira fácil de atualizá-lo para refletir as melhores práticas atuais em modelagem estatística;
  • o sistema de compartilhamento escolhido deve incluir recursos de versão e colaboração.

É isso aí.

chl
fonte
@ Gaetan Além da minha resposta, dei meu +1 à pergunta porque acho que é muito relevante para debater sobre prática estatística e gerenciamento de projetos.
chl
Um comentário para o voto negativo seria muito apreciado.
chl
@chl: embora eu não tenha votado contra esta resposta, acho que entendo por que alguém votaria contra. As informações que você forneceu estão corretas, muito, muito importantes e instigantes. No entanto, a maior parte (exceto os dois últimos parágrafos) não responde à pergunta. Idealmente, alguém escreveria esse aviso em outro lugar e forneceria um link para ele.
Boris Gorelik
@chl: apesar do que eu disse no meu comentário, eu amo a sua resposta e up-voto-lo
Boris Gorelik
Obrigado pelo seu comentário. Talvez eu não tenha respondido à pergunta da CW. No entanto, nunca pretendi dar uma resposta puramente provocativa. O OP perguntou sobre possíveis "bugs e falhas" nos GDocs: forneço ilustrações sobre o que sei do Excel, reconhecendo o fato de que não sei como isso se traduziria em GDocs. Também entendo parte da pergunta como "quais são os benefícios do uso de GDocs para análise de dados" e acabei de apresentar alguns argumentos contra o uso de planilhas para projetos de grande escala ou análises no limite (ainda assim, reconheci no começando que isso seria tendencioso).
quer
10

"Também estou interessado em saber sobre os bugs ou falhas que você encontrou no Google Docs".

Responderei apenas a essa parte da pergunta original. Minhas explorações com as planilhas do Google Docs (GSheets) têm se preocupado com as funções matemáticas e estatísticas. No final, minha avaliação é de que o Google Spreadsheets é, nesse aspecto, muito inferior em 2012 ao Excel difamado de 1997.

Testemunha: o Google Sheets aparentemente avalia erfc (x) usando erfc (x) = 1-erf (x) para argumentos para os quais erf (x) é próximo de 1. Eles avaliam um desvio padrão ou uma variação na média dos quadrados menos o quadrado da média; é uma prática numérica ruim. Funções combinatórias e probabilidades discretas como poisson (n, x) = pow (x, n) * exp (-x) / n! são avaliados fator por fator, causando excesso desnecessário. O fatorial é avaliado usando a aproximação de fator a fator de Stirling, causando mais transbordamentos desnecessários. A distribuição cumulativa de Poisson é avaliada simplesmente com a soma finita, de modo que a propriedade de normalização é perdida no arredondamento; o mesmo se aplica à distribuição binomial cumulativa. A distribuição normal cumulativa está completamente bagunçada; está fora do intervalo [0,1]. Há uma perda geral de precisão em relação às implementações das mesmas funções em outros pacotes. As descrições de funções elementares, como o arredondamento, são muitas vezes ilegíveis e ininteligíveis; a interpretação é um jogo de adivinhação.

Documentei esses problemas em dois conjuntos de postagens nos fóruns de produtos do Google Docs:

(13/11/2011 e posterior) normdist ainda gera valor negativo https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/

(2012-05-06 e posterior) Erros e outros problemas com funções estatísticas e matemáticas nas GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/

Bas Braams
fonte
1
(+1) Em outras palavras, parece aparente que os ( muitos! ) Estatísticos do Google não estão envolvidos neste projeto.
cardeal
A única parte do Google Docs que usei é o editor, que é muito útil ao editar em colaboração em tempo real . Eu não acho que git e amigos resolvam esse problema!
Kjetil b halvorsen