Sei que muitos de vocês provavelmente acham que o Google Docs ainda é uma ferramenta primitiva. Não é Matlab ou R e nem mesmo Excel. No entanto, estou perplexo com o poder desse software baseado na Web, que apenas usa a capacidade operacional de um navegador (e é compatível com muitos navegadores que funcionam de maneira muito diferente).
Mike Lawrence, ativo neste fórum, compartilhou uma planilha conosco usando o Google Docs, fazendo algumas coisas bem bonitas. Pessoalmente, repliquei uma estrutura de teste de hipóteses bastante completa (incluindo vários testes paramétricos e não paramétricos) originalmente feitos no Excel no Google Docs.
Estou interessado se algum de vocês experimentou o Google Docs e o levou ao limite em aplicativos interessantes. Também estou interessado em saber sobre os bugs ou falhas que você encontrou no Google Docs
Estou designando esta pergunta "para wiki da comunidade", denotando que não há melhores respostas para isso. É mais uma pesquisa do que qualquer coisa.
fonte
Respostas:
Meu principal uso para as planilhas do Google tem sido com os formulários do Google, para coletar dados e depois importá-los facilmente para R. Aqui está um post que escrevi sobre isso há meio ano:
Planilhas do Google + formulários do Google + R = Coleta e importação de dados para análise com facilidade
Além disso, se você estiver colaborando, minha ferramenta de escolha é o DropBox. Eu escrevi um post sobre isso há alguns meses:
Sincronizando arquivos entre computadores usando o DropBox
Eu já o uso há cerca de meio ano em um projeto com 5 co-autores, e tem sido inestimável (sincronizando arquivos de dados de 3 colaboradores, todos podem ver a versão mais recente da saída que estou produzindo e todos estão procurando no mesmo arquivo .docx do artigo).
Ambas as postagens oferecem tutoriais em vídeo e instruções verbais.
fonte
Como um usuário entusiasta do R, bash, Python, asciidoc, (La) TeX, software de código aberto ou qualquer ferramenta un * x, não posso fornecer uma resposta objetiva. Além disso, como eu frequentemente discuto contra o uso do MS Excel ou de uma planilha de qualquer tipo (bem, você vê seus dados, ou parte deles, mas o que mais?), Eu não contribuiria positivamente para o debate. Eu não sou o único, por exemplo
Um colega meu perdeu todas as suas macros por causa da falta de compatibilidade com versões anteriores etc. Outro colega tentou importar dados genéticos (cerca de 700 indivíduos genotipados em 800.000 marcadores, 120 Mo), apenas para "olhar para eles". O Excel falhou, o Bloco de Notas também desistiu ... Sou capaz de "olhar para eles" com o vi e reformatar rapidamente os dados com algum script sed / awk ou perl. Então, acho que existem diferentes níveis a serem considerados ao discutir sobre a utilidade das planilhas. Você trabalha em pequenos conjuntos de dados e deseja aplicar apenas dados estatísticos elementares e talvez seja bom. Cabe a você confiar nos resultados, ou você sempre pode solicitar o código-fonte, mas talvez seja mais simples fazer um teste rápido de todos os procedimentos em linha com o benchmark NIST. Não acho que isso corresponda a uma boa maneira de fazer estatística simplesmente porque este não é um software estatístico verdadeiro (IMHO), embora, como uma atualização da lista acima mencionada, as versões mais recentes do MS Excel pareçam ter demonstrado melhorias em sua precisão para análises estatísticas, consulte Keeling e Pavur, um estudo comparativo da confiabilidade de nove pacotes de software estatístico ( CSDA 2007 51: 3811).
Ainda assim, cerca de um artigo entre 10 ou 20 (em biomedicina, psicologia, psiquiatria) inclui gráficos feitos com Excel, às vezes sem remover o fundo cinza, a linha preta horizontal ou a legenda automática (Andrew Gelman e Hadley Wickham são certamente tão felizes quanto eu ao vê-lo). Mas, geralmente, ele é o "software" mais usado, de acordo com uma pesquisa recente da FlowingData, que me lembra uma conversa antiga de Brian Ripley (co-autor do pacote MASS R) e escreve um excelente livro sobre reconhecimento de padrões. , entre outros):
Agora, se você acha que isso fornece uma maneira rápida e fácil de realizar suas estatísticas, por que não? O problema é que ainda existem coisas que não podem ser feitas (ou pelo menos são bastante complicadas) nesse ambiente. Penso em bootstrap, permutação, análise de dados exploratória multivariada, para citar alguns. A menos que você seja muito proficiente em VBA (que não é uma linguagem de script nem de programação), estou inclinado a pensar que mesmo operações menores de dados são melhor tratadas em R (ou Matlab ou Python, fornecendo a ferramenta certa para lidar com por exemplo, o chamado data.frame). Acima de tudo, acho que o Excel não promove boas práticas para o analista de dados (mas também se aplica a qualquer "cliquódromo", consulte a discussão no Medstats sobre a necessidade de manter um registro do processamento de dados,Documentando análises e edições de dados ), e eu achei este post sobre Estatísticas práticas relativamente ilustrativo de algumas das armadilhas do Excel. Ainda assim, aplica-se ao Excel, não sei como isso se traduz em GDocs.
Sobre como compartilhar seu trabalho, costumo pensar que o Github (ou Gist para código fonte) ou o Dropbox (embora o EULA possa desencorajar algumas pessoas) são opções muito boas (histórico de revisões, gerenciamento de doações, se necessário, etc.). Não posso incentivar o uso de um software que basicamente armazena seus dados em um formato binário. Eu sei que ele pode ser importado em R, Matlab, Stata, SPSS, mas, na minha opinião:
É isso aí.
fonte
"Também estou interessado em saber sobre os bugs ou falhas que você encontrou no Google Docs".
Responderei apenas a essa parte da pergunta original. Minhas explorações com as planilhas do Google Docs (GSheets) têm se preocupado com as funções matemáticas e estatísticas. No final, minha avaliação é de que o Google Spreadsheets é, nesse aspecto, muito inferior em 2012 ao Excel difamado de 1997.
Testemunha: o Google Sheets aparentemente avalia erfc (x) usando erfc (x) = 1-erf (x) para argumentos para os quais erf (x) é próximo de 1. Eles avaliam um desvio padrão ou uma variação na média dos quadrados menos o quadrado da média; é uma prática numérica ruim. Funções combinatórias e probabilidades discretas como poisson (n, x) = pow (x, n) * exp (-x) / n! são avaliados fator por fator, causando excesso desnecessário. O fatorial é avaliado usando a aproximação de fator a fator de Stirling, causando mais transbordamentos desnecessários. A distribuição cumulativa de Poisson é avaliada simplesmente com a soma finita, de modo que a propriedade de normalização é perdida no arredondamento; o mesmo se aplica à distribuição binomial cumulativa. A distribuição normal cumulativa está completamente bagunçada; está fora do intervalo [0,1]. Há uma perda geral de precisão em relação às implementações das mesmas funções em outros pacotes. As descrições de funções elementares, como o arredondamento, são muitas vezes ilegíveis e ininteligíveis; a interpretação é um jogo de adivinhação.
Documentei esses problemas em dois conjuntos de postagens nos fóruns de produtos do Google Docs:
(13/11/2011 e posterior) normdist ainda gera valor negativo https://productforums.google.com/d/topic/docs/XfBPtoKJ1Ws/
(2012-05-06 e posterior) Erros e outros problemas com funções estatísticas e matemáticas nas GSheets https://productforums.google.com/d/topic/docs/rxFCHYeMhrU/
fonte