Número de números significativos para colocar em uma tabela?

13

Existe uma regra bem fundamentada para o número de números significativos a serem publicados?

Aqui estão alguns exemplos / perguntas específicos:

  • Existe alguma maneira de relacionar o número de figuras significativas com o coeficiente de variação? Por exemplo, se a estimativa for 12,3 e o CV for 50%, isso significa que as informações representadas por '.3' se aproximam de zero?

  • Se um intervalo de confiança tem uma gama de ordens de magnitude, eles ainda devem ter o mesmo número de números significativos, por exemplo:

    12,3 (1,2, 123,4) vs 12 (1,2, 120)

  • O número de algarismos significativos em uma estimativa de erro deve ser igual ou menor que o número de algarismos significativos em uma média?

David LeBauer
fonte
Se você puder, não use uma tabela :) Um gráfico é IMO, quase sempre mais fácil de ler do que uma tabela (a exceção óbvia é se você não tiver muitos números). Os periódicos e seus revisores nem sempre concordam, infelizmente ...
JMS
3
@JMS Bom argumento, mas as tabelas são úteis para resumir características detalhadas de unidades estatísticas (classificadas cruzadamente por um fator de interesse, por exemplo, diagnóstico clínico ou qualquer outra coisa), com variáveis ​​de tipos diferentes (contínuo, nominal e ordinal) e outros resultados derivados da modelagem estatística per se (matriz de confusão, coeficiente de regressão etc.) que não se encaixa nas figuras (ou nem sempre, se você pensa na abordagem de Gelman para mostrar coef. regular como dotcharts). Nós precisamos de ambos; a questão é quando realmente precisamos de uma figura em vez de uma tabela, IMO.
chl 24/03
@chi Fair. Eu disse quase sempre :). Coisas como grandes tabelas n-way são impossíveis de reproduzir (completamente) graficamente. Depende do fórum, eu diria. As tabelas têm o benefício de serem completas, com certeza, mas o seu leitor realmente absorve toda essa informação extra? Se houver muitos parâmetros para caber em um gráfico, eu diria que uma tabela geralmente é pelo menos difícil de ler. No entanto, acho que os resultados completos devem ser acessíveis (on-line, apêndice etc.) se não for mais do que reprodutibilidade. Nesse caso, eu também gostaria de dados e código! Vagou OT, desculpe ..
JMS
Também acho que os coeficientes de regressão e as matrizes de confusão (correlação, covariância, ...) geralmente são mais adequados para uma exibição gráfica, plotagens de pontos ou similar para o primeiro e mapas de calor ou gráficos para o último.
JMS
@JMS Eu concordo com o seu ponto de vista, mas, neste caso, há um limite de figuras, em outros casos há cobranças de figuras. Além disso, neste caso, se os leitores olharem sobre a mesa e se concentrarem nas figuras que são apresentadas, não perderão tempo tentando descobrir o objetivo de uma figura esotérica. Mas eu apoio totalmente a reprodutibilidade e, enquanto estou nisso, eu poderia (se eu der uma olhada nisso) adicionar uma visualização da tabela ao código anexado.
David LeBauer

Respostas:

19

Duvido que exista uma regra universal, então não vou inventar nada. Posso compartilhar esses pensamentos e as razões por trás deles:

  • Quando os resumos refletem os dados em si - máx, mín, estatísticas de pedidos etc. -, use o mesmo número de números significativos usados ​​para registrar os dados em primeiro lugar. Isso fornece uma representação consistente em todo o documento referente à precisão dos dados.

  • Quando os resumos tiverem uma precisão mais alta que os dados, escreva os valores de uma maneira que reflita essa precisão extra . Por exemplo, uma média de valores tem vezes a precisão dos valores individuais: aproximadamente, inclua um número extra significativo para , dois para , etc. (Isso é arredondado na escala log-10, obviamente.)nn3n3030<n300

    - Observe que o CV não fornece informações úteis a esse respeito.

    -Algumas estimativas podem ser obtidas com grande precisão. Eles não precisam ser arredondados para corresponder a outra coisa. Por exemplo, a média de 1.000.000 de números inteiros pode ser 10.977 com um erro padrão de 0,00301. Minha decisão de escrever a média com três casas decimais (e 4-5 sig figs) foi baseada na ordem de magnitude do SE, que indica que o último dígito é parcialmente confiável. A decisão de escrever o SE em três sig figs (cinco casas decimais) é mais arbitrária: dois sig figs funcionariam; alguém provavelmente não; quatro sig figs também funcionariam e seriam consistentes com os 4-5 sig figs na média; mais de quatro sig figs seriam um exagero. (Pode-se estimar o erro padrão da própria SE em termos do quarto momento dos dados e usá-lo para determinar uma quantidade apropriada de arredondamento, mas a maioria de nós não se preocupa com isso ...)

  • Sinalize o leitor quando você estiver fazendo um arredondamento substancial . Seja especialmente cuidadoso quando o relatório estiver discutindo o próprio teste estatístico . O motivo é que as pessoas podem usar seu trabalho para verificar seus próprios cálculos. Às vezes, mesmo uma pequena diferença pode revelar um erro. Você não quer causar problemas porque arredondou 123 para 120 e outra pessoa, verificando o trabalho, obtém 123 e suspeita que um de vocês errou.

  • Seja consistente . Você pode perder alguns leitores se listar um valor como 123 em um ponto e depois referenciá-lo como 120.

  • Não seja ridículo . (Suspeito automaticamente de incompetência quando encontro relatórios que fornecem resultados estatísticos a 15 sig figs quando os dados têm apenas dois sig figs, por exemplo.)

whuber
fonte
2
Meu +1 muito grande, porque é realmente um bom conselho. Na mesma linha, gosto de mostrar aos alunos que é realmente inútil resumir os dados coletados das pesquisas (ou votos) como% com muitas casas decimais sem considerar o tamanho da amostra (que afeta o erro padrão).
chl 24/03
0

Eu sugeriria 12 (1,2, 123,4). Omita o .3, pois é quase sem sentido, mas muitas pessoas quando vêem (1,2, 120) assumem que o último '0' em 120 é significativo.

AVB
fonte
Por que você sugere omitir um decimal para a estatística de interesse se você concorda em mostrá-los nos ICs (ou seja, se não faz sentido para 12, por que faz sentido para 123,4)?
chl 24/03
@chl: não faz muito sentido, mas omitir isso pode ser enganador. Se eu colocar 123.4, alguém como você verá os dígitos extras e os desconsiderará, sem causar danos. Se eu colocar 120, muitos leitores acharão que isso é preciso com 3 dígitos - ruim.
AVB
ainda não está claro por que você recomendaria 123,4 em vez de 123 (por que omitir 0,3, mas não .4 no exemplo?)
David LeBauer