Quais são as formas mais aceitas de visualizar os resultados de um teste t independente de duas amostras? Uma tabela numérica é usada com mais frequência ou algum tipo de plotagem? O objetivo é que um observador casual olhe para a figura e veja imediatamente que provavelmente são de duas populações diferentes.
data-visualization
t-test
cbake
fonte
fonte
Respostas:
Vale a pena ser claro sobre o objetivo do seu enredo. Em geral, existem dois tipos diferentes de objetivos: você pode fazer gráficos para avaliar as suposições que você está fazendo e orientar o processo de análise de dados, ou você pode fazer gráficos para comunicar um resultado a outras pessoas. Estes não são os mesmos; por exemplo, muitos espectadores / leitores de seu gráfico / análise podem ser estatisticamente pouco sofisticados e podem não estar familiarizados com a idéia de, digamos, igual variação e seu papel em um teste t. Você deseja que seu gráfico transmita as informações importantes sobre seus dados, mesmo para consumidores como eles. Eles estão implicitamente confiantes de que você fez as coisas corretamente. Na configuração da sua pergunta, concluímos que você está atrás do último tipo.
Realisticamente, o gráfico mais comum e aceito para comunicar os resultados de um teste t 1 a outras pessoas (reserve se é realmente o mais apropriado) é um gráfico de barras de médias com barras de erro padrão. Isso corresponde muito bem ao teste t, na medida em que um teste t compara dois meios usando seus erros padrão. Quando você tem dois grupos independentes, isso produzirá uma imagem intuitiva, mesmo para os estatisticamente pouco sofisticados, e as pessoas (que desejam dados) podem "ver imediatamente que provavelmente são de duas populações diferentes". Aqui está um exemplo simples usando os dados de @ Tim:
Dito isto, os especialistas em visualização de dados geralmente desdenham esses gráficos. Eles são frequentemente ridicularizados como "parcelas de dinamite" (cf. Por que as parcelas de dinamite são ruins ). Em particular, se você possui apenas alguns dados, geralmente é recomendável que você mostre os dados eles mesmos . Se os pontos se sobrepuserem, você pode tremer horizontalmente (adicione uma pequena quantidade de ruído aleatório) para que eles não se sobreponham mais. Como um teste t é fundamentalmente sobre meios e erros padrão, é melhor sobrepor os meios e erros padrão a esse gráfico. Aqui está uma versão diferente:
Se você tiver muitos dados, os boxplots podem ser uma opção melhor para obter uma visão geral rápida das distribuições, e você pode sobrepor os meios e SEs também.
Gráficos simples de dados e gráficos de caixa são suficientemente simples para que a maioria das pessoas consiga entendê-los, mesmo que não sejam muito experientes estatisticamente. Porém, lembre-se de que nada disso facilita a avaliação da validade de se ter usado um teste t para comparar seus grupos. Esses objetivos são melhor atendidos por diferentes tipos de parcelas.
1. Observe que esta discussão supõe um teste t de amostras independentes. Essas plotagens podem ser usadas com um teste t de amostras dependentes, mas também podem ser enganosas nesse contexto (cf. O uso de barras de erro como forma de estudo dentro dos sujeitos está errado? ).
fonte
A maneira mais comum de visualizar a comparação do tipo -teste é usar gráficos de caixa . Abaixo, forneço um exemplo usando o conjunto de dados que descreve "a relação entre o consumo de maconha e um déficit no desempenho de uma tarefa que mede memória de curto prazo" deste site .t
Na verdade, os boxplots são comumente usados para testes de hipóteses "informais", por exemplo, como descrito por Yoav Benjamini em 1988, abrindo a caixa de um boxplot :
Consulte também: Teste T usando apenas dados de resumo em um gráfico de caixa
Esse gráfico não mostra quantidades diretamente envolvidas no teste , como observou o @NickCox . Se você quiser uma comparação direta de médias com intervalos de confiança, use o gráfico de barras com intervalos de confiança marcados. O uso de médias e intervalos de confiança também permite realizar testes de hipóteses (veja aqui ou aqui ).t
Como você pode ver em outras postagens e comentários neste tópico, tanto boxplots quanto dinamite são uma escolha controversa, então deixe-me dar mais uma alternativa que ainda não foi mencionada. Primeiro, lembre-se de que o teste e a regressão estão relacionados . Você pode plotar a comparação do tipo -teste como dois pontos com barras de erro (intervalos de confiança) conectadas à linha. A inclinação da linha é proporcional à inclinação da regressão se você usou regressão linear em vez det tt t t -test nesta situação. A maior vantagem desse gráfico é que ele permite que você julgue facilmente a magnitude da diferença de médias observando a inclinação da linha. Sua desvantagem pode ser o fato de sugerir que existe alguma "continuidade" entre os meios (ou seja, você teve amostras emparelhadas).
Boxplots parecem ser mais comumente usados, pois fornecem mais informações sobre a distribuição das variáveis visualizadas (comparando a média apenas com o intervalo de confiança). Eles também complementam, em vez de duplicar, as informações do teste e esse uso do enredo é incentivado pela maioria dos guias de estilo, por exemplo, pelo Publication Manual da American Psychological Association :t
fonte
Isso é principalmente uma variação das respostas úteis de @Tim e @gung, mas os gráficos não podem ser ajustados em um comentário.
Pontos pequenos, mas possivelmente úteis:
Um gráfico de tiras ou pontos, como ilustrado por @gung, precisa ser modificado se houver empates, como nos dados de exemplo. Os pontos podem ser empilhados ou tremidos, ou, como no exemplo abaixo, você pode usar um gráfico híbrido de caixas de quantis sugerido por Emanuel Parzen (a referência mais acessível é provavelmente 1979. Modelagem de dados estatísticos não paramétricos. Journal, American Statistical Association74: 105-121). Isso também tem outros méritos, ao sublinhar que, se metade dos dados estiver dentro da caixa, a metade também estará fora e mostrar essencialmente todos os detalhes da distribuição. Onde existem apenas dois grupos, como neste contexto, qualquer tipo mais convencional de plotagem de caixa pode ser uma exibição mínima, na verdade esquelética. Alguns consideram isso uma virtude, mas há margem para mostrar mais detalhes. O argumento inverso é que um gráfico de caixa sinalizando pontos específicos, notadamente aqueles com mais de 1,5 IQR do quartil mais próximo, é um aviso claro para o usuário: cuidado com um teste t, pois pode haver pontos nas caudas que você deve preocupado sobre.
Naturalmente, você pode adicionar uma indicação dos meios a um gráfico de caixa, o que geralmente é feito. Adicionar um marcador ou símbolo de ponto diferente é comum. Aqui nós escolhemos linhas de referência.
Parcelas de caixas quantílicas para fumantes e não fumantes. As caixas mostram medianas e quartis. As linhas horizontais em azul mostram meios.
Nota. O gráfico foi criado no Stata. Aqui está o código para os interessados.
stripplot
deve ser instalado anteriormente comssc inst stripplot
.fonte
fonte