Apenas para esclarecer, quando quero dizer estatísticas resumidas, refiro-me às faixas Média, Mediana do Quartil, Variância e Desvio Padrão.
Ao resumir um univariado que é categórico ou qualitativo , considerando os casos Nominal e Ordinal , faz sentido encontrar sua média, mediana, faixas de quartis, variação e desvio padrão?
Se sim, é diferente do que se você estivesse resumindo uma variável contínua e como?
Respostas:
No geral, a resposta é não. No entanto, pode-se argumentar que você pode obter a mediana dos dados ordinais, mas é claro que você terá uma categoria como mediana, não um número. A mediana divide os dados igualmente: Metade acima, metade abaixo. Os dados ordinais dependem apenas da ordem.
Além disso, em alguns casos, a ordinalidade pode ser transformada em dados aproximados de nível de intervalo. Isso ocorre quando os dados ordinais são agrupados (por exemplo, perguntas sobre renda são frequentemente feitas dessa maneira). Nesse caso, você pode encontrar uma mediana precisa e conseguir aproximar os outros valores, especialmente se os limites inferior e superior forem especificados: Você pode assumir alguma distribuição (por exemplo, uniforme) dentro de cada categoria. Outro caso de dados ordinais que podem ser feitos com intervalo é quando os níveis recebem equivalentes numéricos. Por exemplo: Nunca (0%), às vezes (10-30%), cerca da metade do tempo (50%) e assim por diante.
Para (mais uma vez) citar David Cox:
fonte
Como foi mencionado, as médias, os SDs e os pontos de articulação não são significativos para dados categóricos. Os pontos de articulação (por exemplo, mediana e quartis) podem ser significativos para dados ordinais. Seu título também pergunta quais estatísticas de resumo devem ser usadas para descrever dados categóricos. É padrão caracterizar dados categóricos por contagens e porcentagens. (Você também pode incluir um intervalo de confiança de 95% em torno das porcentagens.) Por exemplo, se seus dados fossem:
Você pode resumi-los da seguinte forma:
fonte
Se você possui variáveis nominais, não há função de pedido ou distância. Então, como você pode definir qualquer estatística resumida mencionada? Eu acho que você não pode. Quartis e alcance exigem pelo menos pedidos e meios e variações requerem dados numéricos. Penso que gráficos de barra e gráfico de pizza são exemplos típicos das maneiras apropriadas de resumir variáveis qualitativas que não são ordinais.
fonte
O modo ainda funciona! Essa não é uma estatística resumida importante? (Qual é a categoria mais comum?) Acho que a sugestão mediana tem pouco ou nenhum valor como estatística, mas o modo tem.
Também contar distintos seria valioso. (Quantas categorias você possui?)
Você pode criar proporções, como (categoria mais comum) / (categoria menos comum) ou (categoria 1 mais comum) / (categoria 2 mais comum). Também (categoria mais comum) / (todas as outras categorias), como a regra 80/20.
Você também pode atribuir números às suas categorias e enlouquecer com todas as estatísticas usuais. AA = 1, Hisp = 2, etc. Agora você pode calcular média, mediana, modo, DP, etc.
fonte
Aprecio as outras respostas, mas parece-me que algum background topológico daria uma estrutura muito necessária para as respostas.
Definições
Vamos começar estabelecendo as definições dos domínios:
variável categórica é aquela cujo domínio contém elementos, mas não há relacionamento conhecido entre eles (portanto, temos apenas categorias). Os exemplos dependem do contexto, mas eu diria que, no caso geral, é difícil comparar os dias da semana: é segunda-feira antes de domingo; se sim, e a próxima segunda-feira? Talvez um exemplo mais fácil, mas menos usado, sejam as peças de roupa: sem fornecer algum contexto que daria sentido a uma ordem, é difícil dizer se as calças vêm antes dos saltadores ou vice-versa.
A variável ordinal é aquela que tem uma ordem total definida sobre o domínio, ou seja, para cada dois elementos do domínio, podemos dizer que eles são idênticos ou um é maior que o outro. Uma escala Likert é um bom exemplo de definição de uma variável ordinal. "concordo um pouco" é definitivamente mais próximo de "concordo totalmente" do que "discordo".
A variável de intervalo é aquela cujo domínio define distâncias entre elementos (uma métrica ), permitindo assim definir intervalos.
Exemplos de domínio
Como o conjunto mais comum que usamos, os números naturais e reais têm ordem e métricas totais padrão. É por isso que precisamos ter cuidado ao atribuir números às nossas categorias. Se não formos cuidadosos em desconsiderar a ordem e a distância, praticamente convertemos nossos dados categóricos em dados de intervalo. Quando alguém usa um algoritmo de aprendizado de máquina sem saber como ele funciona, corre o risco de fazer tais suposições de má vontade, potencialmente invalidando seus próprios resultados. Por exemplo, os algoritmos mais populares de aprendizado profundo trabalham com números reais, aproveitando o intervalo e as propriedades contínuas. Outro exemplo, pense nas escalas Likert de 5 pontos, e como a análise que aplicamos nelas pressupõe que a distância entre concordo plenamente e concordoé o mesmo que discordar e nem concordar nem discordar . Difícil argumentar sobre esse relacionamento.
Outro conjunto com o qual frequentemente trabalhamos é as cordas . Existem várias métricas de similaridade de string que são úteis ao trabalhar com strings. No entanto, estes nem sempre são úteis. Por exemplo, para endereços, John Smith Street e John Smith Road são bastante próximos em termos de similaridade de cadeias, mas obviamente representam duas entidades diferentes que podem estar separadas por quilômetros.
Estatísticas resumidas
Ok, agora vamos ver como algumas estatísticas resumidas se encaixam nisso. Como a estatística trabalha com números, suas funções são bem definidas em intervalos. Mas vamos ver exemplos sobre se / como podemos generalizá-los para dados categóricos ou ordinais:
Exemplo de contextualidade dos dados
No final, quero enfatizar novamente que a ordem e as métricas definidas em seus dados são muito contextuais. Isso deve estar óbvio agora, mas deixe-me dar um último exemplo: ao trabalhar com localizações geográficas, temos várias maneiras diferentes de abordá-las:
fonte