Então, por exemplo, aqui estão as definições que recebo dos livros-texto padrão
Variável - característica da população ou amostra. ex. Preço de uma ação ou nota em um teste
Dados - valores reais observados
Portanto, para um relatório de duas colunas [Nome | Renda] os nomes das colunas seriam as variáveis e os valores reais observados {dave | 100K}, {jim | 200K} seriam os dados
Então, se eu disser que a coluna [Nome] é um dado nominal e que [renda] é um dado de proporção, não seria mais preciso descrevê-lo como um tipo de variável em vez de um tipo de dados, como a maioria dos livros didáticos faz? Eu entendo que isso pode ser semântico, e tudo bem, é tudo o que existe. Mas temo que possa estar faltando alguma coisa aqui.
dataset
ordinal-data
categorical-data
ratio
Usuário 42
fonte
fonte
Respostas:
A tipologia da escala de Stevens não é necessariamente uma característica inerente das variáveis, nem mesmo dos dados em si, mas de como tratamos as informações - do que estamos usando para significar .
Em algumas circunstâncias, exatamente o mesmo valor pode ser considerado proporção, intervalo, ordinal ou nominal, dependendo do que estamos fazendo com ele - é uma questão de qual significado damos aos valores, que podem mudar de uma análise para a seguinte. A tipologia de Stevens tem algum valor, mas não serve para ser excessivamente prescritiva.
Esta questão da importância da escala como significado remonta pelo menos a Lord (1953), que ofereceu um exemplo em que havia interpretações nominais e intervalares do mesmo conjunto de números.
Esse argumento foi ainda mais claramente exposto por Velleman e Wilkinson (1993), que oferecem um exemplo de pessoas que recebem ingressos numerados consecutivos na entrada de uma recepção com um prêmio sendo concedido a um dos ingressos; dependendo do uso dos números nos bilhetes, eles têm interpretações nas quatro escalas.
Então, por exemplo, 'eu ganhei?' é uma pergunta que trata o número como nominal, enquanto "cheguei cedo demais para obter o bilhete vencedor?" é uma pergunta que a trata como ordinal; por outro lado (e não acho que este esteja no jornal) usando 5 números aleatórios de bilhetes para estimar o número de pessoas na sala os trataria como proporção (por exemplo, se houvesse 4 números sorteados aleatoriamente) prêmios de consolação, você terá cinco números aleatórios para estimar a participação total).
Eles argumentam que "boa análise de dados não assume tipos de dados", "as categorias de Stevens não descrevem atributos fixos dos dados", "as categorias de Stevens são insuficientes para descrever escalas de dados" e "Os procedimentos estatísticos não podem ser classificados de acordo com os critérios de Stevens" (de fato cada declaração também é um título de seção).
Também foram oferecidas críticas em vários lugares por Tukey (por exemplo, no capítulo 5 do livro de Mosteller e Tukey, 1977, análise e regressão de dados ); Mosteller e Tukey ofereceram uma tipologia - nomes , notas (etiquetas ordenadas), classificações (começando de 1, que pode representar a maior ou a menor), frações contadas (delimitadas por zero e um, que incluem porcentagens), contagens (não-negativas números inteiros), quantias (números reais não negativos), saldos (valores ilimitados, positivos ou negativos).
Em meu próprio trabalho, vi situações em que problemas graves de análise foram causados por pessoas que não conseguiram apreciar a grande diferença entre variáveis relacionadas a níveis (às vezes chamadas de variáveis 'estocadas') e fluxos - um exemplo simples desses tipos é a diferença nos tipos de análise apropriados para as quantidades de água realmente em um tanque de armazenamento em cada uma de uma sequência de períodos e a quantidade de água que flui para ele. Essas (em alguns desses casos) seriam subcategorias do tipo ' quantidades ' de Mosteller e Tukey (e nesses mesmos casos, ambas variáveis de proporção no esquema de Stevens), indicando que as questões tipológicas podem ser bastante sutis, mas ainda pode impactar criticamente as análises apropriadas.
PFVelleman e L.Wilkinson (1993),
"Tipologias Nominal, Ordinal, Intervalo e Razão são Enganadoras",
The American Statistician , vol. 47 no.1 pp.65-72
(uma versão de trabalho parece estar disponível na página do 2º autor aqui )
Lord, F. (1953),
"Sobre o tratamento estatístico dos números do futebol",
American Psychologist , 8 , pp.750-751
(O ano deste artigo é apresentado incorretamente nas referências da versão do artigo de Velleman e Wilkinson a que vinculei, mas referido corretamente no corpo do artigo)
fonte
O tipo dos dados está relacionado, mas não é idêntico ao tipo da variável. Na maioria dos casos, eles são iguais, mas não precisam ser.
Por exemplo, se você coletar N amostras de uma distribuição normal. Você pensaria que são dados numéricos (proporção ou escala). Mas também posso dizer que é uma variável categórica com N categorias diferentes, com frequência de 1 para cada categoria. Parece estúpido, mas também é uma variável válida.
fonte