Os tipos de dados (nominal / ordinal / intervalo / razão) devem realmente ser considerados tipos de variáveis?

Então, por exemplo, aqui estão as definições que recebo dos livros-texto padrão

Variável - característica da população ou amostra. ex. Preço de uma ação ou nota em um teste

Dados - valores reais observados

Portanto, para um relatório de duas colunas [Nome | Renda] os nomes das colunas seriam as variáveis e os valores reais observados {dave | 100K}, {jim | 200K} seriam os dados

Então, se eu disser que a coluna [Nome] é um dado nominal e que [renda] é um dado de proporção, não seria mais preciso descrevê-lo como um tipo de variável em vez de um tipo de dados, como a maioria dos livros didáticos faz? Eu entendo que isso pode ser semântico, e tudo bem, é tudo o que existe. Mas temo que possa estar faltando alguma coisa aqui.

dataset ordinal-data categorical-data ratio Usuário 42
fonte

Não me parece uma diferença significativa; Eu consideraria o fraseado aceitável, pessoalmente. A definição de "variável" parece um pouco errada.

Nick Stauner

@ Nick Acredito que, se traduzirmos a "característica" coloquial na "função de valor real" matemática, teremos parte da definição de uma variável aleatória. (A parte que falta, é claro, é a mensurabilidade em relação a um campo sigma na população.) Normalmente, porém, traduziríamos "característica de uma amostra" no termo técnico estatística : talvez seja a isso que você está se referindo como um "Pouco fora." Com essas traduções, as variáveis não têm "tipos" no sentido de Stevens (só podemos distinguir distribuições discretas de distribuições contínuas ) - mas alguns dados podem.

whuber

A tipologia da escala de Stevens não é necessariamente uma característica inerente das variáveis, nem mesmo dos dados em si, mas de como tratamos as informações - do que estamos usando para significar .

Em algumas circunstâncias, exatamente o mesmo valor pode ser considerado proporção, intervalo, ordinal ou nominal, dependendo do que estamos fazendo com ele - é uma questão de qual significado damos aos valores, que podem mudar de uma análise para a seguinte. A tipologia de Stevens tem algum valor, mas não serve para ser excessivamente prescritiva.

Esta questão da importância da escala como significado remonta pelo menos a Lord (1953), que ofereceu um exemplo em que havia interpretações nominais e intervalares do mesmo conjunto de números.

Esse argumento foi ainda mais claramente exposto por Velleman e Wilkinson (1993), que oferecem um exemplo de pessoas que recebem ingressos numerados consecutivos na entrada de uma recepção com um prêmio sendo concedido a um dos ingressos; dependendo do uso dos números nos bilhetes, eles têm interpretações nas quatro escalas.

Então, por exemplo, 'eu ganhei?' é uma pergunta que trata o número como nominal, enquanto "cheguei cedo demais para obter o bilhete vencedor?" é uma pergunta que a trata como ordinal; por outro lado (e não acho que este esteja no jornal) usando 5 números aleatórios de bilhetes para estimar o número de pessoas na sala os trataria como proporção (por exemplo, se houvesse 4 números sorteados aleatoriamente) prêmios de consolação, você terá cinco números aleatórios para estimar a participação total).

Eles argumentam que "boa análise de dados não assume tipos de dados", "as categorias de Stevens não descrevem atributos fixos dos dados", "as categorias de Stevens são insuficientes para descrever escalas de dados" e "Os procedimentos estatísticos não podem ser classificados de acordo com os critérios de Stevens" (de fato cada declaração também é um título de seção).

Também foram oferecidas críticas em vários lugares por Tukey (por exemplo, no capítulo 5 do livro de Mosteller e Tukey, 1977, análise e regressão de dados ); Mosteller e Tukey ofereceram uma tipologia - nomes , notas (etiquetas ordenadas), classificações (começando de 1, que pode representar a maior ou a menor), frações contadas (delimitadas por zero e um, que incluem porcentagens), contagens (não-negativas números inteiros), quantias (números reais não negativos), saldos (valores ilimitados, positivos ou negativos).

Em meu próprio trabalho, vi situações em que problemas graves de análise foram causados por pessoas que não conseguiram apreciar a grande diferença entre variáveis relacionadas a níveis (às vezes chamadas de variáveis 'estocadas') e fluxos - um exemplo simples desses tipos é a diferença nos tipos de análise apropriados para as quantidades de água realmente em um tanque de armazenamento em cada uma de uma sequência de períodos e a quantidade de água que flui para ele. Essas (em alguns desses casos) seriam subcategorias do tipo ' quantidades ' de Mosteller e Tukey (e nesses mesmos casos, ambas variáveis de proporção no esquema de Stevens), indicando que as questões tipológicas podem ser bastante sutis, mas ainda pode impactar criticamente as análises apropriadas.

PFVelleman e L.Wilkinson (1993),
"Tipologias Nominal, Ordinal, Intervalo e Razão são Enganadoras",
The American Statistician , vol. 47 no.1 pp.65-72

(uma versão de trabalho parece estar disponível na página do 2º autor aqui )

Lord, F. (1953),
"Sobre o tratamento estatístico dos números do futebol",
American Psychologist , 8 , pp.750-751

(O ano deste artigo é apresentado incorretamente nas referências da versão do artigo de Velleman e Wilkinson a que vinculei, mas referido corretamente no corpo do artigo)

Glen_b -Reinstate Monica
fonte

Obrigado. Resposta muito completa. Eu estava pensando nesse sentido, mas ao pesquisar essas coisas muitas vezes, elas fazem parecer que são concretas e o consenso foi alcançado. Por isso acabei aqui.

Usuário 42

A tipologia de Stevens foi debatida e contestada desde que foi publicada. Às vezes, é uma estrutura útil, não um teorema.

Glen_b -Reinstate Monica

Existe algum "novo favorito" além de Stevens e Mosteller? No exemplo de níveis / fluxos, se eu entendi direito, ambos têm o mesmo tipo e ainda precisam ser tratados de maneira diferente? Você pode explicar essa diferença? E como, por exemplo, a transformação de log de um valor se encaixaria nessa tipologia? Obrigado.

Erich Schubert

1. Não conheço nenhuma tentativa recente de fazer uma - e acho que elas não são necessariamente úteis, pois tendem a calçar as pessoas em análises menos apropriadas (veja o artigo de Lord para um exemplo de brinquedo, mas as consequências para as análises são muito reais - essas listas de análise por tipo não acabam com terríveis análises estatísticas, enquanto eliminam vastas faixas de estatísticas da possibilidade de consideração em situações apropriadas). ..

ctd

ctd ... 2. Um exemplo de como os níveis e fluxos são bem diferentes: Observe que se você analisasse o nível todos os dias, o nível de hoje seria o nível anterior mais o fluxo de entrada ou saída intermediário (ou a soma de ambos) , se ambos forem possíveis). Portanto, as medições de nível são necessariamente dependentes, geralmente altamente. Não faz sentido tratá-los como se fossem independentes - mas vejo as pessoas fazendo isso o tempo todo. 3. Não sei bem o que você está perguntando com o log. Você pode ser mais explícito sobre isso? Qual tipologia (observe que eu mencionei mais de uma)?

Glen_b -Reinstate Monica

Os tipos de dados (nominal / ordinal / intervalo / razão) devem realmente ser considerados tipos de variáveis?

Respostas: