Existe algum teste estatístico paramétrico e não paramétrico?

20

Existe algum teste estatístico paramétrico e não paramétrico? Esta pergunta foi feita por um painel de entrevistas. É uma pergunta válida?

Biostat
fonte
1
Estudar a entrada da Wikipedia para estatísticas não paramétricas pode ser suficiente para prepará-lo para um entrevistador. Você pode responder à pergunta com uma pergunta, como em "o que você quer dizer com não paramétrico? Modelos sem distribuição ou estatistística de ordem de classificação?"
Jrhorn424
3
Como ponto de partida, pode ajudar você, assim como seus entrevistados, a consultar uma autoridade ( não a Internet!) Sobre definições. "Os casos paramétricos ... são todos aqueles em que a classe de todos os [estados da natureza] pode ser representada em termos de um vetor consiste em um número finito de componentes reais de maneira natural. (... a distribuição e função de perda dependem θ de forma razoavelmente suave) Todos os outros problemas são chamados. não paramétrico --JC Kiefer,. Introdução à Inferência estatística, 23. p.θθ
whuber
Um dos professores me disse que o 'teste do qui-quadrado' tem dois comportamentos (ou seja, paramétricos e não paramétricos). Eu não entendi nada, por que o 'teste do qui quadrado' tem dois comportamentos.
Biostat
3
Não é o teste que é paramétrico, é o modelo que é. As distribuições de qui-quadrado surgem em ambas as situações (de maneira natural no modelo linear geral com premissas de distribuição Normal e como uma aproximação para uma diferença de probabilidade de log - ambas aplicações paramétricas - e também como uma aproximação para o multinomial distribuições que surgem em muitas aplicações não paramétricas); portanto, existem muitos testes diferentes compartilhando o nome "qui-quadrado". Provavelmente foi isso que sugeriu o comentário do seu professor.
whuber
@ whuber: Seu último comentário significa que o teste do qui-quadrado para adequação não é paramétrico?
Tim

Respostas:

6

É fundamentalmente difícil dizer exatamente o que se entende por "teste paramétrico" e "teste não paramétrico", embora existam muitos exemplos concretos em que a maioria concordará se um teste é paramétrico ou não paramétrico (mas nunca ambos) . Uma pesquisa rápida forneceu esta tabela , que, imagino, representa uma distinção prática comum em algumas áreas entre testes paramétricos e não paramétricos.

Logo acima da tabela mencionada, há uma observação:

"... os dados paramétricos têm uma distribuição normal subjacente ... Qualquer outra coisa não é paramétrica."

Pode ser um critério aceito em algumas áreas que assumimos a normalidade e usamos ANOVA, e isso é paramétrico, ou não assumimos a normalidade e usamos alternativas não paramétricas.

Talvez não seja uma definição muito boa e não esteja realmente correta na minha opinião, mas pode ser uma regra prática. Principalmente porque o objetivo final nas ciências sociais, digamos, é analisar dados, e de que adianta formular um modelo paramétrico com base em uma distribuição não normal e depois não poder analisar os dados?

Uma definição alternativa é definir "testes não paramétricos" como testes que não dependem de suposições distributivas e testes paramétricos como qualquer outra coisa.

A primeira e a última definição apresentada definem uma classe de testes e depois definem a outra classe como complemento (qualquer outra coisa). Por definição, isso exclui que um teste pode ser paramétrico e não paramétrico.

A verdade é que também a última definição é problemática. E se houver certas suposições "não paramétricas" naturais, como simetria, que possam ser impostas? Isso transformará uma estatística de teste que, de outra forma, não se baseia em nenhuma premissa de distribuição em um teste paramétrico? A maioria diria não!

Portanto, existem testes na classe de testes não paramétricos que podem fazer algumas suposições distributivas desde que não sejam "muito paramétricos". A fronteira entre os testes "paramétricos" e "não paramétricos" ficou embaçada, mas acredito que a maioria defenderá que um teste é paramétrico ou não-paramétrico, talvez não possa dizer nada além de dizer que é ambos faz pouco sentido.-

Sob um ponto de vista diferente, muitos testes paramétricos são (equivalentes a) testes de razão de verossimilhança. Isso possibilita uma teoria geral e temos um entendimento unificado das propriedades distributivas dos testes de razão de verossimilhança sob condições de regularidade adequadas. Os testes não paramétricos não são, pelo contrário, equivalentes aos testes da razão de verossimilhança per se não há probabilidade - e sem a metodologia unificadora baseada na probabilidade de obtermos resultados distributivos caso a caso. A teoria da probabilidade empírica--desenvolvido principalmente por Art Owen em Stanford é, no entanto, um compromisso muito interessante. Ele oferece uma abordagem estatística baseada em probabilidade (um ponto importante para mim, pois considero a probabilidade um objeto mais importante do que um valor , por exemplo) sem a necessidade de suposições distributivas paramétricas típicas. A idéia fundamental é um uso inteligente da distribuição multinomial nos dados empíricos, os métodos são muito "paramétricos", mas válidos sem restringir suposições paramétricas.p

Testes baseados em probabilidade empírica têm, IMHO, as virtudes dos testes paramétricos e a generalidade dos testes não paramétricos; portanto, entre os testes em que consigo pensar, eles se aproximam mais para se qualificarem por serem paramétricos e não paramétricos, embora eu Não use essa terminologia.

NRH
fonte
+1 Comentários muito interessantes. Na medida em que o limite se torna "desfocado", tomo isso como uma afirmação correta sobre a percepção, mas não há embaçamento nas próprias definições: a distinção entre paramétrico e não paramétrico é tão clara e nítida quanto entre, digamos, finito e infinito.
whuber
@whuber, com relação ao que está "borrado", eu estava me referindo especificamente ao fato de que também pode haver suposições distributivas para testes não paramétricos, portanto, minha segunda definição também não funciona. Se eu tentar uma definição precisa, um teste paramétrico é baseado em um modelo que pode ser parametrizado por um subconjunto de um espaço euclidiano de dimensão finita. O que eu acho que é mais "embaçado" é que não está claro, para mim, quão longe de "nenhuma suposição distributiva" você pode ir antes que suposições não paramétricas se tornem tanto um problema quanto suposições paramétricas.
NRH
@whuber, agora li seu comentário à pergunta com referência a Kiefer, e sim, é definitivamente uma boa idéia consultar uma autoridade para obter uma definição formal! Na verdade, eu estava mais preocupado com o que as pessoas geralmente querem dizer quando dizem "não-paramétricos", e acho que poucos têm uma definição de Kiefer em mente.
NRH
Veja minha citação de Kiefer em um comentário à pergunta original. Em particular, "não paramétrico" não significa "nenhuma premissa distributiva". Pelo contrário, os mais conhecidos testes não paramétricos todos fazer suposições distributivas. Acho que compreendo seu senso de "desfocado": escolhi a analogia finita / infinita por respeito a isso, porque na prática um número muito grande (mas finito) de parâmetros também pode ser considerado infinito.
whuber
2

Paramétrico é usado em (pelo menos) dois significados: A - Para declarar que você está assumindo a família da distribuição de ruído até seus parâmetros. B - Declarar que você está assumindo a relação funcional específica entre as variáveis ​​explicativas e o resultado.

Alguns exemplos:

  • Uma regressão quantílica com um link linear seria qualificada como B-paramétrica e A não-paramétrica.
  • A suavização de splines de uma série temporal com ruído gaussiano pode ter qualidade como A-não paramétrica e B-paramétrica.

O termo "semi-paramétrico" geralmente se refere ao caso B e significa que você não está assumindo toda a relação funcional, mas possui suposições mais brandas, como "aditivo em alguma transformação suave dos preditores".

Você também pode ter suposições mais brandas sobre a distribuição do ruído, como "todos os momentos são finitos", sem especificar especificamente o formato da distribuição. Que eu saiba, não há termo para esse tipo de suposição.

Observe que a resposta está relacionada às suposições subjacentes ao processo de geração de dados. Ao dizer "teste a-paramétrico", geralmente se refere a não-paramétrico no sentido A. Nesse sentido, você responderia "não". Seria impossível ser paramétrico e não paramétrico no mesmo sentido e ao mesmo tempo.

JohnRos
fonte
Os dois significados no primeiro parágrafo freqüentemente têm um tratamento unificado na literatura: isto é, parece não haver distinção fundamental ou importante entre eles. Aliás, o caso "todos os momentos são finitos" é definitivamente um problema não paramétrico.
whuber
@ whuber: a definição no Keifer parece abranger os dois casos (eu admito - nunca o li e ainda estou procurando exceções). Por outro lado, os termos mudam seus significados. "Bayes empíricos" não significa mais o que Robbins usou em 1955. Você não pode ignorar o fato de que há mais de uma interpretação circulando.
19411 JohnRos
Tudo bem, mas devemos ser um pouco exigentes: é óbvio que muitas interpretações e tentativas de definições de "paramétrico" e "não paramétrico" são expressões de ignorância, não de entendimento. Você pode citar uma definição alternativa que seja ao mesmo tempo clara, rigorosa e autoritativa (para ser preciso, autoritativa, no sentido de que seria aceita sem questionar por um periódico credível revisado por pares)?
whuber
1
@whuber: Eu aceito o desafio! :-) Embora observe que, como todos os pesquisadores iniciam suas pesquisas na Wikipedia, é uma questão de tempo até que os periódicos credíveis revisados ​​por pares estejam alinhados com a definição da Wiki. ( "se você não pode vencê-los ...")
JohnRos
1
O artigo da Wikipedia cita Wolfowitz da década de 1940, que não apenas é o primeiro a usar "não-paramétrico", mas também é um dos ancestrais intelectuais diretos de Kiefer. Acho que não encontraremos nenhuma diferença real lá. (Kiefer apenas adiciona um requisito técnico sobre a função de perda.) No entanto, suspeito que muito poucos (se houver) pesquisadores genuínos consideram a Wikipedia como um ponto de partida, especialmente não em campos com fundamentos matemáticos!
whuber
1

Suponho que depende do que eles querem dizer com "paramétrico e não paramétrico"? Ao mesmo tempo, exatamente os dois, ou uma mistura dos dois?

Muitos consideram o modelo de riscos proporcionais de Cox como semi-paramétrico, pois não estima parametricamente o risco da linha de base.

Ou você pode optar por visualizar muitas estatísticas não paramétricas como realmente paramétricas em massa.

Fomite
fonte
7
Isso parece ser um desvio. A questão é investigar se alguém aprecia a distinção entre "paramétrico" e "não paramétrico", se é claro ou não. Uma boa resposta iluminará essa distinção, não a confundirá.
whuber
1
@whuber Qual "a pergunta"? O painel ou o OP? Porque, na minha opinião, o OP não está investigando a distinção de nada. O que significa que depende de onde as pessoas traçam a linha. Eu não acho que fornecer um exemplo comum e filosófico para "Bem, isso depende" é um desvio. Eu acho que é uma resposta. Por exemplo, se alguém deseja ou não considerar um "paramétrico" totalmente paramétrico, ou apenas ter parâmetros.
fomite
O ponto sobre "qual pergunta" é bom. Acho que onde começo a ter problemas com a sua resposta é que faz distinções que, de acordo com meus recursos, não fazem sentido (uma "mistura" não faz sentido, assim como a idéia de que uma "estatística" pode ser paramétrica), o que sugere você está usando uma definição diferente de "paramétrico" e "não paramétrico" do que eu. Embora você defenda que uma resposta depende do que esses termos significam, você não oferece uma definição para tornar seus comentários subsequentes claros ou compreensíveis.
whuber
@whuber Justo o suficiente. Achei a pergunta original um tanto absurda, assim estava fazendo o que pude. A pergunta agora tem respostas melhores que fazem algumas suposições sobre o que o OP significa.
fomite
0

Bradley, em seus clássicos Testes estatísticos livres de distribuição (1968, p. 15–16 - veja esta pergunta para uma citação) esclarece a diferença entre testes livres de distribuição e não paramétricos , que, segundo ele, são frequentemente conflitantes entre si e fornece uma exemplo de teste paramétrico livre de distribuição como teste de sinal para a mediana. Este teste não faz suposição sobre a distribuição subjacente da população amostrada de valores variáveis, portanto, é livre de distribuição . No entanto, se a mediana selecionada estiver correta, os valores acima e abaixo devem ser selecionados com igual probabilidade, testando amostras aleatórias dep=0,5

Atualizar

(UMA¬UMA)

Avraham
fonte
1
Gosto do início desta resposta porque faz uma distinção interessante e a apoia com uma boa referência. No entanto, parece-me que o restante da resposta confunde suposições sobre os dados com propriedades da estatística de teste. As suposições do teste de sinal são de fato "livres de distribuição". No entanto, o fato de a distribuição amostral da estatística de teste ser binomial é uma questão completamente separada e não torna o procedimento paramétrico!
whuber
Bem, o próprio Bradley chama o teste de Sign-free de distribuição, mas paramétrico na página 15. A caixa de comentários é muito pequena para trazer as duas frases-chave em sua totalidade. Por favor, leia a outra resposta, especificamente as frases que começam com "Grosso modo ..." e "Para ser totalmente claro ...". Obrigado.
Avraham
Se for esse o caso de Bradley, os significados desses termos mudaram desde então ou (eu odeio dizer) você interpreta mal o que ele escreveu. (Não tenho acesso a uma cópia que posso verificar.) Definitivamente não é o caso agora - nem há pelo menos os últimos 30 anos - que "paramétrico" se refere à distribuição de uma estatística de teste. Veja a citação de Wolfowitz no artigo da Wikipedia .
whuber
2
FΩθ
2
Pelo que vale a pena, observei dois outros textos estatísticos, Probabilidade e Estatística de DeGroot (2ª ed., Pp 520-521) e Introdução à Teoria da Probabilidade e Inferência Estatística de Larson (3ª edição, pp.508-509) e ambos usam o termo paramétrico para significar o que Bradly chama de livre de distribuição , que é como Kiefer, eu acho. Portanto, para responder ao OP, depende de como você define "paramétrico".
Avraham