Gostaria de compartilhar o link para o tutorial? Soa interessante.
cheesus
1
@cheeesus ... Eu estava estudando a mineração de dados de e-books em R com estudos de caso ... lá você pode encontrar muitos outros exemplos interessantes.
Ankita 03/09/2013
Respostas:
193
A coisa à direita de <-é um formulaobjeto. É freqüentemente usado para denotar um modelo estatístico, onde a coisa à esquerda da ~é a resposta e as coisas à direita da ~são as variáveis explicativas. Então, em inglês, você diria algo como "A espécie depende do comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala" .
A myFormula <-parte dessa linha armazena a fórmula em um objeto chamado myFormulapara que você possa usá-la em outras partes do seu código R.
Finalmente, existem alguns truques úteis com fórmulas (veja help("formula")mais):
myFormula <- Species ~ .
Por exemplo, a versão acima é igual à versão original, pois o ponto significa "todas as variáveis ainda não utilizadas". Isso examina o data.frame que você usa em sua eventual chamada de modelo, vê quais variáveis existem no data.frame, mas não são explicitamente mencionadas na sua fórmula e substitui o ponto pelas variáveis ausentes.
Obrigado pela resposta @Ari B. Friedman, mas a última linha é um pouco ambígua onde você diz 'dot significa "todas as variáveis ainda não usadas"'. Se você pudesse ilustrar mais.
Ankita
9
@Ankita, "ainda não utilizado" neste contexto significa não referido. Em Species~., espécie é a única variável que foi usada. Portanto, depende de todas as outras variáveis no data.frame.
X4nd3r
Eu não entendo myFormula <- Species ~ . . Quando dot ainda é substituído por variáveis de data.frame? Você poderia dar um exemplo
Respostas:
A coisa à direita de
<-
é umformula
objeto. É freqüentemente usado para denotar um modelo estatístico, onde a coisa à esquerda da~
é a resposta e as coisas à direita da~
são as variáveis explicativas. Então, em inglês, você diria algo como "A espécie depende do comprimento da sépala, largura da sépala, comprimento da pétala e largura da pétala" .A
myFormula <-
parte dessa linha armazena a fórmula em um objeto chamadomyFormula
para que você possa usá-la em outras partes do seu código R.Outros usos comuns de objetos de fórmula em R
O
lattice
pacote as utiliza para especificar as variáveis a serem plotadas .O
ggplot2
pacote os utiliza para especificar painéis para plotagem .O
dplyr
pacote os utiliza para avaliação não padrão .fonte
lazyeval
vinheta dá uma boa introdução para o que a fórmula éR define um
~
operador (til) para uso em fórmulas. As fórmulas têm todos os tipos de usos, mas talvez o mais comum seja para regressão:help("~")
ouhelp("formula")
vai te ensinar mais.@ Spacedman cobriu o básico. Vamos discutir como isso funciona.
Primeiro, sendo um operador, observe que é essencialmente um atalho para uma função (com dois argumentos):
Isso pode ser útil saber para uso em, por exemplo,
apply
comandos de família.Segundo, você pode manipular a fórmula como texto :
Terceiro, você pode manipulá-lo como uma lista :
Finalmente, existem alguns truques úteis com fórmulas (veja
help("formula")
mais):Por exemplo, a versão acima é igual à versão original, pois o ponto significa "todas as variáveis ainda não utilizadas". Isso examina o data.frame que você usa em sua eventual chamada de modelo, vê quais variáveis existem no data.frame, mas não são explicitamente mencionadas na sua fórmula e substitui o ponto pelas variáveis ausentes.
fonte
Species~.
, espécie é a única variável que foi usada. Portanto, depende de todas as outras variáveis no data.frame.myFormula <- Species ~ .
. Quando dot ainda é substituído por variáveis de data.frame? Você poderia dar um exemplo