As respostas a esta pergunta no SO retornaram um conjunto de aproximadamente 125 nomes de uma a duas letras: /programming/6979630/what-1-2-letter-object-names-conflict-with-existing -r-objects
[1] "Ad" "am" "ar" "as" "bc" "bd" "bp" "br" "BR" "bs" "by" "c" "C"
[14] "cc" "cd" "ch" "ci" "CJ" "ck" "Cl" "cm" "cn" "cq" "cs" "Cs" "cv"
[27] "d" "D" "dc" "dd" "de" "df" "dg" "dn" "do" "ds" "dt" "e" "E"
[40] "el" "ES" "F" "FF" "fn" "gc" "gl" "go" "H" "Hi" "hm" "I" "ic"
[53] "id" "ID" "if" "IJ" "Im" "In" "ip" "is" "J" "lh" "ll" "lm" "lo"
[66] "Lo" "ls" "lu" "m" "MH" "mn" "ms" "N" "nc" "nd" "nn" "ns" "on"
[79] "Op" "P" "pa" "pf" "pi" "Pi" "pm" "pp" "ps" "pt" "q" "qf" "qq"
[92] "qr" "qt" "r" "Re" "rf" "rk" "rl" "rm" "rt" "s" "sc" "sd" "SJ"
[105] "sn" "sp" "ss" "t" "T" "te" "tr" "ts" "tt" "tz" "ug" "UG" "UN"
[118] "V" "VA" "Vd" "vi" "Vo" "w" "W" "y"
E código de importação R:
nms <- c("Ad","am","ar","as","bc","bd","bp","br","BR","bs","by","c","C","cc","cd","ch","ci","CJ","ck","Cl","cm","cn","cq","cs","Cs","cv","d","D","dc","dd","de","df","dg","dn","do","ds","dt","e","E","el","ES","F","FF","fn","gc","gl","go","H","Hi","hm","I","ic","id","ID","if","IJ","Im","In","ip","is","J","lh","ll","lm","lo","Lo","ls","lu","m","MH","mn","ms","N","nc","nd","nn","ns","on","Op","P","pa","pf","pi","Pi","pm","pp","ps","pt","q","qf","qq","qr","qt","r","Re","rf","rk","rl","rm","rt","s","sc","sd","SJ","sn","sp","ss","t","T","te","tr","ts","tt","tz","ug","UG","UN","V","VA","Vd","vi","Vo","w","W","y")
Como o objetivo da pergunta era apresentar uma lista memorável de nomes de objetos a serem evitados, e a maioria dos humanos não é tão boa em entender um bloco de texto sólido, eu gostaria de visualizar isso.
Infelizmente, não estou exatamente certo da melhor maneira de fazer isso. Eu tinha pensado em algo como um gráfico de caule e folhas, apenas porque não há valores repetidos cada "folha" foi colocada na coluna apropriada em vez de ser justificada. Ou uma adaptação no estilo wordcloud, onde as letras são dimensionadas de acordo com sua prevalência.
Como isso pode ser visualizado de maneira mais clara e eficiente?
As visualizações que seguem um dos seguintes se enquadram no espírito desta pergunta:
Objetivo principal: aprimorar a memorização do conjunto de nomes, revelando padrões nos dados
Objetivo alternativo: destacar recursos interessantes do conjunto de nomes (por exemplo, que ajudam a visualizar a distribuição, as letras mais comuns etc.)
As respostas em R são preferidas, mas todas as idéias interessantes são bem-vindas.
É permitido ignorar os nomes de uma letra, pois esses são mais fáceis de fornecer como uma lista separada.
fonte
Ok, aqui está minha rápida visão de uma visualização tipo "tabela periódica", com base na pergunta do SO e nos comentários dos outros. O principal problema é a grande diferença no número de variáveis entre pacotes, o que dificulta a visualização ... Percebo que isso é muito difícil, portanto, fique à vontade para alterá-lo como desejar.
Aqui está a saída atual (da minha lista de pacotes)
E o código
Agora, temos um quadro de dados como este:
Agora podemos dividir os dados por pacote
Podemos ver que a maioria das variáveis vem do pacote base e stats
Finalmente, a rotina de desenho
fonte
Aqui está um histograma baseado em cartas. Considerado dimensionar as primeiras letras pelo número, mas decidido contra, uma vez que já está codificado no componente vertical.
fonte
Tabela Periódica para 100, Alex. Eu não tenho código para isso, no entanto. :(
Pode-se pensar que um pacote "tabela periódica" já exista no CRAN. A idéia de um esquema de cores e o layout desses dados podem ser interessantes e úteis.
Eles podem ser coloridos por pacote e classificados verticalmente por frequência, por exemplo, em uma amostra de código no CRAN ou como eles aparecem na base de código local.
fonte
As duas primeiras páginas do capítulo 2 do ITILA de MacKay têm bons diagramas mostrando as probabilidades condicionais de todos os pares de caracteres no idioma inglês. Você pode achar isso útil.
Tenho vergonha de dizer que não me lembro de qual programa foi usado para produzi-los.
fonte