Como conto valores únicos dentro de uma lista

126

Então, eu estou tentando criar este programa que solicitará ao usuário entrada e armazenará os valores em uma matriz / lista.
Quando uma linha em branco é inserida, ele informa ao usuário quantos desses valores são únicos.
Estou construindo isso por razões da vida real e não como um conjunto de problemas.

enter: happy
enter: rofl
enter: happy
enter: mpg8
enter: Cpp
enter: Cpp
enter:
There are 4 unique words!

Meu código é o seguinte:

# ask for input
ipta = raw_input("Word: ")

# create list 
uniquewords = [] 
counter = 0
uniquewords.append(ipta)

a = 0   # loop thingy
# while loop to ask for input and append in list
while ipta: 
  ipta = raw_input("Word: ")
  new_words.append(input1)
  counter = counter + 1

for p in uniquewords:

..e isso é tudo o que consegui até agora.
Não sei como contar o número único de palavras em uma lista?
Se alguém puder postar a solução para que eu possa aprender com ela, ou pelo menos me mostrar como seria ótimo, obrigado!

Joel Aqu.
fonte
4
você pode corrigir o recuo no seu exemplo de código, é importante no Python!
codebox
1
Você removeu seu código em vez de editá-lo para torná-lo legível! Tendo o código não vai ajudar muito ...
hcarver
1
@codebox desculpe vai fazer agora
Joel Aqu.

Respostas:

243

Além disso, use collections.Counter para refatorar seu código:

from collections import Counter

words = ['a', 'b', 'c', 'a']

Counter(words).keys() # equals to list(set(words))
Counter(words).values() # counts the elements' frequency

Resultado:

['a', 'c', 'b']
[2, 1, 1]
Vidul
fonte
46
Não é uma resposta para a pergunta de Joel, mas exatamente o que eu estava procurando, obrigado!
Huw Walters
Perfeito. E um olho de boi. Obrigado @Vidul
Parag Tyagi
Counter(words).values()é legal. Estamos assumindo que a contagem está na ordem da primeira aparição da lista de palavras? Quer dizer, eu estou supondo que a contagem nos dará a contagem de um, então B, então c, em seguida, d ...
Monica Heddneck
219

Você pode usar um conjunto para remover duplicatas e a função len para contar os elementos no conjunto:

len(set(new_words))
codebox
fonte
37

values, counts = np.unique(words, return_counts=True)

James Hirschorn
fonte
16

Use um conjunto :

words = ['a', 'b', 'c', 'a']
unique_words = set(words)             # == set(['a', 'b', 'c'])
unique_word_count = len(unique_words) # == 3

Armado com isso, sua solução pode ser tão simples quanto:

words = []
ipta = raw_input("Word: ")

while ipta:
  words.append(ipta)
  ipta = raw_input("Word: ")

unique_word_count = len(set(words))

print "There are %d unique words!" % unique_word_count
Linus Thiel
fonte
6
aa="XXYYYSBAA"
bb=dict(zip(list(aa),[list(aa).count(i) for i in list(aa)]))
print(bb)
# output:
# {'X': 2, 'Y': 3, 'S': 1, 'B': 1, 'A': 2}
MadJayhawk
fonte
1
Por favor, explique como isso é diferente das outras respostas
#
4

Para ndarray, existe um método numpy chamado unique :

np.unique(array_name)

Exemplos:

>>> np.unique([1, 1, 2, 2, 3, 3])
array([1, 2, 3])
>>> a = np.array([[1, 1], [2, 3]])
>>> np.unique(a)
array([1, 2, 3])

Para uma série, há uma chamada de função value_counts () :

Series_name.value_counts()
user78692
fonte
1
ipta = raw_input("Word: ") ## asks for input
words = [] ## creates list
unique_words = set(words)
user1590499
fonte
1

Embora um conjunto seja a maneira mais fácil, você também pode usar um dict e usar some_dict.has(key)para preencher um dicionário com apenas chaves e valores exclusivos.

Supondo que você já tenha preenchido words[]a entrada do usuário, crie um ditado mapeando as palavras exclusivas da lista para um número:

word_map = {}
i = 1
for j in range(len(words)):
    if not word_map.has_key(words[j]):
        word_map[words[j]] = i
        i += 1                                                             
num_unique_words = len(new_map) # or num_unique_words = i, however you prefer
JMB
fonte
1

Outro método usando pandas

import pandas as pd

LIST = ["a","a","c","a","a","v","d"]
counts,values = pd.Series(LIST).value_counts().values, pd.Series(LIST).value_counts().index
df_results = pd.DataFrame(list(zip(values,counts)),columns=["value","count"])

Você pode exportar os resultados no formato que desejar

HazimoRa3d
fonte
1

E se:

import pandas as pd
#List with all words
words=[]

#Code for adding words
words.append('test')


#When Input equals blank:
pd.Series(words).nunique()

Retorna quantos valores únicos estão em uma lista

john_data
fonte
Bem-vindo ao StackOverflow! Parece que esta solução assume o uso do pandasframework. Seria melhor mencioná-lo na resposta, pois pode não ser claro para outros usuários.
Sergey Shubin
0

O seguinte deve funcionar. A função lambda filtra as palavras duplicadas.

inputs=[]
input = raw_input("Word: ").strip()
while input:
    inputs.append(input)
    input = raw_input("Word: ").strip()
uniques=reduce(lambda x,y: ((y in x) and x) or x+[y], inputs, [])
print 'There are', len(uniques), 'unique words'
John Wang
fonte
0

Eu mesmo usaria um conjunto, mas aqui está outra maneira:

uniquewords = []
while True:
    ipta = raw_input("Word: ")
    if ipta == "":
        break
    if not ipta in uniquewords:
        uniquewords.append(ipta)
print "There are", len(uniquewords), "unique words!"
Nicola Musatti
fonte
0
ipta = raw_input("Word: ") ## asks for input
words = [] ## creates list

while ipta: ## while loop to ask for input and append in list
  words.append(ipta)
  ipta = raw_input("Word: ")
  words.append(ipta)
#Create a set, sets do not have repeats
unique_words = set(words)

print "There are " +  str(len(unique_words)) + " unique words!"
Curioso
fonte