Как подсчитать уникальные значения в списке

128

Итак, я пытаюсь создать эту программу, которая будет запрашивать у пользователя ввод и сохранять значения в массиве / списке.
Затем, когда вводится пустая строка, пользователю сообщается, сколько из этих значений уникально.
Я строю это по причинам реальной жизни, а не как набор задач.

enter: happy
enter: rofl
enter: happy
enter: mpg8
enter: Cpp
enter: Cpp
enter:
There are 4 unique words!

Мой код выглядит следующим образом:

# ask for input
ipta = raw_input("Word: ")

# create list 
uniquewords = [] 
counter = 0
uniquewords.append(ipta)

a = 0   # loop thingy
# while loop to ask for input and append in list
while ipta: 
  ipta = raw_input("Word: ")
  new_words.append(input1)
  counter = counter + 1

for p in uniquewords:

..и это все, что я получил до сих пор.
Я не уверен, как подсчитать уникальное количество слов в списке?
Если кто-то может опубликовать решение, чтобы я мог извлечь из него уроки или хотя бы показать мне, как это было бы здорово, спасибо!

Джоэл Акв.
источник
4
не могли бы вы исправить отступ в своем примере кода, это важно в Python!
codebox
1
Вы удалили свой код вместо того, чтобы редактировать его, чтобы сделать его читабельным! Код там очень поможет ...
hcarver 05
1
@codebox извините, теперь сделаю
Джоэл Акв.

Ответы:

248

Кроме того, используйте collections.Counter для рефакторинга кода:

from collections import Counter

words = ['a', 'b', 'c', 'a']

Counter(words).keys() # equals to list(set(words))
Counter(words).values() # counts the elements' frequency

Вывод:

['a', 'c', 'b']
[2, 1, 1]
Vidul
источник
47
Не ответ на вопрос Джоэла, но именно то , что я искал, спасибо!
Хью Уолтерс
Отлично. И бычий глаз. Благодаря @Vidul
Параг Tyagi
Counter(words).values()это мило. Мы предполагаем, что счет идет в порядке первого появления в списке слов? Я имею в виду, я предполагаю, что счет даст нам количество a, затем b, затем c, затем d ...
Моника Хедднек
3
Обратите внимание, если вы хотите представить это как изречение, как count_dict = {'a': 2, 'b': 1, 'c': 1}вы можете это сделатьcount_dict = dict(Counter(words).items())
Питер,
220

Вы можете использовать набор для удаления дубликатов, а затем функцию len для подсчета элементов в наборе:

len(set(new_words))
CodeBox
источник
38

values, counts = np.unique(words, return_counts=True)

Джеймс Хиршорн
источник
16

Используйте набор :

words = ['a', 'b', 'c', 'a']
unique_words = set(words)             # == set(['a', 'b', 'c'])
unique_word_count = len(unique_words) # == 3

Вооружившись этим, ваше решение может быть таким простым, как:

words = []
ipta = raw_input("Word: ")

while ipta:
  words.append(ipta)
  ipta = raw_input("Word: ")

unique_word_count = len(set(words))

print "There are %d unique words!" % unique_word_count
Линус Тиль
источник
6
aa="XXYYYSBAA"
bb=dict(zip(list(aa),[list(aa).count(i) for i in list(aa)]))
print(bb)
# output:
# {'X': 2, 'Y': 3, 'S': 1, 'B': 1, 'A': 2}
MadJayhawk
источник
1
Пожалуйста, объясните, чем это отличается от других ответов
Akaisteph7,
4

Для ndarray есть метод numpy с именем unique :

np.unique(array_name)

Примеры:

>>> np.unique([1, 1, 2, 2, 3, 3])
array([1, 2, 3])
>>> a = np.array([[1, 1], [2, 3]])
>>> np.unique(a)
array([1, 2, 3])

Для Серии есть вызов функции value_counts () :

Series_name.value_counts()
user78692
источник
1
ipta = raw_input("Word: ") ## asks for input
words = [] ## creates list
unique_words = set(words)
user1590499
источник
1

Хотя набор - это самый простой способ, вы также можете использовать dict и использовать some_dict.has(key)для заполнения словаря только уникальными ключами и значениями.

Предполагая, что вы уже заполнили words[]ввод от пользователя, создайте dict, сопоставляющий уникальные слова в списке с числом:

word_map = {}
i = 1
for j in range(len(words)):
    if not word_map.has_key(words[j]):
        word_map[words[j]] = i
        i += 1                                                             
num_unique_words = len(new_map) # or num_unique_words = i, however you prefer
JMB
источник
1

Другой метод с использованием панд

import pandas as pd

LIST = ["a","a","c","a","a","v","d"]
counts,values = pd.Series(LIST).value_counts().values, pd.Series(LIST).value_counts().index
df_results = pd.DataFrame(list(zip(values,counts)),columns=["value","count"])

Затем вы можете экспортировать результаты в любом формате.

HazimoRa3d
источник
1

Как насчет:

import pandas as pd
#List with all words
words=[]

#Code for adding words
words.append('test')


#When Input equals blank:
pd.Series(words).nunique()

Возвращает количество уникальных значений в списке.

john_data
источник
Добро пожаловать в StackOverflow! Похоже, это решение предполагает использование pandasфреймворка. Лучше упомянуть об этом в ответе, так как это может быть непонятно другим пользователям.
Сергей Шубин
0

Следующее должно работать. Лямбда-функция отфильтровывает повторяющиеся слова.

inputs=[]
input = raw_input("Word: ").strip()
while input:
    inputs.append(input)
    input = raw_input("Word: ").strip()
uniques=reduce(lambda x,y: ((y in x) and x) or x+[y], inputs, [])
print 'There are', len(uniques), 'unique words'
Джон Ван
источник
0

Я бы сам использовал набор, но вот еще один способ:

uniquewords = []
while True:
    ipta = raw_input("Word: ")
    if ipta == "":
        break
    if not ipta in uniquewords:
        uniquewords.append(ipta)
print "There are", len(uniquewords), "unique words!"
Никола Мусатти
источник
0
ipta = raw_input("Word: ") ## asks for input
words = [] ## creates list

while ipta: ## while loop to ask for input and append in list
  words.append(ipta)
  ipta = raw_input("Word: ")
  words.append(ipta)
#Create a set, sets do not have repeats
unique_words = set(words)

print "There are " +  str(len(unique_words)) + " unique words!"
любознательный
источник