Найти пересечение двух вложенных списков?

468

Я знаю, как получить пересечение двух плоских списков:

b1 = [1,2,3,4,5,9,11,15]
b2 = [4,5,6,7,8]
b3 = [val for val in b1 if val in b2]

или

def intersect(a, b):
    return list(set(a) & set(b))

print intersect(b1, b2)

Но когда мне нужно найти пересечение для вложенных списков, тогда начинаются мои проблемы:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

В конце я хотел бы получить:

c3 = [[13,32],[7,13,28],[1,6]]

Ребята, можете ли вы помочь мне с этим?

связанные с

elfuego1
источник
Каким будет ваше пересечение для c1, пересекается с2? Вы хотите просто найти, находится ли c1 в c2? Или вы хотите найти все элементы в c1, которые появляются в любом месте в c2?
Брайан Р. Бонди
Прочитайте это и играйте в переводчике.
Питикос,

Ответы:

177

Если хочешь:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
c3 = [[13, 32], [7, 13, 28], [1,6]]

Тогда вот ваше решение для Python 2:

c3 = [filter(lambda x: x in c1, sublist) for sublist in c2]

В Python 3 filterвозвращается итерируемый вместо list, так что вам нужно обернуть filterвызовы с list():

c3 = [list(filter(lambda x: x in c1, sublist)) for sublist in c2]

Объяснение:

Часть фильтра берет элемент каждого подсписка и проверяет, находится ли он в исходном списке c1. Понимание списка выполняется для каждого подсписка в c2.

Брайан Р. Бонди
источник
35
Вы можете использовать filter(set(c1).__contains__, sublist)для эффективности. Кстати, преимущество этого решения заключается в том, что он filter()сохраняет типы строк и кортежей.
Jfs
3
мне нравится этот метод, но я получаю пустую '' в моем результирующем списке
Джонатан Онг
Я добавил компатер Python 3 здесь, так как я использую его как мишень для ответа на вопрос по Python 3
Antti Haapala
9
Это читается лучше IMO с вложенными пониманиями:c3 = [[x for x in sublist if x in c1] for sublist in c2]
Eric
894

Вам не нужно определять пересечение. Это уже первоклассная часть сета.

>>> b1 = [1,2,3,4,5,9,11,15]
>>> b2 = [4,5,6,7,8]
>>> set(b1).intersection(b2)
set([4, 5])
С. Лотт
источник
3
Будет ли это медленнее, чем лямбда из-за преобразования в набор?
Чиро Сантилли 郝海东 冠状 病 六四 事件 法轮功
32
@ S.Lott, с тобой что-то не так set(b1) & set(b2)? ИМО его чище использовать оператором.
GWG
4
Кроме того, использование setприведет к тому, что код будет на порядок быстрее. Вот пример теста Bench®
andersonvom,
5
Работает только в том случае, если результат не нужно заказывать.
Borbag
7
Итак ... этот ответ никоим образом не отвечает на вопрос, верно? Потому что теперь это работает с вложенными списками.
Mayou36
60

Для людей, которые просто хотят найти пересечение двух списков, Аскер предоставил два метода:

b1 = [1,2,3,4,5,9,11,15]
b2 = [4,5,6,7,8]
b3 = [val for val in b1 if val in b2]

а также

def intersect(a, b):
     return list(set(a) & set(b))

print intersect(b1, b2)

Но есть гибридный метод, который более эффективен, потому что вам нужно сделать только одно преобразование между списком / множеством, а не три:

b1 = [1,2,3,4,5]
b2 = [3,4,5,6]
s2 = set(b2)
b3 = [val for val in b1 if val in s2]

Это будет работать в O (n), тогда как его оригинальный метод, включающий понимание списка, будет работать в O (n ^ 2)

Зак Берт
источник
Так как «если val в s2» выполняется в O (N), предлагаемая сложность фрагмента кода также O (n ^ 2)
Ромено
8
Средний случай «val in s2» равен O (1) согласно wiki.python.org/moin/TimeComplexity#set - таким образом, для n операций ожидаемое время равно O (n) (независимо от того, равно ли время наихудшего случая O ( n) или O (n ^ 2) зависит от того, представляет ли этот средний случай амортизированное время или нет, но на практике это не очень важно).
D Coetzee
2
Время выполнения равно O (N) не потому, что оно амортизируется, а потому, что заданное членство находится в среднем O (1) (например, при использовании хеш-таблицы), это большая разница, например, потому что амортизированное время гарантировано.
miroB
28

Функциональный подход:

input_list = [[1, 2, 3, 4, 5], [2, 3, 4, 5, 6], [3, 4, 5, 6, 7]]

result = reduce(set.intersection, map(set, input_list))

и это может быть применено к более общему случаю списков 1+

рыба фугу
источник
чтобы пустой список ввода: set(*input_list[:1]).intersection(*input_list[1:]). Версия итератора ( it = iter(input_list)): reduce(set.intersection, it, set(next(it, []))). Обе версии не требуют преобразования всех входных списков для установки. Последнее более эффективно использует память.
JFS
Используйте from functools import reduceдля использования в Python 3. Или еще лучше, используйте явный forцикл.
TrigonaMinima
27

Версия для понимания чистого списка

>>> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
>>> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
>>> c1set = frozenset(c1)

Свести вариант:

>>> [n for lst in c2 for n in lst if n in c1set]
[13, 32, 7, 13, 28, 1, 6]

Вложенный вариант:

>>> [[n for n in lst if n in c1set] for lst in c2]
[[13, 32], [7, 13, 28], [1, 6]]
JFS
источник
20

Оператор & принимает пересечение двух множеств.

{1, 2, 3} & {2, 3, 4}
Out[1]: {2, 3}
aflaisler
источник
Хорошо, но эта тема для списков!
Rafa0809
3
Результатом пересечения двух списков является множество, поэтому этот ответ является совершенно верным.
строптивая
Список может содержать повторяющиеся значения, а наборы - нет.
Diewland
13

Питонический способ пересечения двух списков:

[x for x in list1 if x in list2]
Flying_ostrich
источник
2
Этот вопрос о вложенных списках. Ваш ответ не отвечает на вопрос.
Томас
8

Вы должны сгладить, используя этот код (взят из http://kogs-www.informatik.uni-hamburg.de/~meine/python_tricks ), код не проверен, но я уверен, что он работает:


def flatten(x):
    """flatten(sequence) -> list

    Returns a single, flat list which contains all elements retrieved
    from the sequence and all recursively contained sub-sequences
    (iterables).

    Examples:
    >>> [1, 2, [3,4], (5,6)]
    [1, 2, [3, 4], (5, 6)]
    >>> flatten([[[1,2,3], (42,None)], [4,5], [6], 7, MyVector(8,9,10)])
    [1, 2, 3, 42, None, 4, 5, 6, 7, 8, 9, 10]"""

    result = []
    for el in x:
        #if isinstance(el, (list, tuple)):
        if hasattr(el, "__iter__") and not isinstance(el, basestring):
            result.extend(flatten(el))
        else:
            result.append(el)
    return result

После того, как вы сгладили список, вы выполняете пересечение обычным способом:


c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

def intersect(a, b):
     return list(set(a) & set(b))

print intersect(flatten(c1), flatten(c2))
Geo
источник
2
Это хороший пример выравнивания кода Geo, но он не отвечает на вопрос. Аскер конкретно ожидает результат в виде [[13,32], [7,13,28], [1,6]].
Роб Янг
8

Поскольку intersectбыл определен, достаточно базового понимания списка:

>>> c3 = [intersect(c1, i) for i in c2]
>>> c3
[[32, 13], [28, 13, 7], [1, 6]]

Улучшение благодаря замечанию С. Лотта и связанному замечанию ТМ:

>>> c3 = [list(set(c1).intersection(i)) for i in c2]
>>> c3
[[32, 13], [28, 13, 7], [1, 6]]
Эммануэль
источник
5

Данный:

> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]

> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

Я считаю, что следующий код работает хорошо и, возможно, более кратко, если использовать операцию set:

> c3 = [list(set(f)&set(c1)) for f in c2] 

Получилось:

> [[32, 13], [28, 13, 7], [1, 6]]

Если заказ необходим:

> c3 = [sorted(list(set(f)&set(c1))) for f in c2] 

у нас есть:

> [[13, 32], [7, 13, 28], [1, 6]]

Кстати, для более стиля Python, этот тоже хорошо:

> c3 = [ [i for i in set(f) if i in c1] for f in c2]
Стивен
источник
3

Я не знаю, опоздал ли я на ваш вопрос. После прочтения вашего вопроса я придумал функцию intersect (), которая может работать как со списком, так и с вложенным списком. Я использовал рекурсию, чтобы определить эту функцию, она очень интуитивно понятна. Надеюсь, это то, что вы ищете:

def intersect(a, b):
    result=[]
    for i in b:
        if isinstance(i,list):
            result.append(intersect(a,i))
        else:
            if i in a:
                 result.append(i)
    return result

Пример:

>>> c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
>>> c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
>>> print intersect(c1,c2)
[[13, 32], [7, 13, 28], [1, 6]]

>>> b1 = [1,2,3,4,5,9,11,15]
>>> b2 = [4,5,6,7,8]
>>> print intersect(b1,b2)
[4, 5]
Мрски Боатин
источник
2

Считаете ли вы, [1,2]чтобы пересечь с [1, [2]]? То есть вас интересуют только числа или структура списка?

Если только цифры, исследуйте, как «сгладить» списки, затем используйте set()метод.

размотать
источник
Я хотел бы оставить структуру списков без изменений.
elfuego1
1

Я также искал способ сделать это, и в итоге все закончилось так:

def compareLists(a,b):
    removed = [x for x in a if x not in b]
    added = [x for x in b if x not in a]
    overlap = [x for x in a if x in b]
    return [removed,added,overlap]
Ремко ван Зуйлен
источник
Если бы не использование set.intersection, то эти простые однострочники - то, что я также сделал бы.
slaughter98
0
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]

c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

c3 = [list(set(c2[i]).intersection(set(c1))) for i in xrange(len(c2))]

c3
->[[32, 13], [28, 13, 7], [1, 6]]
user3105897
источник
0

Мы можем использовать методы set для этого:

c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]

   result = [] 
   for li in c2:
       res = set(li) & set(c1)
       result.append(list(res))

   print result
Бирендра Кумар
источник
0

Чтобы определить пересечение, которое правильно учитывает количество элементов, используйте Counter:

from collections import Counter

>>> c1 = [1, 2, 2, 3, 4, 4, 4]
>>> c2 = [1, 2, 4, 4, 4, 4, 5]
>>> list((Counter(c1) & Counter(c2)).elements())
[1, 2, 4, 4, 4]
Джеймс Хиршорн
источник
0
# Problem:  Given c1 and c2:
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
# how do you get c3 to be [[13, 32], [7, 13, 28], [1, 6]] ?

Вот один из способов установки c3, который не включает наборы:

c3 = []
for sublist in c2:
    c3.append([val for val in c1 if val in sublist])

Но если вы предпочитаете использовать только одну строку, вы можете сделать это:

c3 = [[val for val in c1 if val in sublist]  for sublist in c2]

Это понимание списка в понимании списка, что немного необычно, но я думаю, что вам не должно быть особых проблем с этим.

JL
источник
0
c1 = [1, 6, 7, 10, 13, 28, 32, 41, 58, 63]
c2 = [[13, 17, 18, 21, 32], [7, 11, 13, 14, 28], [1, 5, 6, 8, 15, 16]]
c3 = [list(set(i) & set(c1)) for i in c2]
c3
[[32, 13], [28, 13, 7], [1, 6]]

Для меня это очень элегантный и быстрый способ к ней :)

Michal
источник
0

Плоский список может быть reduceлегко сделан .

Все что вам нужно использовать инициализатор - третий аргумент в reduceфункции.

reduce(
   lambda result, _list: result.append(
       list(set(_list)&set(c1)) 
     ) or result, 
   c2, 
   [])

Приведенный выше код работает как для python2, так и для python3, но вам необходимо импортировать модуль Reduce as from functools import reduce. См. Ссылку ниже для деталей.

Раджа Шактиян
источник
-1

Простой способ найти разницу и пересечение между итерациями

Используйте этот метод, если повторение имеет значение

from collections import Counter

def intersection(a, b):
    """
    Find the intersection of two iterables

    >>> intersection((1,2,3), (2,3,4))
    (2, 3)

    >>> intersection((1,2,3,3), (2,3,3,4))
    (2, 3, 3)

    >>> intersection((1,2,3,3), (2,3,4,4))
    (2, 3)

    >>> intersection((1,2,3,3), (2,3,4,4))
    (2, 3)
    """
    return tuple(n for n, count in (Counter(a) & Counter(b)).items() for _ in range(count))

def difference(a, b):
    """
    Find the symmetric difference of two iterables

    >>> difference((1,2,3), (2,3,4))
    (1, 4)

    >>> difference((1,2,3,3), (2,3,4))
    (1, 3, 4)

    >>> difference((1,2,3,3), (2,3,4,4))
    (1, 3, 4, 4)
    """
    diff = lambda x, y: tuple(n for n, count in (Counter(x) - Counter(y)).items() for _ in range(count))
    return diff(a, b) + diff(b, a)
Коннор
источник