Я схожу с ума, пытаясь понять, какую глупость я здесь делаю неправильно.
Я использую NumPy, и у меня есть определенные индексы строк и определенные индексы столбцов, из которых я хочу выбрать. Вот суть моей проблемы:
import numpy as np
a = np.arange(20).reshape((5,4))
# array([[ 0, 1, 2, 3],
# [ 4, 5, 6, 7],
# [ 8, 9, 10, 11],
# [12, 13, 14, 15],
# [16, 17, 18, 19]])
# If I select certain rows, it works
print a[[0, 1, 3], :]
# array([[ 0, 1, 2, 3],
# [ 4, 5, 6, 7],
# [12, 13, 14, 15]])
# If I select certain rows and a single column, it works
print a[[0, 1, 3], 2]
# array([ 2, 6, 14])
# But if I select certain rows AND certain columns, it fails
print a[[0,1,3], [0,2]]
# Traceback (most recent call last):
# File "<stdin>", line 1, in <module>
# ValueError: shape mismatch: objects cannot be broadcast to a single shape
Почему это происходит? Конечно, я могу выбрать 1-ю, 2-ю и 4-ю строки, а также 1-й и 3-й столбцы? Ожидаемый результат:
a[[0,1,3], [0,2]] => [[0, 2],
[4, 6],
[12, 14]]
Ответы:
Модное индексирование требует, чтобы вы указали все индексы для каждого измерения. Вы предоставляете 3 индекса для первого и только 2 для второго, отсюда и ошибка. Вы хотите сделать что-то вроде этого:
>>> a[[[0, 0], [1, 1], [3, 3]], [[0,2], [0,2], [0, 2]]] array([[ 0, 2], [ 4, 6], [12, 14]])
Конечно, писать об этом сложно, поэтому вы можете позволить вещанию помочь вам:
>>> a[[[0], [1], [3]], [0, 2]] array([[ 0, 2], [ 4, 6], [12, 14]])
Это намного проще сделать, если вы индексируете массивы, а не списки:
>>> row_idx = np.array([0, 1, 3]) >>> col_idx = np.array([0, 2]) >>> a[row_idx[:, None], col_idx] array([[ 0, 2], [ 4, 6], [12, 14]])
источник
Как подсказывает Toan, простой хак будет просто выбрать строки, а затем выберите столбцы более , что .
>>> a[[0,1,3], :] # Returns the rows you want array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [12, 13, 14, 15]]) >>> a[[0,1,3], :][:, [0,2]] # Selects the columns you want as well array([[ 0, 2], [ 4, 6], [12, 14]])
[Edit] Встроенный метод:
np.ix_
Недавно я обнаружил, что numpy дает вам встроенную однострочную оболочку для выполнения именно того , что предлагал @Jaime, но без необходимости использовать синтаксис широковещательной передачи (который страдает от нечитабельности). Из документов:
Итак, вы используете это так:
>>> a = np.arange(20).reshape((5,4)) >>> a[np.ix_([0,1,3], [0,2])] array([[ 0, 2], [ 4, 6], [12, 14]])
И способ его работы заключается в том, что он заботится о выравнивании массивов так, как предложил Хайме, чтобы трансляция происходила правильно:
>>> np.ix_([0,1,3], [0,2]) (array([[0], [1], [3]]), array([[0, 2]]))
Кроме того, как говорит MikeC в комментарии,
np.ix_
имеет то преимущество, что он возвращает представление, чего не было в моем первом (до редактирования) ответе. Это означает, что теперь вы можете назначить индексированному массиву:>>> a[np.ix_([0,1,3], [0,2])] = -1 >>> a array([[-1, 1, -1, 3], [-1, 5, -1, 7], [ 8, 9, 10, 11], [-1, 13, -1, 15], [16, 17, 18, 19]])
источник
np.ix_
что он работает быстрее, чем метод выбора первых столбцов, а затем строк (обычно примерно в 2 раза быстрее в моих тестах квадратных массивов размером от 1 до 10 тысяч, где вы повторно индексируете все строки и столбцы).ИСПОЛЬЗОВАНИЕ:
>>> a[[0,1,3]][:,[0,2]] array([[ 0, 2], [ 4, 6], [12, 14]])
ИЛИ:
>>> a[[0,1,3],::2] array([[ 0, 2], [ 4, 6], [12, 14]])
источник
Использование
np.ix_
- наиболее удобный способ сделать это (как ответили другие), но вот еще один интересный способ сделать это:>>> rows = [0, 1, 3] >>> cols = [0, 2] >>> a[rows].T[cols].T array([[ 0, 2], [ 4, 6], [12, 14]])
источник