Поиск повторяющихся значений в MySQL

770

У меня есть таблица со столбцом varchar, и я хотел бы найти все записи, которые имеют повторяющиеся значения в этом столбце. Какой лучший запрос я могу использовать, чтобы найти дубликаты?

mysql Джон Такабери
источник

1

Поскольку вы упомянули найти все записи, я предполагаю, что вам нужно знать КЛЮЧИ, а также дублированные значения в этой колонке varchar.

TechTravelThink

Я могу найти ключи достаточно легко после того, как получу значения, я просто хочу получить список всех повторяющихся значений.

Джон Tackabury

1523

Сделать SELECTс GROUP BYоговоркой. Допустим, имя - это столбец, в котором вы хотите найти дубликаты:

SELECT name, COUNT(*) c FROM table GROUP BY name HAVING c > 1;

Это вернет результат со значением имени в первом столбце и счетчиком того, сколько раз это значение появляется во втором столбце.

Левик
источник

27

Но как это полезно, если вы не можете получить идентификаторы строк с повторяющимися значениями? Да, вы можете сделать новый запрос соответствия для каждого дублирующегося значения, но возможно ли просто перечислить дубликаты?

NobleUplift

23

@NobleUplift Вы можете сделать, GROUP_CONCAT(id)и он будет перечислять идентификаторы. Смотрите мой ответ для примера.

Мэтт Рардон

5

Что бы это значило, если бы сказали ERROR: column "c" does not exist LINE 1?

Пользователь

15

Я смущен, почему это принятый ответ и почему у него так много голосов. ОП спросил: «Я хотел бы найти в этом столбце все записи с одинаковыми значениями». Этот ответ возвращает таблицу отсчетов. -1

Моника Хедднек

4

Для тех, кто не понимает, как работает HAVING - это просто фильтр на наборе результатов, что происходит после основного запроса.

Джон Хант

236

SELECT varchar_col
FROM table
GROUP BY varchar_col
HAVING COUNT(*) > 1;

maxyfc
источник

10

Превосходит ответ @ levik, так как не добавляет лишний столбец. Делает это полезным для использования с IN()/ NOT IN().

Wmassingham

172

SELECT  *
FROM    mytable mto
WHERE   EXISTS
        (
        SELECT  1
        FROM    mytable mti
        WHERE   mti.varchar_column = mto.varchar_column
        LIMIT 1, 1
        )

Этот запрос возвращает полные записи, а не только отдельные varchar_column.

Этот запрос не использует COUNT(*). Если дубликатов много, они COUNT(*)дорогие и вам не нужно целое COUNT(*), вам просто нужно знать, есть ли две строки с одинаковым значением.

varchar_columnКонечно, наличие индекса значительно ускорит этот запрос.

Quassnoi
источник

3

Отлично. Я добавил ORDER BY varchar_column DESCв конец запроса.

Транте

8

Это должен быть принятый ответ, так как GROUP BYи HAVINGвозвращает только один из возможных дубликатов. Кроме того, производительность с индексированным полем вместо COUNT(*), и возможность ORDER BYгруппировать дубликаты записей.

Реми Бретон,

1

Как указано в комментариях выше, этот запрос позволяет вам перечислить все дублированные строки. Очень полезный.

TryHarder

4

Глядя на это, я не понимаю, как это будет работать вообще. Разве внутреннее условие всегда будет истинным, поскольку любая строка во внешней таблице будет также доступна во внутренней таблице, и поэтому каждая строка всегда будет хотя бы соответствовать самой себе? Я попробовал запрос и получил результат, который я подозревал - каждая строка вернулась. Но с таким большим количеством голосов я сомневаюсь в себе. Во внутреннем запросе отсутствует что-то вроде «AND mto.id <> mti.id»? Это работает для меня, когда я добавляю это.

Клок

2

@Quassnoi Хорошо. Я пытался поместить его в sqlfiddle, но я отказался, так как каждый запрос, который я пытаюсь выполнить, кроме создания схемы, получает тайм-аут. Я понял, что удаление «EXISTS» также делает запрос корректным для меня.

Клок

144

Составив ответ levik, чтобы получить идентификаторы дублирующихся строк, вы можете сделать это, GROUP_CONCATесли ваш сервер его поддерживает (это вернет список идентификаторов, разделенных запятыми).

SELECT GROUP_CONCAT(id), name, COUNT(*) c FROM documents GROUP BY name HAVING c > 1;

Мэтт Рардон
источник

12

Все это время, не зная о GROUP_CONCAT ()! очень очень полезно

августа

Действительно ценится Мэтт. Это действительно полезно! Для тех, кто пытается обновить в phpmyadmin, если вы оставляете идентификатор вместе с функцией, подобной этой: SELECT id, GROUP_CONCAT(id), name, COUNT(*) c [...]она включает встроенное редактирование и должна обновлять все задействованные строки (или, по крайней мере, первую совпадающую строку), но, к сожалению, редактирование генерирует ошибку Javascript. ..

Armfoot

Как бы вы тогда подсчитали, сколько идентификаторов подвержены дублированию?

CMCDragonkai

2

Как я не получаю все идентификаторы сгруппированы, но вместо этого перечислены от первого до последнего; со всеми соответствующими значениями в столбцах рядом с ними? Таким образом, вместо группировки, он просто показывает ID 1 и его значение, ID 2 и его значение. ДАЖЕ, если значения для идентификатора совпадают.

MailBlade

1

Чрезвычайно полезный ответ, это должно быть сверху, чтобы больше людей видели это. Я помню, сколько боли я пережил, создав такие списки, и это было доступно все время как команда ..

Джон

13

Предполагая, что ваша таблица называется TableABC, а столбец, который вам нужен, это Col, а первичный ключ к T1 - Key.

SELECT a.Key, b.Key, a.Col 
FROM TableABC a, TableABC b
WHERE a.Col = b.Col 
AND a.Key <> b.Key

Преимущество этого подхода перед приведенным выше ответом заключается в том, что он дает ключ.

TechTravelThink
источник

4

+1 Потому что это удобно. Хотя, по иронии судьбы, сам результат содержит дубликаты (в нем перечислены a и b, затем b и a.)

Fabien Snauwaert

2

@FabienSnauwaert Вы можете избавиться от некоторых дубликатов, сравнив меньше (или больше чем)

Майкл

@TechTravelThink ваш ответ очень ясен, спасибо за это, но для большой таблицы это занимает некоторое время (около 2 млн. При более 20 000 таблицах записей), и после показа 25 первых результатов, если я нажму, чтобы показать следующий, phpmyadmin show error "# 1052 - «Идентификатор столбца в предложении заказа неоднозначен»

bcag2

12

SELECT * 
FROM `dps` 
WHERE pid IN (SELECT pid FROM `dps` GROUP BY pid HAVING COUNT(pid)>1)

strustam
источник

1

Нет, потому что это, пожалуй, самый медленный из всех. Подвыборы известны своей медлительностью, поскольку они выполняются для каждой возвращаемой строки.

Оддман

10

Чтобы узнать, сколько записей являются дубликатами в столбце имени в Employee, полезен следующий запрос;

Select name from employee group by name having count(*)>1;

user5599549
источник

10

чтобы получить все данные, которые содержат дубликаты, я использовал это:

SELECT * FROM TableName INNER JOIN(
  SELECT DupliactedData FROM TableName GROUP BY DupliactedData HAVING COUNT(DupliactedData) > 1 order by DupliactedData)
  temp ON TableName.DupliactedData = temp.DupliactedData;

TableName = таблица, с которой вы работаете.

DupliactedData = дублированные данные, которые вы ищете.

UDI
источник

Этот показывает каждый дубликат в своем собственном ряду. Это то что мне нужно. Спасибо.

теплый виски

8

Мой последний запрос включал несколько ответов, которые мне помогли - объединение по группам, count & GROUP_CONCAT.

SELECT GROUP_CONCAT(id), `magento_simple`, COUNT(*) c 
FROM product_variant 
GROUP BY `magento_simple` HAVING c > 1;

Это обеспечивает идентификатор обоих примеров (через запятую), нужный мне штрих-код и количество дубликатов.

Измените таблицу и столбцы соответственно.

Джонатан
источник

8

Я не вижу никаких подходов JOIN, которые имеют много применений с точки зрения дубликатов.

Этот подход дает вам реальные удвоенные результаты.

SELECT t1.* FROM my_table as t1 
LEFT JOIN my_table as t2 
ON t1.name=t2.name and t1.id!=t2.id 
WHERE t2.id IS NOT NULL 
ORDER BY t1.name

Адам Фишер
источник

2

К вашему сведению - вы захотите «выбрать отличный somecol ..», если существует вероятность существования более 1 дублированной записи, иначе результаты будут содержать дубликаты найденных дублированных строк.

Дрю

7

SELECT t.*,(select count(*) from city as tt
  where tt.name=t.name) as count
  FROM `city` as t
  where (
     select count(*) from city as tt
     where tt.name=t.name
  ) > 1 order by count desc

Замените город своей таблицей. Замените имя на имя вашего поля

Лалит Патель
источник

7

Принимая @ maxyfc в ответ дальше, мне нужно , чтобы найти все из строк , которые были возвращены с повторяющимися значениями, так что я мог редактировать их в MySQL Workbench :

SELECT * FROM table
   WHERE field IN (
     SELECT field FROM table GROUP BY field HAVING count(*) > 1
   ) ORDER BY field

Полный ноль
источник

6

Я видел приведенный выше результат, и запрос будет работать нормально, если вам нужно проверить значение одного столбца, которые являются дубликатами. Например, электронная почта.

Но если вам нужно проверить больше столбцов и хотите проверить комбинацию результата, этот запрос будет работать нормально:

SELECT COUNT(CONCAT(name,email)) AS tot,
       name,
       email
FROM users
GROUP BY CONCAT(name,email)
HAVING tot>1 (This query will SHOW the USER list which ARE greater THAN 1
              AND also COUNT)

davejal
источник

Именно то, что было нужно! Вот мой запрос, проверяющий 3 поля на дубликаты:

SELECT COUNT(CONCAT(userid,event,datetime)) AS total, userid, event, datetime FROM mytable GROUP BY CONCAT(userid, event, datetime ) HAVING total>1

Кай Ноак

4

Я предпочитаю использовать оконные функции (MySQL 8.0+) для поиска дубликатов, потому что я мог видеть всю строку:

WITH cte AS (
  SELECT *
    ,COUNT(*) OVER(PARTITION BY col_name) AS num_of_duplicates_group
    ,ROW_NUMBER() OVER(PARTITION BY col_name ORDER BY col_name2) AS pos_in_group
  FROM table
)
SELECT *
FROM cte
WHERE num_of_duplicates_group > 1;

DB Fiddle Demo

Лукаш Шозда
источник

3

SELECT 
    t.*,
    (SELECT COUNT(*) FROM city AS tt WHERE tt.name=t.name) AS count 
FROM `city` AS t 
WHERE 
    (SELECT count(*) FROM city AS tt WHERE tt.name=t.name) > 1 ORDER BY count DESC

magesh
источник

1

Выполнение одного и того же подзапроса дважды кажется неэффективным.

NobleUplift

3

Далее будут найдены все product_id, которые используются более одного раза. Вы получаете только одну запись для каждого product_id.

SELECT product_id FROM oc_product_reward GROUP BY product_id HAVING count( product_id ) >1

Код взят из: http://chandreshrana.blogspot.in/2014/12/find-duplicate-records-based-on-any.html

Chandresh
источник

3

CREATE TABLE tbl_master
    (`id` int, `email` varchar(15));

INSERT INTO tbl_master
    (`id`, `email`) VALUES
    (1, 'test1@gmail.com'),
    (2, 'test2@gmail.com'),
    (3, 'test1@gmail.com'),
    (4, 'test2@gmail.com'),
    (5, 'test5@gmail.com');

QUERY : SELECT id, email FROM tbl_master
WHERE email IN (SELECT email FROM tbl_master GROUP BY email HAVING COUNT(id) > 1)

Бижеш шет
источник

2

SELECT DISTINCT a.email FROM `users` a LEFT JOIN `users` b ON a.email = b.email WHERE a.id != b.id;

Павел Фурманиак
источник

1

Стоит отметить, что это невыносимо медленно или может даже не завершиться, если запрашиваемый столбец не проиндексирован. В противном случае, я был в состоянии изменить , a.emailчтобы a.*и получить все идентификаторы строк с дубликатами.

NobleUplift

@NobleUplift О чем ты говоришь?

Майкл

@Michael Ну, так как это три года, я не могу тестировать ни на какой версии MySQL, которую я использовал, но я попробовал этот же запрос в базе данных, где у выбранного столбца не было индекса, поэтому потребовалось довольно много времени. несколько секунд, чтобы закончить. Изменение его SELECT DISTINCT a.*решено почти мгновенно.

NobleUplift

@NobleUplift Ах, хорошо. Я могу понять, что это медленно ... часть, о которой я беспокоюсь, это "может даже не закончить".

Майкл

@ Михаил, я не помню, по какой таблице в нашей системе мне нужно было выполнить этот запрос, но для таблиц с несколькими миллионами записей, которые они, вероятно, закончили бы, но за время, которое заняло так много времени, что я перестал видеть, когда это на самом деле закончится.

NobleUplift

1

Для удаления повторяющихся строк с несколькими полями сначала сопоставьте их новому уникальному ключу, который указан только для отдельных строк, а затем используйте команду «group by» для удаления дублирующихся строк с тем же новым уникальным ключом:

Create TEMPORARY table tmp select concat(f1,f2) as cfs,t1.* from mytable as t1;
Create index x_tmp_cfs on tmp(cfs);
Create table unduptable select f1,f2,... from tmp group by cfs;

irshst
источник

Вы также можете добавить объяснение?

Роберт

Почему бы не использовать CREATE TEMPORARY TABLE ...? Небольшое объяснение вашего решения было бы здорово.

maxhb

1

Один очень поздний вклад ... на тот случай, если он поможет кому-то в конце концов ... У меня была задача найти подходящие пары транзакций (фактически обе стороны переводов со счета на счет) в банковском приложении, чтобы определить, какие из них были 'from' и 'to' для каждой транзакции между счетами, поэтому мы получили следующее:

SELECT 
    LEAST(primaryid, secondaryid) AS transactionid1,
    GREATEST(primaryid, secondaryid) AS transactionid2
FROM (
    SELECT table1.transactionid AS primaryid, 
        table2.transactionid AS secondaryid
    FROM financial_transactions table1
    INNER JOIN financial_transactions table2 
    ON table1.accountid = table2.accountid
    AND table1.transactionid <> table2.transactionid 
    AND table1.transactiondate = table2.transactiondate
    AND table1.sourceref = table2.destinationref
    AND table1.amount = (0 - table2.amount)
) AS DuplicateResultsTable
GROUP BY transactionid1
ORDER BY transactionid1;

Результатом является то, что он DuplicateResultsTableпредоставляет строки, содержащие совпадающие (т.е. дублирующие) транзакции, но он также предоставляет те же идентификаторы транзакций в обратном порядке во второй раз, когда он совпадает с той же парой, поэтому внешняя SELECTгруппа должна сгруппироваться по первому идентификатору транзакции, что делается с помощью LEASTи GREATESTубедитесь, что два идентификатора транзакции всегда находятся в одинаковом порядке в результатах, что делает его безопасным для GROUPпервого, тем самым устраняя все повторяющиеся совпадения. Пробежал почти миллион записей и выявил более 12 000 матчей за 2 секунды. Конечно, идентификатор транзакции является основным индексом, который действительно помог.

fortyninthnet
источник

1

Select column_name, column_name1,column_name2, count(1) as temp from table_name group by column_name having temp > 1

Випин Джайн
источник

1

SELECT ColumnA, COUNT( * )
FROM Table
GROUP BY ColumnA
HAVING COUNT( * ) > 1

Скотт Фергюсон
источник

3

Это неверно, так как он также находит уникальные вхождения. 0 должно быть 1.

Кафосо

1

Если вы хотите удалить дубликаты, используйте DISTINCT

В противном случае используйте этот запрос:

SELECT users.*,COUNT(user_ID) as user FROM users GROUP BY user_name HAVING user > 1;

Хасан Латиф Батт
источник

0

Попробуйте использовать этот запрос:

SELECT name, COUNT(*) value_count FROM company_master GROUP BY name HAVING value_count > 1;

Атул Акабари
источник

Поиск повторяющихся значений в MySQL

Ответы: