Для следующей предполагаемой схемы и примера данных
CREATE TABLE dbo.RecipeIngredients
(
RecipeId INT NOT NULL ,
IngredientID INT NOT NULL ,
Quantity INT NOT NULL ,
UOM INT NOT NULL ,
CONSTRAINT RecipeIngredients_PK
PRIMARY KEY ( RecipeId, IngredientID ) WITH (IGNORE_DUP_KEY = ON)
) ;
INSERT INTO dbo.RecipeIngredients
SELECT TOP (210000) ABS(CRYPT_GEN_RANDOM(8)/50000),
ABS(CRYPT_GEN_RANDOM(8) % 100),
ABS(CRYPT_GEN_RANDOM(8) % 10),
ABS(CRYPT_GEN_RANDOM(8) % 5)
FROM master..spt_values v1,
master..spt_values v2
SELECT DISTINCT RecipeId, 'X' AS Name
INTO Recipes
FROM dbo.RecipeIngredients
Это заполнено 205 009 строк ингредиентов и 42 613 рецептов. Это будет немного отличаться каждый раз из-за случайного элемента.
Предполагается относительно небольшое количество дупликов (после выполнения примера было получено 217 дублированных групп рецептов с двумя или тремя рецептами на группу). Наиболее патологическим случаем, основанным на цифрах в ОП, будет 48 000 точных дубликатов.
Сценарий для настройки это
DROP TABLE dbo.RecipeIngredients,Recipes
GO
CREATE TABLE Recipes(
RecipeId INT IDENTITY,
Name VARCHAR(1))
INSERT INTO Recipes
SELECT TOP 48000 'X'
FROM master..spt_values v1,
master..spt_values v2
CREATE TABLE dbo.RecipeIngredients
(
RecipeId INT NOT NULL ,
IngredientID INT NOT NULL ,
Quantity INT NOT NULL ,
UOM INT NOT NULL ,
CONSTRAINT RecipeIngredients_PK
PRIMARY KEY ( RecipeId, IngredientID )) ;
INSERT INTO dbo.RecipeIngredients
SELECT RecipeId,IngredientID,Quantity,UOM
FROM Recipes
CROSS JOIN (SELECT 1,1,1 UNION ALL SELECT 2,2,2 UNION ALL SELECT 3,3,3 UNION ALL SELECT 4,4,4) I(IngredientID,Quantity,UOM)
Следующее выполнено менее чем за секунду на моей машине в обоих случаях.
CREATE TABLE #Concat
(
RecipeId INT,
concatenated VARCHAR(8000),
PRIMARY KEY (concatenated, RecipeId)
)
INSERT INTO #Concat
SELECT R.RecipeId,
ISNULL(concatenated, '')
FROM Recipes R
CROSS APPLY (SELECT CAST(IngredientID AS VARCHAR(10)) + ',' + CAST(Quantity AS VARCHAR(10)) + ',' + CAST(UOM AS VARCHAR(10)) + ','
FROM dbo.RecipeIngredients RI
WHERE R.RecipeId = RecipeId
ORDER BY IngredientID
FOR XML PATH('')) X (concatenated);
WITH C1
AS (SELECT DISTINCT concatenated
FROM #Concat)
SELECT STUFF(Recipes, 1, 1, '')
FROM C1
CROSS APPLY (SELECT ',' + CAST(RecipeId AS VARCHAR(10))
FROM #Concat C2
WHERE C1.concatenated = C2.concatenated
ORDER BY RecipeId
FOR XML PATH('')) R(Recipes)
WHERE Recipes LIKE '%,%,%'
DROP TABLE #Concat
Одно предостережение
Я предположил, что длина объединенной строки не будет превышать 896 байт. Если это произойдет, это вызовет ошибку во время выполнения, а не произойдет молчаливая ошибка. Вам нужно будет удалить первичный ключ (и неявно созданный индекс) из #temp
таблицы. Максимальная длина объединенной строки в моей тестовой настройке составляла 125 символов.
Если объединенная строка слишком длинна для индексации, производительность окончательного XML PATH
запроса, объединяющего идентичные рецепты, вполне может быть плохой. Установка и использование настраиваемой агрегации строк CLR будет одним из решений, так как это может сделать конкатенацию с одним проходом данных, а не неиндексируемым самосоединением.
SELECT YourClrAggregate(RecipeId)
FROM #Concat
GROUP BY concatenated
Я тоже пробовал
WITH Agg
AS (SELECT RecipeId,
MAX(IngredientID) AS MaxIngredientID,
MIN(IngredientID) AS MinIngredientID,
SUM(IngredientID) AS SumIngredientID,
COUNT(IngredientID) AS CountIngredientID,
CHECKSUM_AGG(IngredientID) AS ChkIngredientID,
MAX(Quantity) AS MaxQuantity,
MIN(Quantity) AS MinQuantity,
SUM(Quantity) AS SumQuantity,
COUNT(Quantity) AS CountQuantity,
CHECKSUM_AGG(Quantity) AS ChkQuantity,
MAX(UOM) AS MaxUOM,
MIN(UOM) AS MinUOM,
SUM(UOM) AS SumUOM,
COUNT(UOM) AS CountUOM,
CHECKSUM_AGG(UOM) AS ChkUOM
FROM dbo.RecipeIngredients
GROUP BY RecipeId)
SELECT A1.RecipeId AS RecipeId1,
A2.RecipeId AS RecipeId2
FROM Agg A1
JOIN Agg A2
ON A1.MaxIngredientID = A2.MaxIngredientID
AND A1.MinIngredientID = A2.MinIngredientID
AND A1.SumIngredientID = A2.SumIngredientID
AND A1.CountIngredientID = A2.CountIngredientID
AND A1.ChkIngredientID = A2.ChkIngredientID
AND A1.MaxQuantity = A2.MaxQuantity
AND A1.MinQuantity = A2.MinQuantity
AND A1.SumQuantity = A2.SumQuantity
AND A1.CountQuantity = A2.CountQuantity
AND A1.ChkQuantity = A2.ChkQuantity
AND A1.MaxUOM = A2.MaxUOM
AND A1.MinUOM = A2.MinUOM
AND A1.SumUOM = A2.SumUOM
AND A1.CountUOM = A2.CountUOM
AND A1.ChkUOM = A2.ChkUOM
AND A1.RecipeId <> A2.RecipeId
WHERE NOT EXISTS (SELECT *
FROM (SELECT *
FROM RecipeIngredients
WHERE RecipeId = A1.RecipeId) R1
FULL OUTER JOIN (SELECT *
FROM RecipeIngredients
WHERE RecipeId = A2.RecipeId) R2
ON R1.IngredientID = R2.IngredientID
AND R1.Quantity = R2.Quantity
AND R1.UOM = R2.UOM
WHERE R1.RecipeId IS NULL
OR R2.RecipeId IS NULL)
Это работает приемлемо, когда имеется относительно небольшое количество дубликатов (менее секунды для данных первого примера), но плохо работает в патологическом случае, так как начальная агрегация возвращает точно одинаковые результаты для каждого RecipeID
и поэтому не удается сократить количество сравнения вообще.
Это обобщение проблемы реляционного деления. Не знаю, насколько это будет эффективно:
Другой (аналогичный) подход:
И еще один, другой:
Проверено на SQL-Fiddle
Использование
CHECKSUM()
иCHECKSUM_AGG()
функции, тест на SQL-Fiddle-2 :( игнорировать это , как он может давать ложные срабатывания )
источник
CHECKSUM
иCHECKSUM_AGG
все равно оставлю вам необходимость проверять наличие ложных срабатываний.Table 'RecipeIngredients'. Scan count 220514, logical reads 443643
и запрос 2Table 'RecipeIngredients'. Scan count 110218, logical reads 441214
. Третий, кажется, имеет относительно более низкие показатели чтения, чем эти два, но все же по сравнению с полными выборочными данными. Я отменил запрос через 8 минут.