T-SQL - Какой самый эффективный способ обхода таблицы до тех пор, пока не будет выполнено условие

10

В получил задание по программированию в области T-SQL.

Задача:

  1. Люди хотят попасть в лифт, каждый человек имеет определенный вес.
  2. Порядок людей, ожидающих в очереди, определяется поворотом столбца.
  3. Максимальная вместимость лифта <= 1000 фунтов.
  4. Верните имя последнего человека, который может войти в лифт, пока он не стал слишком тяжелым!
  5. Тип возврата должен быть таблицей

введите описание изображения здесь

Вопрос: Как наиболее эффективно решить эту проблему? Если циклы верны, есть ли место для улучшения?

Я использовал таблицы loop и # temp, вот мое решение:

set rowcount 0
-- THE SOURCE TABLE "LINE" HAS THE SAME SCHEMA AS #RESULT AND #TEMP
use Northwind
go

declare @sum int
declare @curr int
set @sum = 0
declare @id int

IF OBJECT_ID('tempdb..#temp','u') IS NOT NULL
    DROP TABLE #temp

IF OBJECT_ID('tempdb..#result','u') IS NOT NULL
    DROP TABLE #result

create table #result( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

create table #temp( 
    id int not null,
    [name] varchar(255) not null,
    weight int not null,
    turn int not null
)

INSERT into #temp SELECT * FROM line order by turn

 WHILE EXISTS (SELECT 1 FROM #temp)
  BEGIN
   -- Get the top record
   SELECT TOP 1 @curr =  r.weight  FROM  #temp r order by turn  
   SELECT TOP 1 @id =  r.id  FROM  #temp r order by turn

    --print @curr
    print @sum

    IF(@sum + @curr <= 1000)
    BEGIN
    print 'entering........ again'
    --print @curr
      set @sum = @sum + @curr
      --print @sum
      INSERT INTO #result SELECT * FROM  #temp where [id] = @id  --id, [name], turn
      DELETE FROM #temp WHERE id = @id
    END
     ELSE
    BEGIN    
    print 'breaaaking.-----'
      BREAK
    END 
  END

   SELECT TOP 1 [name] FROM #result r order by r.turn desc 

Вот скрипт Create для таблицы, которую я использовал Northwind для тестирования:

USE [Northwind]
GO

/****** Object:  Table [dbo].[line]    Script Date: 28.05.2018 21:56:18 ******/
SET ANSI_NULLS ON
GO

SET QUOTED_IDENTIFIER ON
GO

CREATE TABLE [dbo].[line](
    [id] [int] NOT NULL,
    [name] [varchar](255) NOT NULL,
    [weight] [int] NOT NULL,
    [turn] [int] NOT NULL,
PRIMARY KEY CLUSTERED 
(
    [id] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY],
UNIQUE NONCLUSTERED 
(
    [turn] ASC
)WITH (PAD_INDEX = OFF, STATISTICS_NORECOMPUTE = OFF, IGNORE_DUP_KEY = OFF, ALLOW_ROW_LOCKS = ON, ALLOW_PAGE_LOCKS = ON) ON [PRIMARY]
) ON [PRIMARY]

GO

ALTER TABLE [dbo].[line]  WITH CHECK ADD CHECK  (([weight]>(0)))
GO

INSERT INTO [dbo].[line]
    ([id], [name], [weight], [turn])
VALUES
    (5, 'gary', 800, 1),
    (3, 'jo', 350, 2),
    (6, 'thomas', 400, 3),
    (2, 'will', 200, 4),
    (4, 'mark', 175, 5),
    (1, 'james', 100, 6)
;
Легенды
источник

Ответы:

16

Вы должны стараться избегать петель в целом. Обычно они менее эффективны, чем решения на основе множеств, а также менее читабельны.

Ниже должно быть довольно эффективным.

Тем более, если столбцы name и weight могут быть INCLUDE-добавлены в индекс, чтобы избежать поиска ключей.

Он может сканировать уникальный индекс в порядке turnи вычислять промежуточную сумму Weightстолбца, а затем использовать LEADс теми же критериями упорядочения, чтобы увидеть, какой будет промежуточная сумма в следующей строке.

Как только он находит первую строку, где она превышает 1000 или равна NULL(указывает на отсутствие следующей строки), он может остановить сканирование.

WITH T1
     AS (SELECT *,
                SUM(Weight) OVER (ORDER BY turn ROWS UNBOUNDED PRECEDING) AS cume_weight
         FROM   [dbo].[line]),
     T2
     AS (SELECT LEAD(cume_weight) OVER (ORDER BY turn) AS next_cume_weight,
                *
         FROM   T1)
SELECT TOP 1 name
FROM   T2
WHERE  next_cume_weight > 1000
        OR next_cume_weight IS NULL
ORDER  BY turn 

План выполнения

введите описание изображения здесь

На практике кажется, что он читает на несколько строк впереди, где это строго необходимо, - похоже, что каждая пара катушек окон / агрегатов потока вызывает чтение двух дополнительных строк.

Для образцов данных в этом вопросе в идеале нужно было бы только прочитать две строки из сканирования индекса, но в действительности он читает 6, но это не является существенной проблемой эффективности, и это не ухудшается, так как в таблицу добавляется больше строк (как в это демо )

Для тех, кто интересуется этой проблемой, изображение со строками, выводимыми каждым оператором (как показано query_trace_column_valuesрасширенным событием), расположено ниже, строки выводятся по row_idпорядку (начиная 47с первой строки, прочитанной при сканировании индекса, и заканчивая 113для TOP)

Нажмите на изображение ниже, чтобы увеличить его или, в качестве альтернативы, увидеть анимированную версию, чтобы упростить процесс .

Приостановка анимации в точке, где агрегат правого потока выпустил свой первый ряд (для gary - turn = 1). Кажется очевидным, что он ожидал получить свою первую строку с другим WindowCount (для Jo - turn = 2). И оконная шпуля не освобождает первую строку «Джо», пока не прочитает следующую строку с другим turn(для Томаса - turn = 3)

Таким образом, спул окна и агрегат потока вызывают чтение дополнительной строки, и в плане их четыре, а значит, и 4 дополнительные строки.

введите описание изображения здесь

Ниже приводится объяснение столбцов, показанных выше (на основе информации здесь ).

  • NodeName: индексное сканирование, NodeId: 15, ColumnName: идентификатор базовой таблицы, охватываемый индексом
  • NodeName: индексное сканирование, NodeId: 15, ColumnName: поворот столбца базовой таблицы, охватываемого индексом
  • NodeName: поиск кластеризованного индекса, NodeId: 17, ColumnName: столбец таблицы весов, полученный из поиска
  • NodeName: поиск кластеризованного индекса, NodeId: 17, ColumnName: столбец базовой таблицы имен, полученный из поиска
  • NodeName: Segment, NodeId: 13, ColumnName: Segment1010 Возвращает 1 в начале новой группы или ноль в противном случае. Поскольку ни один не Partition Byв SUMединственной первой строке получает 1
  • NodeName: Sequence Project, NodeId: 12, ColumnName: RowNumber1009 row_number() в группе, указанной флагом Segment1010. Поскольку все строки находятся в одной группе, это целые числа от 1 до 6 по возрастанию. Используется для фильтрации строк в правом кадре в подобных случаях rows between 5 preceding and 2 following. (или как LEADпозже)
  • NodeName: Segment, NodeId: 11, ColumnName: Segment1011 Возвращает 1 в начале новой группы или ноль в противном случае. Поскольку ни один не Partition Byв SUMединственной первой строке получает 1 (То же, что Segment1010)
  • NodeName: Window Spool, NodeId: 10, ColumnName: WindowCount1012 Атрибут, который группирует строки, принадлежащие рамке окна. В этой оконной катушке используется чехол "ускоренного режима" UNBOUNDED PRECEDING. Где это испускает две строки на исходную строку. Один с совокупными значениями и один с подробными значениями. Хотя нет видимой разницы в строках, представленных, query_trace_column_valuesя предполагаю, что кумулятивные столбцы существуют в действительности.
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1004, Count(*) сгруппированный по WindowCount1012 в соответствии с планом, но на самом деле текущий счет
  • NodeName: Stream Aggregate, NodeId: 9, ColumnName: Expr1005, SUM(weight) сгруппированный по WindowCount1012 в соответствии с планом, но на самом деле текущая сумма весов (т.е. cume_weight)
  • NodeName: Segment, NodeId: 7, ColumnName: Expr1002 CASE WHEN [Expr1004]=(0) THEN NULL ELSE [Expr1005] END - не вижу, как COUNT(*)может быть 0, поэтому всегда будет работать sum ( cume_weight)
  • NodeName: Сегмент, NodeId: 7, ColumnName: Segment1013 Нет partition byна LEADтак первый ряд получает 1. Все остальные прибудете нулевой
  • NodeName: Sequence Project, NodeId: 6, ColumnName: RowNumber1006 row_number() в группе, указанной флагом Segment1013. Поскольку все строки находятся в одной группе, это целые числа от 1 до 4 по возрастанию
  • NodeName: Segment, NodeId: 4, ColumnName: BottomRowNumber1008 RowNumber1006 + 1, поскольку LEADтребуется одна следующая строка
  • NodeName: Segment, NodeId: 4, ColumnName: TopRowNumber1007 RowNumber1006 + 1, поскольку LEADтребуется одна следующая строка
  • NodeName: Сегмент, NodeId: 4, ColumnName: Segment1014 Нет partition byна LEADтак первый ряд получает 1. Все остальные прибудете нулевой
  • NodeName: Window Spool, NodeId: 3, ColumnName: WindowCount1015 Атрибут, который группирует строки, принадлежащие рамке окна, с использованием предыдущих номеров строк. Фрейм окна LEADимеет максимум 2 строки (текущая и следующая)
  • Имя узла: агрегат потока, идентификатор узла: 2, имя столбца: Expr1003 LAST_VALUE([Expr1002]) дляLEAD(cume_weight)
Мартин Смит
источник
6

Как любопытство (поскольку в вопросе говорится о T-SQL), также можно эффективно решить эту проблему с помощью SQLCLR.

Идея состоит в том, чтобы читать строки по одной за раз turnдо тех пор, пока число не weightпревысит 1000 (или у нас не останется строк), а затем вернуть последнее nameчтение.

Исходный код:

using Microsoft.SqlServer.Server;
using System.Data;
using System.Data.SqlClient;
using System.Data.SqlTypes;

public partial class UserDefinedFunctions
{
    [SqlFunction(DataAccess = DataAccessKind.Read,
        SystemDataAccess = SystemDataAccessKind.None,
        IsDeterministic = true, IsPrecise = true)]
    [return: SqlFacet(IsFixedLength = false, IsNullable = true, MaxSize = 255)]
    public static SqlString Elevator()
    {
        const string query =
            @"SELECT L.[name], L.[weight]
            FROM dbo.line AS L
            ORDER BY L.turn;";

        using (var con = new SqlConnection("context connection = true"))
        {
            con.Open();
            using (var cmd = new SqlCommand(query, con))
            {
                var rdr = cmd.ExecuteReader(CommandBehavior.SingleResult);
                var name = SqlString.Null;
                var total = 0;

                while (rdr.Read() && (total += rdr.GetInt32(1)) <= 1000)
                {
                    name = rdr.GetSqlString(0);
                }
                return name;
            }
        }
    }
}

Скомпилированная сборка и функция T-SQL:

CREATE ASSEMBLY Elevator AUTHORIZATION [dbo]
FROM 
WITH PERMISSION_SET = SAFE;
GO
CREATE FUNCTION dbo.Elevator ()
RETURNS nvarchar(255)
AS EXTERNAL NAME Elevator.UserDefinedFunctions.Elevator;

Получение результата:

SELECT dbo.Elevator();
Пол Уайт 9
источник
1

Небольшое отклонение от решения Мартина Смита

SELECT top 1 name
FROM (
    SELECT id, name, weight, turn
         , SUM(weight) OVER (ORDER BY turn) AS cumulative_weight
    FROM line                               
) as T
WHERE cumulative_weight <= 1000
ORDER BY turn DESC 

RANGE BETWEEN UNBOUNDED PRECEDING AND CURRENT ROW это оконная рама по умолчанию, поэтому я этого не объявлял.

Предикат для текущего совокупного веса используется вместо следующего совокупного веса.

Я не проверил ни одного плана, поэтому не могу сказать, есть ли разница в этом отношении.

Леннарт
источник
Я вижу, я окружен фанатами БД :-). Я должен проверить все ключевые слова, которые вы, ребята, упоминаете, чтобы понять, что они делают. Я только взглянул на Client statistics --> Total Execution Time, а не то, Actual execution planчто, пожалуй, самое интересное здесь. На Client Statisticsваше решение является чуть - чуть медленнее , чем Мартин. Спасибо за дополнительную информацию. Какой метод можно использовать для измерения различий в производительности между различными подходами?
Легенды
1
Боюсь, мои знания SQL-сервера очень ограничены, поэтому я не очень разбираюсь в том, какие метрики использовать. У Мартина есть ссылка db <> fiddle в его ответе, возможно, вы можете посмотреть планы там.
Леннарт
1
Я также не проверял планы, но предположил бы, что это, вероятно, вычислит промежуточную сумму по всей таблице, а затем отсортирует результирующие строки, соответствующие WHERE. Я сомневаюсь, что он будет использовать проверочное ограничение, чтобы знать, что промежуточная сумма строго возрастает и может остановиться рано. Кроме того, в SQL Server, за исключением случаев, когда используется агрегат окна в пакетном режиме, указание ROWS, а не RANGE, является предпочтительным, даже если нет дубликатов, поскольку оконная папка находится в памяти, а не на диске
Мартин Смит,
@MartinSmith, интересно. В вашем решении LEAD позволяет выдвинуть предикат next_cume_weight <10000 внутри T1 и рано выйти из сканирования индекса? Я проверил план по моему запросу и ROWS BETWEEN UNBOUNDED PRECEDING AND CURRENT ROWввел Sequence Project (Compute Scalar)оператор. Само собой разумеется, я понятия не имею, что это значит :-)
Леннарт
1
Индекс доставляет строки в порядке, необходимом для суммы, лидерства и вершины. Как только top получает свою первую строку, он может перестать запрашивать больше строк, и выполнение может остановиться.
Мартин Смит
0

Вы можете сделать соединение против себя:

select 
    a.id, a.turn, a.game, 
    coalesce(sum(b.weight), 0) as cumulative_weight
from
    table a
left join 
    table b
on
    a.turn > b.turn
group by
    a.id, a.turn, a.game ;

Подобные вещи не очень эффективны, так как вызывают выбор в строке. Но, по крайней мере, это выражается как одно утверждение.

Если вам не нужно делать это полностью в SQL, вы можете просто выбрать все строки и пройтись по ним, добавляя их по мере продвижения.

Вы можете сделать то же самое в хранимой процедуре без временной таблицы. Просто держите сумму и имя последней строки в переменной.

ypercubeᵀᴹ
источник
Извините, я не знаю, как заставить это работать с a. self-joinЕсли бы вы могли сделать небольшой воспроизводимый пример, я добавил определение таблицы в свой вопрос. Мой sql плохо .... Мне нужно имя человека, ближайшего к <= 1000 фунтов.
Легенды
похоже, ваше обновление работает нормально, вам нужно немного поиграть с ним, если вы хотите, чтобы оно получало только точный результат. Но, как я уже сказал, это не супер эффективно
ОК? Я получаю ноль за Персона с идентификатором 5 ...
Legends
это странно, я ожидаю, что sum () вернет 0 для суммы по 0 строкам
Сумма по 0 строкам не равна 0 (к сожалению). Вам нужно использовать COALESCE()или ISNULL()функцию или CASEвыражение, чтобы сделать его 0.
ypercubeᵀᴹ