Сортировка — часто встречается в работе разработчика. В то же время это высоко нагруженный процесс, который может существенно повлиять на скорость всего приложения. Потому исследуем вопрос алгоритмов сортировки на Python, рассмотрим наиболее известные варианты и определимся с наиболее быстрым из них. В добрый путь…
Математические Параметры алгоритмов:
- Временная сложность: определяется как функция от длины строки, представляющей входные данные, равная времени работы алгоритма на данном входе. Характеризует ожидаемое общее тактовое время (ОТВ), где такт это одна операция. Прямо влияет на Время исполнения, однако ОТВ и реальные временные затраты не совсем одно и тоже. Временная сложность отражает количество операций, но для разных алгоритмов скорость выполнения операций разное, в результате скорость алгоритмов с одной и той же временной сложностью, могут существенно отличаться.
- Пространство сложности: работает аналогично временной сложности. Характеризует — объёмы ресурсов необходимых для исполнения (влияет на требуемый объём оперативной памяти). Например, сортировка выбором имеет пространственную сложность O(1), потому что она хранит только одно минимальное значение и свой индекс для сравнения, максимальное используемое пространство не увеличивается с размером ввода.
- Стабильность: нестабильная и стабильная. Отражает устойчивость показателей алгоритма к вариациям содержания сортируемых Последовательностей и к стартовым условиям сортировки (Например: в ряде алгоритмов базовый элемент сравнения выбирается случайным образом, или вариации значения первого элемента последовательности. Это может существенно влиять на скорость сортировки и её стабильность)
Конечно нас интересует результируещее реальное время работы и сравнительная скорость, но математические параметры алгоритмов дают нам экспресс оценку ожиданий результатов тестирования. И в целом их полезно знать для правильного проектирования програмных систем и приложений.
Ниже приведены основные виды сортировки, вместе с образцами программного кода.
Пузырьковая сортировка:
Один из самых известных методов сортировки, в каком то смысле «классический» или «хрестоматийный» метод. Его часто используют в университетах для объяснения базовых принципов алгоритмов сортировки.
Принцип пузырьковой сортировки заключается в парном обходе последовательности данных, их парном сравнении и парной сортировке. Если во время обхода обнаружены два смежных элемента, а левый элемент больше правого, выполняется обмен местами. Так, словно «пузырьки воздуха сквозь воду», большие элементы «просачиваются» к началу, а меньшие «оседают» в конце. Для практического применения, этот алгоритм сегодня слишком медленный.
- Сложность времени: O (n²)
- Пространство сложности: O (1)
- Стабильность: стабильная
# Пузырьковая сортировка
def bubble_sort(list):
l = len(list)
for i in range(l-1,0,-1):
for j in range(i):
if list[j] > list[j+1]:
list[j],list[j+1] = list[j+1],list[j]
return list
Выборочная сортировка ( Сортировка Выборкой ):
Принцип Выборочной сортировки заключается в том, чтобы сначала найти наименьший элемент в начальном массиве и заменить его на i = 0, затем найти наименьший элемент в оставшихся элементах и заменить его на i = 1 и так далее. Пока не найден второй по величине элемент, поменяйте его местами в положение n-2. Это завершит сортировку.
- Сложность времени: O (n²)
- Пространство сложности: O (1)
- Стабильность: нестабильная
# Сортировка выборкой
def select_sort(list):
length = len(list)
for i in range(length):
min = i
for j in range(i,length):
if list[j] < list[min]:
min = j
list[i],list[min] = list[min],list[i]
return list
Сортировка Вставками:
Предполагается, что первый элемент списка отсортирован. Переходим к следующему элементу, обозначим его х
. Если х
больше первого, оставляем его на своём месте. Если он меньше, копируем его на вторую позицию, а х
устанавливаем как первый элемент.
Переходя к другим элементам несортированного сегмента, перемещаем более крупные элементы в отсортированном сегменте вверх по списку, пока не встретим элемент меньше x
или не дойдём до конца списка. В первом случае x
помещается на правильную позицию.
- Сложность времени: O (n²)
- Пространство сложности: O (1)
- Стабильность: стабильная
# Сортировка Вставками
def insert_sort(list):
length = len(list)
for i in range(1,length):
for j in range(i):
if list[j] > list[j+1]:
list[j],list[j+1] = list[j+1],list[j]
return list
Пирамидальная сортировка ( Сортировка кучи )
Основан прежде всего на преобразовании исходной Последовательности в элемент структурного типа — heap (куча). Вы можете использовать характеристики массива, чтобы быстро найти элемент по указанному индексу. Куча делится на большую корневую кучу и небольшую корневую кучу, которые являются полностью бинарными деревьями — Max Heap. Требование к большой корневой куче состоит в том, чтобы значение каждого узла не превышало значение его родительского узла, то есть A [PARENT [i]]> = A [i]. При неубывающем упорядочении массива требуется большая корневая куча, поскольку в соответствии с требованиями большой корневой кучи наибольшее значение должно быть в верхней части кучи.
- Сложность времени: O (nlog₂n)
- Пространство сложности: O (1)
- Стабильность: нестабильная
# Пирамидальная сортировка
def heap_sort(array):
def heap_adjust(parent):
child = 2 * parent + 1 # left child
while child < len(heap):
if child + 1 < len(heap):
if heap[child + 1] > heap[child]:
child += 1 # right child
if heap[parent] >= heap[child]:
break
heap[parent], heap[child] = \
heap[child], heap[parent]
parent, child = child, 2 * child + 1
heap, array = array.copy(), []
for i in range(len(heap) // 2, -1, -1):
heap_adjust(i)
while len(heap) != 0:
heap[0], heap[-1] = heap[-1], heap[0]
array.insert(0, heap.pop())
heap_adjust(0)
return array
Сортировка объединением ( слиянием ):
Забегая вперёд стоит отметить, что это одна из самых быстрых сортировок. Чем то этот алгоритм похож на Пузырьковую сортировку, но «пузырьки» всплывают относительно подмножества смежных элементов последовательности, до тех пор пока она удовлетворяет условиям «всплытия» относительно вержнего элемента парного Подмножества.
Что за «Парное подмножество»? — спросите Вы.
Сортировка объединением (merge) — это разделениена 2 примерно равных парных Подмножества, а затем производится слияние Парных подмножеств с сортировкой относительно текущих указателей (св реализациях с применением указателей) или начальных (в реализациях с pop()) элементов друг друга.
Надо отметить, что если слияние производится методом pop(), соответственно в ходе слияния — добавляемый в результат эелемент «выталкивается» из соответствующего парного Подмножества. Во первых, это изменяет сами Подмножества. Во вторых, удаление нулевого елемента «стоит дорого», потому лучше использовать реверсию (сравнивая Подмножества с конца — pop (P[-1])), это в разы ускоряет функцию.
- Сложность времени: O (nlog₂n)
- Пространство сложности: O (1)
- Стабильность: стабильная
Пример простой сортировки слиянием со смещением указателя:
def simple_merge(list1, list2):
i, j = 0, 0
res = []
while i < len(list1) and j < len(list2):
if list1[i] < list2[j]:
res.append(list1[i])
i += 1
else:
res.append(list2[j])
j += 1
res += list1[i:]
res += list2[j:]
# один из list1[i:] и list2[j:] будет уже пустой, поэтому добавится только нужный остаток
return res
Пример слияния со смещением указателя с использованием генераторов. Он значительно быстрее, и возвращает генератор значения которого могут подаватся в список:
def gen_merge_inner(it1, it2):
el1 = next(it1, None)
el2 = next(it2, None)
while el1 is not None or el2 is not None:
if el1 is None or (el2 is not None and el2 < el1):
yield el2
el2 = next(it2, None)
else:
yield el1
el1 = next(it1, None)
def gen_merge(list1, list2):
return list(gen_merge_inner(iter(list1), iter(list2))) # из генератора получаем список
А вот сортирорвка слиянием с pop():
# Сортировка слиянием
def merge_sort(array):
def merge_arr(arr_l, arr_r):
array = []
while len(arr_l) and len(arr_r):
if arr_l[0] <= arr_r[0]:
array.append(arr_l.pop(0))
elif arr_l[0] > arr_r[0]:
array.append(arr_r.pop(0))
if len(arr_l) != 0:
array += arr_l
elif len(arr_r) != 0:
array += arr_r
return array
# Сортировка слиянием с Реверсом
def reverse_pop_merge(list1, list2):
result = []
while list1 and list2:
result.append((list1 if list1[-1] > list2[-1] else list2).pop(-1))
return (result + list1[-1::-1] + list2[-1::-1])[-1::-1]
Быстрая сортировка
Этот алгоритм также относится к алгоритмам «разделяй и властвуй». Его используют чаще других алгоритмов, описанных в этой статье. При правильной конфигурации он чрезвычайно эффективен и не требует дополнительной памяти, в отличие от сортировки слиянием. Массив разделяется на две части по разные стороны от опорного элемента. В процессе сортировки элементы меньше опорного помещаются перед ним, а равные или большие —позади.
- Сложность времени: O (nlog₂n)
- Пространство сложности: O (nlog₂n)
- Стабильность: нестабильная
Алгоритм
Быстрая сортировка начинается с разбиения списка и выбора одного из элементов в качестве опорного. А всё остальное передвигаем так, чтобы этот элемент встал на своё место. Все элементы меньше него перемещаются влево, а равные и большие элементы перемещаются вправо.
Реализация
Существует много вариаций данного метода. Способ разбиения массива, рассмотренный здесь, соответствует схеме Хоара (создателя данного алгоритма).
def partition(nums, low, high):
# Выбираем средний элемент в качестве опорного
# Также возможен выбор первого, последнего
# или произвольного элементов в качестве опорного
pivot = nums[(low + high) // 2]
i = low - 1
j = high + 1
while True:
i += 1
while nums[i] < pivot:
i += 1
j -= 1
while nums[j] > pivot:
j -= 1
if i >= j:
return j
# Если элемент с индексом i (слева от опорного) больше, чем
# элемент с индексом j (справа от опорного), меняем их местами
nums[i], nums[j] = nums[j], nums[i]
def quick_sort(nums):
# Создадим вспомогательную функцию, которая вызывается рекурсивно
def _quick_sort(items, low, high):
if low < high:
# This is the index after the pivot, where our lists are split
split_index = partition(items, low, high)
_quick_sort(items, low, split_index)
_quick_sort(items, split_index + 1, high)
_quick_sort(nums, 0, len(nums) - 1)
# Проверяем, что оно работает
random_list_of_nums = [22, 5, 1, 18, 99]
quick_sort(random_list_of_nums)
print(random_list_of_nums)
Или так:
# Быстрая сортировка 2
def quick_sort(list):
if list == []:
return []
else:
first = list[0]
left = quick_sort([l for l in list[1:]if l < first])
right = quick_sort([l for l in list[1:] if l > first])
return left +[first] + right
Время выполнения Быстрой сортировки
В среднем время выполнения быстрой сортировки составляет O(n log n).
Обратите внимание, что алгоритм быстрой сортировки будет работать медленно, если опорный элемент равен наименьшему или наибольшему элементам списка. При таких условиях, в отличие от сортировок кучей и слиянием, обе из которых имеют в худшем случае время сортировки O(n log n), быстрая сортировка в худшем случае будет выполняться O(n²).
Сортировка по холмам ( Hill или Shell )
сортировка по холмам — группировка записей по определенному приращению индекса и использование алгоритма прямой вставки для каждой группы; по мере того, как приращение постепенно уменьшается, каждая группа содержит все больше и больше ключевых слов. Когда приращение уменьшается до 1, весь файл просто собирается в группу, и алгоритм завершается.
def shell_sort(slist):
gap = len(slist)
while gap > 1:
gap = gap // 2
for i in range(gap, len(slist)):
for j in range(i % gap, i, gap):
if slist[i] < slist[j]:
slist[i], slist[j] = slist[j], slist[i]
return slist
2. Протестируйте и проверьте
import time
from main import *
import sys
sys.setrecursionlimit(100000000)
def timeCount(func):
def wrapper(*arg,**kwarg):
start = time.clock()
func(*arg,**kwarg)
end =time.clock()
print ('used:', end - start)
return wrapper
class Executor(object):
def __init__(self, func, *args, **kwargs):
self.func = func
self.args = args
self.kwargs = kwargs
self.do()
@timeCount
def do(self):
print('-----start:', self.func, '-----')
self.ret = self.func(*self.args, **self.kwargs)
def __del__(self):
print('-----end-----')
class TestClass(object):
list =[]
def testreadlist(self):
for line in open('list.txt'):
self.list.append(line.strip())
print(self.list)
# Пузырьковая сортировка
def testbubble(self):
Executor(bubble_sort,self.list)
# Быстрая сортировка
def testquick(self):
Executor(quick_sort,self.list)
# Выбрать сортировку
def testselect(self):
Executor(select_sort,self.list)
# Вставить сортировку
def testinsert(self):
Executor(insert_sort,self.list)
# Сортировка кучи
def testhead(self):
Executor(heap_sort,self.list)
# Merge sort
def testmerge(self):
Executor(merge_sort,self.list)
# Hill Sort
def testshell(self):
Executor(shell_sort,self.list)
def main(self):
self.testreadlist()
self.testbubble()
self.testquick()
self.testselect()
self.testinsert()
self.testhead()
self.testmerge()
self.testshell()
if __name__ =='__main__':
TestClass().main()
Тест 200 данных и 10000 данных, протестированных здесь, но с точки зрения скорости вычисления
1. Самая быстрая сортировка слиянием
2. Bubble sort и Hill сортировка — самые медленные
Самый быстрый алгоритм Сортировки на Python:
Эксперементальными измерениями неоднократно доказано что самыми быстрыми рабочими вариантами сортировки будут реализации с использованием встроеных функций сортировки sorted() или sort(). Тут нет ничего неожиданного, эти функции реализованы на С++ и лишь обёрнуты в интерфейс Python.
Исполняемый код очень прост
Сортировка списка с использованием функции sorted():
def sort_merge(list1, list2):
return sorted(list1 + list2)
Сортировка списка с использованием функции sort():
def sort_merge(list1, list2):
return (list1 + list2).sort()
Стоит отметить, что последний вариант быстрее, ниже приведены логи тестовых испытаний.
list1 = [i for i in range(1, 200000, 3)]
list2 = [i for i in range(2, 250000, 4)]
%timeit res1 = sorted(list1 + list2)
%timeit res2 = list1 + list2; res2.sort()
6.73 ms ± 64.9 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)
4.43 ms ± 38.4 µs per loop (mean ± std. dev. of 7 runs, 100 loops each)