常见排序算法
基础知识
比较和非比较的区别
常见排序算法可以分为两大类:
-
比较类排序:通过比较来决定元素间的相对次序,由于其时间复杂度不能突破
O(nlog2n)
,因此也称为非线性时间比较类排序。 -
非比较类排序:不通过比较来决定元素间的相对次序,它可以突破基于比较排序的时间下界,以线性时间运行,因此也称为线性时间非比较类排序。
常见的快速排序、归并排序、堆排序、冒泡排序等属于比较排序。在排序的最终结果里,元素之间的次序依赖于它们之间的比较。每个数都必须和其他数进行比较,才能确定自己的位置。
在冒泡排序之类的排序中,问题规模为n,又因为需要比较n次,所以平均时间复杂度为O(n²)
。在归并排序、快速排序之类的排序中,问题规模通过分治法消减为logN
次,所以时间复杂度平均O(nlogn)
。
比较排序的优势是,适用于各种规模的数据,也不在乎数据的分布,都能进行排序。可以说,比较排序适用于一切需要排序的情况。
计数排序、基数排序、桶排序则属于非比较排序。非比较排序是通过确定每个元素之前,应该有多少个元素来排序。针对数组arr,计算arr[i]
之前有多少个元素,则唯一确定了arr[i]
在排序后数组中的位置。
非比较排序只要确定每个元素之前的已有的元素个数即可,所有一次遍历即可解决。算法时间复杂度O(n)
。
非比较排序时间复杂度低,但由于非比较排序需要占用空间来确定唯一位置。所以对数据规模和数据分布有一定的要求。
相关概念
-
稳定:如果a原本在b前面,而a=b,排序之后a仍然在b的前面;
-
不稳定:如果a原本在b的前面,而a=b,排序之后a可能会出现在b的后面;
-
内排序:所有排序操作都在内存中完成;
-
外排序:由于数据太大,因此把数据放在磁盘中,而排序通过磁盘和内存的数据传输才能进行;
-
时间复杂度: 一个算法执行所耗费的时间。
-
空间复杂度:运行完一个程序所需内存的大小。
算法复杂度
直接插入排序(Insertion Sort)
插入排序(Insertion-Sort)的算法描述是一种简单直观的排序算法。它的工作原理是通过构建有序序列,对于未排序数据,在已排序序列中从后向前扫描,找到相应位置并插入。
算法描述
一般来说,插入排序都采用in-place在数组上实现。具体算法描述如下:
-
从第一个元素开始,该元素可以认为已经被排序;
-
取出下一个元素,在已经排序的元素序列中从后向前扫描;
-
如果该元素(已排序)大于新元素,将该元素移到下一位置;
-
重复步骤3,直到找到已排序的元素小于或者等于新元素的位置;
-
将新元素插入到该位置后;
-
重复步骤2~5。
动图演示
代码实现
function insertionSort(arr) {
for (let i = 1; i <= arr.length - 1; i++) {
const temp = arr[i];
let j = i - 1;
for (; (j >= 0) && (arr[j] > temp); j--) {
arr[j + 1] = arr[j];
}
arr[j + 1] = temp;
}
return arr;
}
算法分析
由于直接插入排序每次只移动一个元素的位, 并不会改变值相同的元素之间的排序, 因此它是一种稳定排序。
如果比较操作的代价比交换操作大的话,可以采用二分查找法来减少比较操作的数目。可以认为是插入排序的一个变种,称为二分查找插入排序。
希尔排序(Shell Sort)
希尔排序,也称递减增量排序算法,1959年Shell发明。是插入排序的一种高速而稳定的改进版本。
希尔排序是先将整个待排序的记录序列分割成为若干子序列分别进行直接插入排序,待整个序列中的记录“基本有序”时,再对全体记录进行依次直接插入排序。
将待排序数组按照步长gap进行分组,然后将每组的元素利用直接插入排序的方法进行排序;每次再将gap折半减小,循环上述操作;当gap=1时,利用直接插入,完成排序。
可以看到步长的选择是希尔排序的重要部分。只要最终步长为1任何步长序列都可以工作。一般来说最简单的步长取值是初次取数组长度的一半为增量,之后每次再减半,直到增量为1。
算法描述
先将整个待排序的记录序列分割成为若干子序列分别进行直接插入排序,具体算法描述:
-
选择一个增量序列t1,t2,…,tk,其中ti>tj,tk=1;(一般初次取数组半长,之后每次再减半,直到增量为1)
-
按增量序列个数k,对序列进行k 趟排序;
-
每趟排序,根据对应的增量ti,将待排序列分割成若干长度为m 的子序列,分别对各子表进行直接插入排序。仅增量因子为1 时,整个序列作为一个表来处理,表长度即为整个序列的长度。
动图演示
过程演示
代码实现
function shellSort(arr) {
let gap = Math.floor(arr.length / 2);
for (; gap >= 1; gap = Math.floor(gap / 2)) {
for (let i = gap; i <= arr.length - 1; i++) {
const temp = arr[i];
let j = i - gap;
for (; (j >= 0) && (arr[j] > temp); j = j - gap) {
arr[j + gap] = arr[j];
}
arr[j + gap] = temp;
}
}
return arr;
}
选择排序(Selection Sort)
选择排序(Selection-sort)是一种简单直观的排序算法。它的工作原理:首先在未排序序列中找到最小(大)元素,存放到排序序列的起始位置,然后,再从剩余未排序元素中继续寻找最小(大)元素,然后放到已排序序列的末尾。以此类推,直到所有元素均排序完毕。
算法描述
n个记录的直接选择排序可经过n-1
趟直接选择排序得到有序结果。具体算法描述如下:
-
初始状态:无序区为
R[1..n]
,有序区为空; -
第i趟排序
(i=1,2,3…n-1)
开始时,当前有序区和无序区分别为R[1..i-1]
和R(i..n
)。该趟排序从当前无序区中-选出关键字最小的记录R[k]
,将它与无序区的第1个记录R交换,使R[1..i]
和R[i+1..n)
分别变为记录个数增加1个的新有序区和记录个数减少1个的新无序区; -
n-1
趟结束,数组有序化了。
动图演示
代码实现
function selectionSort(arr) {
for (let i = 0; i <= arr.length - 2; i++) {
let min = i;
for (let j = i + 1; j <= arr.length -1; j++) {
if (arr[j] < arr[min]) {
min = j;
}
}
if (min !== i) {
swap(arr, i, min);
}
}
return arr;
}
function swap(arr, i, j) {
const temp = arr[i];
arr[i] = arr[j];
arr[j] = temp;
}
算法分析
从算法逻辑上看,选择排序是一种简单直观的排序算法,在简单选择排序过程中,所需移动记录的次数比较少。
选择排序的简单和直观名副其实,这也造就了它”出了名的慢性子”,无论是哪种情况,哪怕原数组已排序完成,它也将花费将近n²/2
次遍历来确认一遍。即便是这样,它的排序结果也还是不稳定的。 唯一值得高兴的是,它并不耗费额外的内存空间。
堆排序(Heap Sort)
堆的定义如下:n个元素的序列 {k1,k2,···,kn} 当且仅当满足如下关系时,称之为堆。
把此序列对应的二维数组看成一个完全二叉树。那么堆的含义就是:完全二叉树中任何一个非叶子节点的值均不大于(或不小于)其左、右孩子节点的值。由上述性质可知大顶堆的堆顶的关键字肯定是所有关键字中最大的,小顶堆的堆顶的关键字是所有关键字中最小的。因此我们可使用大顶堆进行升序排序, 使用小顶堆进行降序排序。
算法描述
-
将初始待排序关键字序列(R1,R2….Rn)构建成大顶堆,此堆为初始的无序区;
-
将堆顶元素
R[1]
与最后一个元素R[n]
交换,此时得到新的无序区(R1,R2,……Rn-1)和新的有序区(Rn),且满足R[1,2…n-1]<=R[n]
; -
由于交换后新的堆顶
R[1]
可能违反堆的性质,因此需要对当前无序区(R1,R2,……Rn-1)调整为新堆,然后再次将R[1]
与无序区最后一个元素交换,得到新的无序区(R1,R2….Rn-2)和新的有序区(Rn-1,Rn)。不断重复此过程直到有序区的元素个数为n-1,则整个排序过程完成。
动图演示
代码实现
从算法描述来看,堆排序需要两个过程,一是建立堆,二是堆顶与堆的最后一个元素交换位置。所以堆排序有两个函数组成。一是建堆函数,二是反复调用建堆函数以选择出剩余未排元素中最大的数来实现排序的函数。
总结起来就是定义了以下几种操作:
-
最大堆调整(Max_Heapify):将堆的末端子节点作调整,使得子节点永远小于父节点
-
创建最大堆(Build_Max_Heap):将堆所有数据重新排序
-
堆排序(HeapSort):移除位在第一个数据的根节点,并做最大堆调整的递归运算
对于堆节点的访问:
-
父节点i的左子节点在位置:
(2*i+1)
; -
父节点i的右子节点在位置:
(2*i+2)
; -
子节点i的父节点在位置:
floor((i-1)/2)
;
function adjustDown(arr, k, high) {
const temp = arr[k];
for (let i = k * 2 + 1; i <= high; i = k * 2 + 1) {
if ((i + 1 <= high) && (arr[i] < arr[i + 1])) {
i++;
}
if (arr[i] > temp) {
arr[k] = arr[i];
k = i;
} else {
break;
}
}
arr[k] = temp;
}
function buildMaxHeap(arr) {
let i = Math.floor((arr.length - 1) / 2);
for (; i >= 0; i--) {
adjustDown(arr, i, arr.length - 1);
}
}
function heapSort(arr) {
buildMaxHeap(arr);
for (let i = arr.length - 1; i >= 1;) {
swap(arr, 0, i);
adjustDown(arr, 0, --i);
}
return arr;
}
function swap(arr, i, j) {
const temp = arr[i];
arr[i] = arr[j];
arr[j] = temp;
}
算法分析
由于堆排序中初始化堆的过程比较次数较多, 因此它不太适用于小序列. 同时由于多次任意下标相互交换位置, 相同元素之间原本相对的顺序被破坏了, 因此, 它是不稳定的排序.
冒泡排序(Bubble Sort)
冒泡排序是一种简单的排序算法。它重复地走访过要排序的数列,一次比较两个元素,如果它们的顺序错误就把它们交换过来。走访数列的工作是重复地进行直到没有再需要交换,也就是说该数列已经排序完成。这个算法的名字由来是因为越小的元素会经由交换慢慢“浮”到数列的顶端。
算法描述
-
比较相邻的元素。如果第一个比第二个大,就交换它们两个;
-
对每一对相邻元素作同样的工作,从开始第一对到结尾的最后一对,这样在最后的元素应该会是最大的数;
-
针对所有的元素重复以上的步骤,除了最后一个;
-
重复步骤1~3,直到排序完成。
动图演示
代码实现
function bubbleSort(arr) {
for (let i = arr.length -2; i >= 0; i--) {
let flag = false;
for (let j = 0; j <= i; j++) {
if (arr[j] > arr[j + 1]) {
swap(arr, j, j + 1);
flag = true;
}
}
if (!flag) {
break;
}
}
return arr;
}
function swap(arr, i, j) {
const temp = arr[i];
arr[i] = arr[j];
arr[j] = temp;
}
算法分析
冒泡排序是最容易实现的排序, 最坏的情况是每次都需要交换, 共需遍历并交换将近n²/2
次, 时间复杂度为O(n²)
. 最佳的情况是内循环遍历一次后发现排序是对的, 因此退出循环, 时间复杂度为O(n)
. 平均来讲, 时间复杂度为O(n²)
. 由于冒泡排序中只有缓存的temp变量需要内存空间, 因此空间复杂度为常量O(1).
由于冒泡排序只在相邻元素大小不符合要求时才调换他们的位置, 它并不改变相同元素之间的相对顺序, 因此它是稳定的排序算法.
快速排序(Quick Sort)
快速排序的基本思想:通过一趟排序将待排记录分隔成独立的两部分,其中一部分记录的关键字均比另一部分的关键字小,则可分别对这两部分记录继续进行排序,以达到整个序列有序。
算法描述
快速排序使用分治法来把一个串(list)分为两个子串(sub-lists)。具体算法描述如下:
-
从数列中挑出一个元素,称为 “基准”;
-
重新排序数列,所有元素比基准值小的摆放在基准前面,所有元素比基准值大的摆在基准的后面(相同的数可以到任一边)。在这个分区退出之后,该基准就处于数列的中间位置。这个称为分区(partition)操作;
-
递归地把小于基准值元素的子数列和大于基准值元素的子数列排序。
动图演示
代码实现
function quickSort1(arr, low = 0, high = arr.length - 1) {
if (low < high) {
const mid = partition(arr, low, high);
quickSort1(arr, low, mid -1);
quickSort1(arr, mid + 1, high);
}
return arr;
}
function quickSort2(arr) {
if (arr.length <= 1) {
return arr;
}
const stack = [];
stack.push(0);
stack.push(arr.length - 1);
while (stack.length) {
const low = stack.shift();
const high = stack.shift();
if (low < high) {
const mid = partition(arr, low, high);
stack.push(low, mid -1);
stack.push(mid + 1, high);
}
}
return arr;
}
function partition(arr, low, high) {
const pivot = Math.floor((low + high) / 2);
swap(arr, pivot, high);
let j = low - 1;
const midValue = arr[high];
for (let i = low; i <= high - 1; i++) {
if (arr[i] < midValue) {
if (j + 1 < i) {
swap(arr, i, j + 1);
}
j++;
}
}
if (j + 1 !== high) {
swap(arr, j + 1, high);
}
return j + 1;
}
function swap(arr, i, j) {
const temp = arr[i];
arr[i] = arr[j];
arr[j] = temp;
}
算法分析
快速排序是通常被认为在同数量级(O(nlog2n
))的排序方法中平均性能最好的。但若初始序列按关键码有序或基本有序时,快排序反而蜕化为冒泡排序。为改进之,通常以“三者取中法”来选取基准记录,即将排序区间的两个端点与中点三个记录关键码居中的调整为支点记录。
同选择排序相似, 快速排序每次交换的元素都有可能不是相邻的, 因此它有可能打破原来值为相同的元素之间的顺序. 因此, 快速排序并不稳定.
归并排序(Merge Sort)
归并排序是建立在归并操作上的一种有效的排序算法。该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为2-路归并。
算法描述
-
把长度为n的输入序列分成两个长度为n/2的子序列;
-
对这两个子序列分别采用归并排序;
-
将两个排序好的子序列合并成一个最终的排序序列。
动图演示
代码实现
function mergeSort(arr, low = 0, high = arr.length - 1) {
if (low >= high) {
return arr;
}
const mid = Math.floor((low + high) / 2);
mergeSort(arr, low, mid);
mergeSort(arr, mid + 1, high);
merge(arr, low, mid, high);
return arr;
}
function merge(arr, low, mid, high) {
const copyArr = [];
for (let i = low; i <= high; i++) {
copyArr[i] = arr[i];
}
let i = low, j = mid + 1, k = low;
while ((i <= mid) && (j <= high)) {
if (copyArr[i] <= copyArr[j]) {
arr[k++] = copyArr[i++];
} else {
arr[k++] = copyArr[j++];
}
}
while (i <= mid) {
arr[k++] = copyArr[i++];
}
while (j <= high) {
arr[k++] = copyArr[j++];
}
}
算法分析
从效率上看,归并排序可算是排序算法中的”佼佼者”. 假设数组长度为n,那么拆分数组共需logn,又每步都是一个普通的合并子数组的过程,时间复杂度为O(n),故其综合时间复杂度为O(nlogn)。另一方面,归并排序多次递归过程中拆分的子数组需要保存在内存空间, 其空间复杂度为O(n)。
计数排序(Counting Sort)
计数排序不是基于比较的排序算法,其核心在于将输入的数据值转化为键存储在额外开辟的数组空间中。作为一种线性时间复杂度的排序,计数排序要求输入的数据必须是有确定范围的整数。
算法描述
-
找出待排序的数组中最大和最小的元素;
-
统计数组中每个值为i的元素出现的次数,存入数组C的第i项;
-
对所有的计数累加(从C中的第一个元素开始,每一项和前一项相加);
-
反向填充目标数组:将每个元素i放在新数组的第C(i)项,每放一个元素就将C(i)减去1。
动图演示
代码实现
function countingSort(arr) {
let min = arr[0];
let max = arr[0];
for (let i = 1; i <= arr.length -1; i++) {
if (arr[i] > max) {
max = arr[i];
} else if (arr[i] < min) {
min = arr[i];
}
}
const bucket = new Array(max - min + 1);
for (let i = 0; i <= arr.length -1; i++) {
const key = arr[i] - min;
if (!bucket[key]) {
bucket[key] = 0;
}
bucket[key]++;
}
let k = 0;
for (let i = 0; i <= bucket.length -1; i++) {
while (bucket[i]) {
arr[k++] = i + min;
bucket[i]--;
}
}
return arr;
}
算法分析
当输入的元素是n 个0到k之间的整数时,它的运行时间是 O(n + k)
。计数排序不是比较排序,排序的速度快于任何比较排序算法。由于用来计数的数组C的长度取决于待排序数组中数据的范围(等于待排序数组的最大值与最小值的差加上1),这使得计数排序对于数据范围很大的数组,需要大量时间和内存。
桶排序(Bucket Sort)
桶排序是计数排序的升级版。它利用了函数的映射关系,高效与否的关键就在于这个映射函数的确定。桶排序 (Bucket sort)的工作的原理:假设输入数据服从均匀分布,将数据分到有限数量的桶里,每个桶再分别排序(有可能再使用别的排序算法或是以递归方式继续使用桶排序进行排)。
算法描述
-
设置一个定量的数组当作空桶;
-
遍历输入数据,并且把数据一个一个放到对应的桶里去;
-
对每个不是空的桶进行排序;
-
从不是空的桶里把排好序的数据拼接起来。
图片演示
代码实现
function bucketSort(arr, bucketSize) {
if (arr.length <= 1) {
return arr;
}
let min = arr[0];
let max = arr[0];
for (let i = 1; i <= arr.length -1; i++) {
if (arr[i] > max) {
max = arr[i];
} else if (arr[i] < min) {
min = arr[i];
}
}
if (min === max) {
return arr;
}
const bucketLen = Math.ceil((max - min + 1) / bucketSize);
if (bucketLen === 1) {
return bucketSort(arr, bucketSize - 1);
}
const bucket = new Array(bucketLen);
for (let i = 0; i <= bucket.length -1; i++) {
bucket[i] = [];
}
for (let i = 0; i <= arr.length - 1; i++) {
const bucketIndex = Math.ceil((arr[i] - min + 1) / bucketSize) - 1;
bucket[bucketIndex].push(arr[i]);
}
const resultArr = [];
for (let i = 0; i <= bucket.length -1; i++) {
const temp = bucketSort(bucket[i], bucketSize)
resultArr.push(...temp);
}
return resultArr;
}
算法分析
桶排序最好情况下使用线性时间O(n),桶排序的时间复杂度,取决与对各个桶之间数据进行排序的时间复杂度,因为其它部分的时间复杂度都为O(n)。很显然,桶划分的越小,各个桶之间的数据越少,排序所用的时间也会越少。但相应的空间消耗就会增大。
基数排序(Radix Sort)
基数排序的发明可以追溯到1887年赫尔曼·何乐礼在打孔卡片制表机(Tabulation Machine), 排序器每次只能看到一个列。它是基于元素值的每个位上的字符来排序的。 对于数字而言就是分别基于个位,十位, 百位或千位等等数字来排序。
基数排序(Radix sort)是一种非比较型整数排序算法,其原理是将整数按位数切割成不同的数字,然后按每个位数分别比较。由于整数也可以表达字符串(比如名字或日期)和特定格式的浮点数,所以基数排序也不是只能使用于整数。
它是这样实现的:将所有待比较数值(正整数)统一为同样的数位长度,数位较短的数前面补零。然后,从最低位开始,依次进行一次排序。这样从最低位排序一直到最高位排序完成以后,数列就变成一个有序序列。
基数排序按照优先从高位或低位来排序有两种实现方案:
-
MSD(Most significant digital) 从最左侧高位开始进行排序。先按k1排序分组, 同一组中记录, 关键码k1相等, 再对各组按k2排序分成子组, 之后, 对后面的关键码继续这样的排序分组, 直到按最次位关键码kd对各子组排序后. 再将各组连接起来, 便得到一个有序序列。MSD方式适用于位数多的序列。
-
LSD (Least significant digital)从最右侧低位开始进行排序。先从kd开始排序,再对kd-1进行排序,依次重复,直到对k1排序后便得到一个有序序列。LSD方式适用于位数少的序列。
算法描述
我们以LSD为例,从最低位开始,具体算法描述如下:
-
取得数组中的最大数,并取得位数;
-
arr为原始数组,从最低位开始取每个位组成radix数组;
-
对radix进行计数排序(利用计数排序适用于小范围数的特点);
动图演示
代码实现
function radixSort(arr) {
let max = arr[0];
for (let i = 1; i <= arr.length -1; i++) {
if (arr[i] > max) {
max = arr[i];
}
}
let dight = 0;
while (max) {
dight++;
max = Math.floor(max / 10);
}
if (dight === 0) {
return arr;
}
const bucket = new Array(10);
for (let i = 0; i <= bucket.length - 1; i++) {
bucket[i] = [];
}
for (let i = 1, n = 1; i <= dight; i++, n = n * 10) {
for (let j = 0; j <= arr.length -1; j++) {
const num = Math.floor(arr[j] / n) % 10;
bucket[num].push(arr[j]);
}
let index = 0;
for (let k = 0; k <= bucket.length - 1; k++) {
const bucketArr = bucket[k];
if (bucketArr.length) {
for (let l = 0; l <= bucketArr.length - 1; l++) {
arr[index++] = bucketArr[l];
}
bucket[k] = [];
}
}
}
return arr;
}
算法分析
其中,d 为位数,r 为基数,n 为原数组个数。在基数排序中,因为没有比较操作,所以在复杂上,最好的情况与最坏的情况在时间上是一致的,均为 O(d*(n + r))
。
基数排序更适合用于对时间, 字符串等这些整体权值未知的数据进行排序。
基数排序不改变相同元素之间的相对顺序,因此它是稳定的排序算法。
总结
基数排序 vs 计数排序 vs 桶排序
这三种排序算法都利用了桶的概念,但对桶的使用方法上有明显差异:
-
计数排序:每个桶只存储单一键值
-
桶排序:每个桶存储一定范围的数值
-
基数排序:根据键值的每位数字来分配桶
从时间复杂度来说
-
平方阶
O(n²)
排序:各类简单排序:直接插入、直接选择和冒泡排序; -
线性对数阶
O(nlog₂n)
排序:快速排序、堆排序和归并排序; -
O(n1+§))
排序,§是介于0和1之间的常数:希尔排序 -
线性阶
O(n)
排序:基数排序,此外还有桶、箱排序。
到此,很多人会注意到基数排序的时间复杂度是最小的,那么为什么却没有快排、堆排序流行呢?
基数排序只适用于有基数的情况,而基于比较的排序适用范围就广得多。另一方面是内存上的考虑。作为一种通用的排序方法,最好不要带来意料之外的内存开销,所以各语言的默认实现都没有用基数排序,但是不能否认基数排序在各领域的应用。
时间复杂度极限
当被排序的数有一些性质的时候(比如是整数,比如有一定的范围),排序算法的复杂度是可以小于O(nlgn)
的。比如:
-
计数排序 复杂度
O( k+n)
要求:被排序的数是0~k范围内的整数 -
桶排序 复杂度
O( n )
(平均) 要求:被排序数在某个范围内,并且服从均匀分布 -
基数排序 复杂度
O( d(k+n) )
要求:d位数,每个数位有k个取值,只适用于有基数的情况
但是,当被排序的数不具有任何性质的时候,一般使用基于比较的排序算法,而基于比较的排序算法时间复杂度的下限必须是O( nlgn)
。
说明
-
当原表有序或基本有序时,直接插入排序和冒泡排序将大大减少比较次数和移动记录的次数,时间复杂度可降至
O(n)
; -
而快速排序则相反,当原表基本有序时,将蜕化为冒泡排序,时间复杂度提高为
O(n2)
; -
原表是否有序,对简单选择排序、堆排序、归并排序和基数排序的时间复杂度影响不大。