Giải thuật và lập trình: §8.2. Sắp xếp (SORTING) - Phần 2


THUẬT TOÁN SẮP XẾP BẰNG CƠ SỐ (RADIXSORT)

Bài toán đặt ra là: Cho dãy khoá là các số tự nhiên k1, k2, …, kn hãy sắp xếp chúng theo thứ tự không giảm. (Trong trường hợp ta đang xét, TKey là kiểu số tự nhiên).

Sắp xếp cơ số theo kiểu hoán vị các khoá (Exchange RadixSort)

Hãy xem lại thuật toán QuickSort, tại bước phân đoạn nó phân đoạn đang xét thành hai đoạn thoả mãn mỗi khoá trong đoạn đầu ≤ mọi khoá trong đoạn sau và thực hiện tương tự trên hai đoạn mới tạo ra, việc phân đoạn được tiến hành với sự so sánh các khoá với giá trị một khoá chốt.

Đối với các số nguyên thì ta có thể coi mỗi số nguyên là một dãy z bit đánh số từ bit 0 (bit ở hàng đơn vị) tới bit z - 1 (bit cao nhất).

Ví dụ:

giai-thuat-va-lap-trinh-danh-so-cac-bit

 

Đánh số các bit

Vậy thì tại bước phân đoạn dãy khoá từ k1 tới kn, ta có thể đưa những khoá có bit cao nhất là 0 về đầu dãy, những khoá có bit cao nhất là 1 về cuối dãy. Dễ thấy rằng những khoá bắt đầu bằng bit 0 sẽ phải nhỏ hơn những khoá bắt đầu bằng bit 1. Tiếp tục quá trình phân đoạn với hai đoạn dãy khoá: Đoạn gồm các khoá có bit cao nhất là 0 và đoạn gồm các khoá có bit cao nhất là 1. Với những khoá thuộc cùng một đoạn thì có bit cao nhất giống nhau, nên ta có thể áp dụng quá trình phân đoạn tương tự trên theo bit thứ z - 2 và cứ tiếp tục như vậy …

Quá trình phân đoạn kết thúc nếu như đoạn đang xét là rỗng hay ta đã tiến hành phân đoạn đến tận bit đơn vị, tức là tất cả các khoá thuộc một trong hai đoạn mới tạo ra đều có bit đơn vị bằng nhau (điều này đồng nghĩa với sự bằng nhau ở tất cả những bit khác, tức là bằng nhau về giá trị khoá).

Ví dụ:

Xét dãy khoá: 1, 3, 7, 6, 5, 2, 3, 4, 4, 5, 6, 7. Tương ứng với các dãy 3 bit:

giai-thuat-va-lap-trinh-day-ba-bit

Trước hết ta chia đoạn dựa vào bit 2 (bit cao nhất):

giai-thuat-va-lap-trinh-chia-doan-dua-vao-bit-cao-nhat

 Sau đó chia tiếp hai đoạn tạo ra dựa vào bit 1:

giai-thuat-va-lap-trinh-chia-doan-dua-vao-bit-1

Cuối cùng, chia tiếp những đoạn tạo ra dựa vào bit 0:

giai-thuat-va-lap-trinh-chia-doan-dua-vao-bit-0

Ta được dãy khoá tương ứng: 1, 2, 3, 3, 4, 4, 5, 5, 6, 6, 7, 7 là dãy khoá sắp xếp.

Quá trình chia đoạn dựa vào bit b có thể chia thành một đoạn rỗng và một đoạn gồm toàn bộ các phần tử còn lại, nhưng việc chia đoạn không bao giờ bị rơi vào quá trình đệ quy vô hạn bởi những lần đệ quy tiếp theo sẽ phân đoạn dựa vào bit b - 1, b - 2 …và nếu xét đến bit 0 sẽ phải dừng lại. Công việc còn lại là cố gắng hiểu đoạn chương trình sau và phân tích xem tại sao nó hoạt động đúng:

procedure ExchangeRadixSort;

var

z: Integer; {Độ dài dãy bit biểu diễn mỗi khoá}

 

procedure Partition(L, H, b: Integer); {Phân đoạn [L, H] dựa vào bit b}

var

i, j: Integer;

begin

if L ≥ H then Exit;

i := L; j := H;

repeat

{Hai vòng lặp trong dưới đây luôn cầm canh i < j}

while (i < j) and (Bit b của ki = 0) do i := i + 1; {Tìm khoá có bit b = 1 từ đầu đoạn}

while (i < j) and (Bit b của kj = 1) do j := j - 1; {Tìm khoá có bit b = 0 từ cuối đoạn}

<Đảo giá trị ki cho kj>; until i = j;

if <Bit b của kj = 0> then j := j + 1; {j là điểm bắt đầu của đoạn có bit b là 1}

if b > 0 then {Chưa xét tới bit đơn vị}

begin

Partition(L, j - 1, b - 1); Partition(j, R, b - 1); end;

end;

 

begin

<Dựa vào giá trị lớn nhất của dãy khoá,

xác định z là độ dài dãy bit biểu diễn mỗi khoá> Partition(1, n, z - 1);

end;

Với RadixSort, ta hoàn toàn có thể làm trên hệ cơ số R khác chứ không nhất thiết phải làm trên hệ nhị phân (ý tưởng cũng tương tự như trên), tuy nhiên quá trình phân đoạn sẽ không phải chia làm 2 mà chia thành R đoạn. Về độ phức tạp của thuật toán, ta thấy để phân đoạn bằng một bit thì thời gian sẽ là C.n để chia tất cả các đoạn cần chia bằng bit đó (C là hằng số). Vậy tổng thời gian phân đoạn bằng z bit sẽ là C.n.z. Trong trường hợp xấu nhất, độ phức tạp của RadixSort là O(n.z). Và độ phức tạp trung bình của RadixSort là O(n.min(z, log2n)).

Nói chung, RadixSort cài đặt như trên chỉ thể hiện tốc độ tối đa trên các hệ thống cho phép xử lý trực tiếp trên các bit: Hệ thống phải cho phép lấy một bit ra dễ dàng và thao tác với thời  gian nhanh hơn hẳn so với thao tác trên Byte và Word. Khi đó RadixSort sẽ tốt hơn nhiều QuickSort. (Ta thử lập trình sắp xếp các dãy nhị phân độ dài z theo thứ tự từ điển để khảo sát). Trên các máy tính hiện nay chỉ cho phép xử lý trực tiếp trên Byte (hay Word, DWord v.v…), việc tách một bit ra khỏi Byte đó để xử lý lại rất chậm và làm ảnh hưởng không nhỏ tới tốc độ của RadixSort. Chính vì vậy, tuy đây là một phương pháp hay, nhưng khi cài đặt cụ thể thì tốc độ cũng chỉ ngang ngửa chứ không thể qua mặt QuickSort được.

Sắp xếp cơ số trực tiếp (Straight RadixSort)

Ta sẽ trình bày phương pháp sắp xếp cơ số trực tiếp bằng một ví dụ: Sắp xếp dãy khoá:

giai-thuat-va-lap-trinh-sap-xep-day-khoa

Trước hết, ta sắp xếp dãy khoá này theo thứ tự tăng dần của chữ số hàng đơn vị bằng một thuật toán sắp xếp khác, được dãy khoá:

giai-thuat-va-lap-trinh-ket-qua-sap-xep-day-khoa

Sau đó, ta sắp xếp dãy khoá mới tạo thành theo thứ tự tăng dần của chữ số hàng chục bằng một thuật toán sắp xếp ổn định, được dãy khoá:

giai-thuat-va-lap-trinh-sap-xep-on-dinh

Vì thuật toán sắp xếp ta sử dụng là ổn định, nên nếu hai khoá có chữ số hàng chục giống nhau thì khoá nào có chữ số hàng đơn vị nhỏ hơn sẽ đứng trước. Nói như vậy có nghĩa là dãy khoá thu được sẽ có thứ tự tăng dần về giá trị tạo thành từ hai chữ số cuối.

Cuối cùng, ta sắp xếp lại dãy khoá theo thứ tự tăng dần của chữ số hàng trăm cũng bằng một thuật toán sắp xếp ổn định, thu được dãy khoá:

giai-thuat-va-lap-trinh-sap-xep-lai

Lập luận tương tự như trên dựa vào tính ổn định của phép sắp xếp, dãy khoá thu được sẽ có thứ tự tăng dần về giá trị tạo thành bởi cả ba chữ số, đó là dãy khoá đã sắp.

Nhận xét:

Ta hoàn toàn có thể coi số chữ số của mỗi khoá là bằng nhau, như ví dụ trên nếu có số 15 trong dãy khoá thì ta có thể coi nó là 015.

Cũng từ ví dụ, ta có thể thấy rằng số lượt thao tác sắp xếp phải áp dụng đúng bằng số chữ số tạo thành một khoá. Với một hệ cơ số lớn, biểu diễn một giá trị khoá sẽ phải dùng ít chữ số hơn. Ví dụ số 12345 trong hệ thập phân phải dùng tới 5 chữ số, còn trong hệ cơ số 1000 chỉ cần dùng 2 chữ số AB mà thôi, ở đây A là chữ số mang giá trị 12 còn B là chữ số mang giá trị 345.

Tốc độ của sắp xếp cơ số trực tiếp phụ thuộc rất nhiều vào thuật toán sắp xếp ổn định tại mỗi bước. Không có một lựa chọn nào khác tốt hơn phép đếm phân phối. Tuy nhiên, phép đếm phân phối có thể không cài đặt được hoặc kém hiệu quả nếu như tập giá trị khoá quá rộng, không cho phép dựng ra dãy các biến đếm hoặc phải sử dụng dãy biến đếm quá dài (Điều này xảy ra nếu chọn hệ cơ số quá lớn).

Một lựa chọn khôn ngoan là nên chọn hệ cơ số thích hợp cho từng trường hợp cụ thể để dung hoà tới mức tối ưu nhất ba mục tiêu:

- Việc lấy ra một chữ số của một số được thực hiện dễ dàng.

- Sử dụng ít lần gọi phép đếm phân phối.

- Phép đếm phân phối thực hiện nhanh.

procedure StraightRadixSort;

const

radix = …; {Tuỳ chọn hệ cơ số radix cho hợp lý}

var

t: TArray; {Dãy khoá phụ}

p: Integer;

nDigit: Integer; {Số chữ số cho một khoá, đánh số từ chữ số thứ 0 là hàng đơn vị đến chữ số thứ nDigit - 1}

Flag: Boolean; {Flag = True thì sắp dãy k, ghi kết quả vào dãy t; Flag = False thì sắp dãy t, ghi kq vào k}

function GetDigit(Num: TKey; p: Integer): Integer; {Lấy chữ số thứ p của số Num (0≤p<nDigit)}

begin

GetDigit := Num div radixp mod radix; {Trường hợp cụ thể có thể có cách viết tốt hơn}

end;

{Sắp xếp ổn định dãy số x theo thứ tự tăng dần của chữ số thứ p, kết quả sắp xếp được chứa vào dãy số y}

procedure DCount(var x, y: TArray; p: Integer); {Thuật toán đếm phân phối, sắp từ x sang y}

var

c: array[0..radix - 1] of Integer; {cd là số lần xuất hiện chữ số d tại vị trí p}

i, d: Integer;

begin

for d := 0 to radix - 1 do cd := 0;

for i := 1 to n do

begin

d := GetDigit(xi, p);

cd := cd + 1;

end;

for d := 1 to radix - 1 do cd := cd-1 + cd; {các cd trở thành các mốc cuối đoạn}

for i := n downto 1 do {Điền giá trị vào dãy y}

begin

d := GetDigit(xi, p);

yc := xi;

cd := cd - 1;

end;

begin {Thuật toán sắp xếp cơ số trực tiếp}

<Dựa vào giá trị lớn nhất trong dãy khoá,

xác định nDigit là số chữ số phải dùng cho mỗi khoá trong hệ radix>; Flag := True;

for p := 0 to nDigit - 1 do {Xét từ chữ số hàng đơn vị lên, sắp xếp ổn định theo chữ số thứ p}

begin

if Flag then DCount(k, t, p)

else DCount(t, k, p);

Flag := not Flag; {Đảo cờ, dùng k tính t rồi lại dùng t tính k …}

end;

if not Flag then k := t; {Nếu kết quả cuối cùng đang ở trong t thì sao chép giá trị từ t sang k}

end;

Xét phép đếm phân phối, ta đã biết độ phức tạp của nó là O(max(radix, n)). Mà radix là một hằng số tự ta chọn từ trước, nên khi n lớn, độ phức tạp của phép đếm phân phối là O(n). Thuật toán sử dụng nDigit lần phép đếm phân phối nên có thể thấy độ phức tạp của thuật toán là O(n.nDigit) bất kể dữ liệu đầu vào.

Ta có thể coi sắp xếp cơ số trực tiếp là một mở rộng của phép đếm phân phối, khi dãy số chỉ toàn các số có 1 chữ số (trong hệ radix) thì đó chính là phép đếm phân phối. Sự khác biệt ở đây là: Sắp xếp cơ số trực tiếp có thể thực hiện với các khoá mang giá trị lớn; còn phép đếm phân phối chỉ có thể làm trong trường hợp các khoá mang giá trị nhỏ, bởi nó cần một lượng  bộ nhớ đủ rộng để giăng ra dãy biến đếm số lần xuất hiện cho từng giá trị.

THUẬT TOÁN SẮP XẾP TRỘN (MERGESORT)

Phép trộn 2 đường

Phép trộn 2 đường là phép hợp nhất hai dãy khoá đã sắp xếp để ghép lại thành một dãy khoá có kích thước bằng tổng kích thước của hai dãy khoá ban đầu và dãy khoá tạo thành cũng có thứ tự sắp xếp. Nguyên tắc thực hiện của nó khá đơn giản: so sánh hai khoá đứng đầu hai dãy, chọn ra khoá nhỏ nhất và đưa nó vào miền sắp xếp (một dãy khoá phụ có kích thước bằng tổng kích thước hai dãy khoá ban đầu) ở vị trí thích hợp. Sau đó, khoá này bị loại ra khỏi dãy khoá chứa nó. Quá trình tiếp tục cho tới khi một trong hai dãy khoá đã cạn, khi đó chỉ cần chuyển toàn bộ dãy khoá còn lại ra miền sắp xếp là xong.

Ví dụ: Với hai dãy khoá: (1, 3, 10, 11) và (2, 4, 9)

Dãy 1

Dãy 2

Khoá nhỏ nhất trong 2 dãy

Miền sắp xếp

(1, 3, 10, 11)

(2, 4, 9)

1

(1)

(3, 10, 11)

(2, 4, 9)

2

(1, 2)

(3, 10, 11)

(4, 9)

3

(1, 2, 3)

(10, 11)

(4, 9)

4

(1, 2, 3, 4)

(10, 11)

(9)

9

(1, 2, 3, 4, 9)

(10, 11)

Dãy 2 là ∅, đưa nốt dãy 1 vào miền sắp xếp

(1, 2, 3, 4, 9, 10, 11)

Sắp xếp bằng trộn 2 đường trực tiếp

Ta có thể coi mỗi khoá trong dãy khoá k1, k2, …, kn là một mạch với độ dài 1, dĩ nhiên các mạch độ dài 1 có thể coi là đã được sắp. Nếu trộn hai mạch liên tiếp lại thành một mạch có độ dài 2, ta lại được dãy gồm các mạch đã được sắp. Cứ tiếp tục như vậy, số mạch trong dãy sẽ giảm dần sau mỗi lần trộn. Hình dưới đây minh họa điều này

http://v1study.com/public/images/article/giai-thua-va-lap-trinh-thuat-toan-sap-xep-tron.png

Thuật toán sắp xếp trộn

Để tiến hành thuật toán sắp xếp trộn hai đường trực tiếp, ta viết các thủ tục:

Thủ tục Merge(var x, y: TArray; a, b, c: Integer); thủ tục này trộn mạch xa, xa+1, …, xb với mạch xb+1, xb+2 …, xc để được mạch ya, ya+1, …, yc.

Thủ tục MergeByLength(var x, y: TArray; len: Integer); thủ tục này trộn lần lượt các cặp mạch theo thứ tự:

Trộn mạch x1…xlen và xlen+1…x2len thành mạch y1…y2len.

Trộn mạch x2len+1…x3len và x3len+1 …x4len thành mạch y2len+1…y4len.

Lưu ý rằng đến cuối cùng ta có thể gặp hai trường hợp: Hoặc còn lại hai mạch mà mạch thứ hai có độ dài < len. Hoặc chỉ còn lại một mạch. Trường hợp thứ nhất ta phải quản lý chính xác các chỉ số để thực hiện phép trộn, còn trường hợp thứ hai thì không được quên thao tác đưa thẳng mạch duy nhất còn lại sang dãy y.

Cuối cùng là thủ tục MergeSort, thủ tục này cần một dãy khoá phụ t1, t2, …, tn. Trước hết ta gọi MergeByLength(k, t, 1) để trộn hai phần tử liên tiếp của k thành một mạch trong t, sau đó lại gọi MergeByLength(t, k, 2) để trộn hai mạch liên tiếp trong t thành một mạch trong k, rồi lại gọi MergeByLength(k, t, 4) để trộn hai mạch liên tiếp trong k thành một mạch trong t …Như vậy k và t được sử dụng với vai trò luân phiên: một dãy chứa các mạch và một dãy dùng để trộn các cặp mạch liên tiếp để được mạch lớn hơn.

procedure MergeSort;

var

t: TArray; {Dãy khoá phụ}

len: Integer;

Flag: Boolean; {Flag = True: trộn các mạch trong k vào t; Flag = False: trộn các mạch trong t vào k}

procedure Merge(var X, Y: TArray; a, b, c: Integer); {Trộn Xa…Xb và Xb+1…Xc}

var

i, j, p: Integer; begin

{Chỉ số p chạy trong miền sắp xếp, i chạy theo mạch thứ nhất, j chạy theo mạch thứ hai}

p := a; i := a; j := b + 1;

while (i ≤ b) and (j ≤ c) then {Chừng nào cả hai mạch đều chưa xét hết}

begin

if Xi ≤ Xj then {So sánh hai phần tử nhỏ nhất trong hai mạch mà chưa bị đưa vào miền sắp xếp}

begin

Yp := Xi; i := i + 1; {Đưa xi vào miền sắp xếp và cho i chạy}

end else

begin

Yp := Xj; j := j + 1; {Đưa xj vào miền sắp xếp và cho j chạy}

end;

p := p + 1;

end;

if i ≤ b then (Yp, Yp+1, …, Yc) := (Xi, Xi+1, …, Xb) {Mạch 2 hết trước, Đưa phần cuối của mạch 1 vào miến sắp xếp}

else (Yp, Yp+1, …, Yc) := (Xj, Xj+1, …, Xc); {Mạch 1 hết trước, Đưa phần cuối của mạch 2 vào miến sắp xếp}

end;

procedure MergeByLength(var X, Y: TArray; len: Integer);

begin

a := 1; b := len; c := 2 * len;

while c ≤ n do {Trộn hai mạch xa…xb và xb+1…xc đều có độ dài len}

begin

Merge(X, Y, a, b, c);

a := a + 2 * len; b := b + 2 * len; c := c + 2 * len; {Dịch các chỉ số a, b, c về sau 2.len vị trí}

end;

if b < n then Merge(X, Y, a, b, n) {Còn lại hai mạch mà mạch thứ hai có độ dài ngắn hơn len}

else

if a ≤ n then (Ya, Ya+1, …, Yn) := (Xa, Xa+1, …, Xn); {Còn lại một mạch thì đưa thẳng mạch đó sang miền y}

end;

begin {Thuật toán sắp xếp trộn}

Flag := True; len := 1;

while len < n do begin

if Flag then MergeByLength(k, t, len)

else MergeByLength(t, k, len);

len := len * 2;

Flag := not Flag; {Đảo cờ để luân phiên vai trò của k và t}

end;

if not Flag then k := t; {Nếu kết quả cuối cùng đang nằm trong t thì sao chép kết quả vào k}

end;

Về độ phức tạp của thuật toán, ta thấy rằng trong thủ tục Merge, phép toán tích cực là thao tác đưa một khoá vào miền sắp xếp. Mỗi lần gọi thủ tục MergeByLength, tất cả các phần tử trong dãy khoá được chuyển hoàn toàn sang miền sắp xếp, nên độ phức tạp của thủ tục MergeByLength là O(n). Thủ tục MergeSort có vòng lặp thực hiện không quá log2n + 1 lời gọi MergeByLength bởi biến len sẽ được tăng theo cấp số nhân công bội 2. Từ đó suy ra độ phức tạp của MergeSort là O(nlog2n) bất chấp trạng thái dữ liệu vào.

Cùng là những thuật toán sắp xếp tổng quát với độ phức tạp trung bình như nhau, nhưng không giống như QuickSort hay HeapSort, MergeSort có tính ổn định. Nhược điểm của MergeSort là nó phải dùng thêm một vùng nhớ để chứa dãy khoá phụ có kích thước bằng dãy khoá ban đầu.

Người ta còn có thể lợi dụng được trạng thái dữ liệu vào để khiến MergeSort chạy nhanh hơn: ngay từ đầu, ta không coi mỗi phần tử của dãy khoá là một mạch mà coi những đoạn đã được sắp trong dãy khoá là một mạch. Bởi một dãy khoá bất kỳ có thể coi là gồm các mạch đã sắp xếp nằm liên tiếp nhau. Khi đó người ta gọi phương pháp này là phương pháp trộn hai  đường tự nhiên.

Tổng quát hơn nữa, thay vì phép trộn hai mạch, người ta có thể sử dụng phép trộn k mạch, khi đó ta được thuật toán sắp xếp trộn k đường.

CÀI ĐẶT

Ta sẽ cài đặt tất cả các thuật toán sắp xếp nêu trên, với dữ liệu vào được đặt trong file văn bản SORT.INP chứa không nhiều hơn 15000 khoá và giá trị mỗi khoá là số tự nhiên không quá 15000. Kết quả được ghi ra file văn bản SORT.OUT chứa dãy khoá được sắp, mỗi khoá trên một dòng.

SORT.INP

SORT.OUT

1 4 3 2 5

1

7 9 8

2

10 6

3

 

4

 

5

 

6

 

7

 

8

 

9

 

10

Chương trình có giao diện dưới dạng menu, mỗi chức năng tương ứng với một thuật toán sắp xếp. Tại mỗi thuật toán sắp xếp, ta thêm một vài lệnh đo thời gian thực tế của nó (chỉ đo thời gian thực hiện giải thuật, không tính thời gian nhập liệu và in kết quả).

Ở thuật toán sắp xếp bằng cơ số theo cách hoán vị phần tử, ta chọn hệ nhị phân. Ở thuật toán sắp xếp bằng cơ số trực tiếp, ta sử dụng hệ cơ số 256, khi đó một giá trị số tự nhiên x ≤ 15000 sẽ được biểu diễn bằng hai chữ số trong hệ 256:

Chữ số hàng đơn vị là x mod 256 = x mod 28 = x and 255 = x and $FF;

Chữ số còn lại (= chữ số ở hàng cao nhất) là x div 256 = x div 28 = x shr 8;

{P_2_08_1.PAS * Các thuật toán săp xếp}

{$M 65520 0 655360}

program SortingAlgorithmsDemo;

uses crt;

const

InputFile = 'SORT.INP';

OutputFile = 'SORT.OUT';

max = 15000;

maxV = 15000;

Interval = 1193180 / 65536; {Tần số đồng hồ ≈ 18.2 lần / giây}

nMenu = 12;

SMenu: array[0..nMenu] of String =

(

' 0. Display Input',

' 1. SelectionSort',

' 2. BubbleSort',

' 3. InsertionSort',

' 4. InsertionSort with binary searching',

' 5. ShellSort',

' 6. QuickSort',

' 7. HeapSort',

' 8. Distribution Counting',

' 9. Exchange RadixSort',

' 10. Straight RadixSort',

' 11. MergeSort',

' 12. Exit'

);

type

TArr = array[1..max] of Integer;

TCount = array[0..maxV] of Integer;

var

k: TArr;

n: Integer; selected: Integer;

StTime: LongInt;

Time: LongInt absolute 0:$46C; {Biến đếm nhịp đồng hồ}

procedure Enter; {Trước mỗi thuật toán sắp xếp, gọi thủ tục này để nhập liệu}

var

f: Text;

begin

Assign(f, InputFile);

Reset(f); n := 0;

while not SeekEof(f) do begin

Inc(n); Read(f, k[n]);

end;

Close(f);

StTime := Time; {Nhập xong bắt đầu tính thời gian ngay}

end;

procedure PrintInput; {In dữ liệu}

var

i: Integer; begin

Enter;

for i := 1 to n do Write(k[i]:8);

Write('Press any key to return to menu…');

ReadKey end;

procedure PrintResult; {In kết quả của mỗi thuật toán sắp xếp}

var

f: Text;

i: Integer;

ch: Char;

begin

{Trước hết in ra thời gian thực thi}

WriteLn('Running Time = ', (Time - StTime) / Interval:1:10, ' (s)');

Assign(f, OutputFile); Rewrite(f);

for i := 1 to n do WriteLn(f, k[i]);

Close(f);

Write('Press <P> to print Output, another key to return to menu…');

ch := ReadKey; WriteLn(ch);

if Upcase(ch) = 'P' then begin

for i := 1 to n do Write(k[i]:8); WriteLn;

Write('Press any key to return to menu…'); ReadKey;

end;

end;

procedure Swap(var x, y: Integer); {Thủ tục đảo giá trị hai tham biến x, y}

var

t: Integer;

begin

t := x; x := y; y := t;

end;

 

(** SELECTIONSORT *************************************************) procedure SelectionSort;

var

i, j, jmin: Integer;

begin

Enter;

for i := 1 to n - 1 do begin

jmin := i;

for j := i + 1 to n do

if k[j] < k[jmin] then jmin := j; if jmin <> i then Swap(k[i], k[jmin]);

end;

PrintResult;

end;

 

(** BUBBLESORT ****************************************************) procedure BubbleSort;

var

i, j: Integer;

begin

Enter;

for i := 2 to n do

for j := n downto i do

if k[j - 1] > k[j] then Swap(k[j - 1], k[j]);

PrintResult;

end;

(** INSERTIONSORT *************************************************) procedure InsertionSort;

var

i, j, tmp: Integer;

begin

Enter;

for i := 2 to n do begin

tmp := k[i]; j := i - 1;

while (j > 0) and (tmp < k[j]) do begin

k[j + 1] := k[j]; Dec(j);

end;

k[j + 1] := tmp;

end;

PrintResult;

end;

(** INSERTIONSORT WITH BINARY SEARCHING ***************************) procedure AdvancedInsertionSort;

var

i, inf, sup, median, tmp: Integer;

begin

Enter;

for i := 2 to n do begin

tmp := k[i];

inf := 1; sup := i - 1;

repeat

median := (inf + sup) shr 1;

if tmp < k[median] then sup := median - 1 else inf := median + 1;

until inf > sup;

Move(k[inf], k[inf + 1], (i - inf) * SizeOf(k[1]));

k[inf] := tmp;

end;

PrintResult;

end;

 

(** SHELLSORT *****************************************************) procedure ShellSort;

var

tmp: Integer;

i, j, h: Integer;

begin

Enter;

h := n shr 1; while h <> 0 do

begin

for i := h + 1 to n do begin

tmp := k[i];

j := i - h;

while (j > 0) and (k[j] > tmp) do

begin

k[j + h] := k[j];

j := j - h;

end;

k[j + h] := tmp;

end;

h := h shr 1;

end;

PrintResult;

end;

 

(** QUICKSORT *****************************************************) procedure QuickSort;

procedure Partition(L, H: Integer);

var

i, j: Integer;

Pivot: Integer;

begin

if L >= H then Exit;

Pivot := k[L + Random(H - L + 1)]; i := L; j := H;

repeat

while k[i] < Pivot do Inc(i); while k[j] > Pivot do Dec(j); if i <= j then

begin

if i < j then Swap(k[i], k[j]);

Inc(i); Dec(j);

end;

until i > j;

Partition(L, j);

Partition(i, H);

end;

begin

Enter; Partition(1, n);

PrintResult;

end;

 

(** HEAPSORT ******************************************************) procedure HeapSort;

var

r, i: Integer;

procedure Adjust(root, endnode: Integer);

var

key, c: Integer;

begin

key := k[root];

while root shl 1 <= endnode do

begin

c := root shl 1;

if (c < endnode) and (k[c] < k[c + 1]) then Inc(c);

if k[c] <= key then Break;

k[root] := k[c];

root := c;

end;

k[root] := key;

end;

begin

Enter;

for r := n shr 1 downto 1 do Adjust(r, n); for i := n downto 2 do

begin

Swap(k[1], k[i]);

Adjust(1, i - 1);

end;

PrintResult;

end;

 

(** DISTRIBUTION COUNTING ******************************************) procedure DistributionCounting;

var

x: TArr;

c: TCount;

i, V: Integer;

begin

Enter;

FillChar(c, SizeOf(c), 0);

for i := 1 to n do Inc(c[k[i]]);

for V := 1 to MaxV do c[V] := c[V - 1] + c[V]; for i := n downto 1 do

begin

V := k[i]; x[c[V]] := k[i]; Dec(c[V]);

end;

k := x;

PrintResult;

end;

 

(** EXCHANGE RADIXSORT ********************************************) procedure RadixSort;

const

MaxBit = 13;

var

MaskBit: array[0..MaxBit] of Integer;

MaxValue, i: Integer;

 

procedure Partition(L, H, BIndex: Integer);

var

i, j, Mask: Integer;

begin

if L >= H then Exit;

i := L;

j := H; Mask := MaskBit[BIndex];

repeat

while (i < j) and (k[i] and Mask = 0) do Inc(i); while (i < j) and (k[j] and Mask <> 0) do Dec(j);

Swap(k[i], k[j]);

until i = j;

if k[j] and Mask = 0 then Inc(j);

if BIndex > 0 then

begin

Partition(L, j - 1, BIndex - 1);

Partition(j, H, BIndex - 1);

end;

end;

begin

Enter;

for i := 0 to MaxBit do MaskBit[i] := 1 shl i;

maxValue := k[1];

for i := 2 to n do

if k[i] > MaxValue then maxValue := k[i];

i := 0;

while (i < MaxBit) and (MaskBit[i + 1] <= MaxValue) do Inc(i);

Partition(1, n, i);

PrintResult;

end;

 

(** STRAIGHT RADIXSORT ********************************************) procedure StraightRadixSort;

const

Radix = 256;

nDigit = 2;

var

t: TArr;

p: Integer;

Flag: Boolean;

 

function GetDigit(key, p: Integer): Integer;

begin

if p = 0 then GetDigit := key and $FF else GetDigit := key shr 8;

end;

 

procedure DCount(var x, y: TArr; p: Integer);

var

c: array[0..Radix - 1] of Integer;

i, d: Integer;

begin

FillChar(c, SizeOf(c), 0); for i := 1 to n do

begin

d := GetDigit(x[i], p);

Inc(c[d]);

end;

for d := 1 to Radix - 1 do c[d] := c[d - 1] + c[d];

for i := n downto 1 do

begin

d := GetDigit(x[i], p);

y[c[d]] := x[i];

Dec(c[d]);

end;

end;

begin

Enter;

Flag := True;

for p := 0 to nDigit - 1 do begin

if Flag then DCount(k, t, p) else DCount(t, k, p);

Flag := not Flag;

end;

if not Flag then k := t;

PrintResult;

end;

 

(** MERGESORT *****************************************************) procedure MergeSort;

var

t: TArr;

Flag: Boolean;

len: Integer;

 

procedure Merge(var Source, Dest: TArr; a, b, c: Integer);

var

i, j, p: Integer;

begin

p := a;

i := a;

j := b + 1;

while (i <= b) and (j <= c) do

begin

if Source[i] <= Source[j] then

begin

Dest[p] := Source[i];

Inc(i);

end

else

begin

Dest[p] := Source[j];

Inc(j);

end;

Inc(p);

end;

if i <= b then

Move(Source[i], Dest[p], (b - i + 1) * SizeOf(Source[1])) else

Move(Source[j], Dest[p], (c - j + 1) * SizeOf(Source[1]));

end;

 

procedure MergeByLength(var Source, Dest: TArr; len: Integer);

var

a, b, c: Integer;

begin

a := 1;

b := len;

c := len shl 1;

while c <= n do

begin

Merge(Source, Dest, a, b, c);

a := a + len shl 1;

b := b + len shl 1;

c := c + len shl 1;

end;

if b < n then Merge(Source, Dest, a, b, n)

else

Move(Source[a], Dest[a], (n - a + 1) * SizeOf(Source[1]));

end;

begin

Enter;

len := 1;

Flag := True;

FillChar(t, SizeOf(t), 0);

while len < n do

begin

if Flag then MergeByLength(k, t, len) else MergeByLength(t, k, len);

len := len shl 1;

Flag := not Flag;

end;

if not Flag then k := t;

PrintResult;

end; (*******************************************************************)

 

function MenuSelect: Integer;

var

ch: Integer;

begin

Clrscr;

WriteLn('Sorting Algorithms Demos; Input: SORT.INP; Output: SORT.OUT');

for ch := 0 to nMenu do WriteLn(SMenu[ch]);

Write('Enter your choice: ');

ReadLn(ch);

MenuSelect := ch;

end;

begin

repeat

selected := MenuSelect;

WriteLn(SMenu[selected]);

case selected of

0: PrintInput;

1: SelectionSort;

2: BubbleSort;

3: InsertionSort;

4: AdvancedInsertionSort;

5: ShellSort;

6: QuickSort;

7: HeapSort;

8: DistributionCounting;

9: RadixSort;

10: StraightRadixSort;

11: MergeSort;

12: Halt;

end;

until False;

end.

ĐÁNH GIÁ, NHẬN XÉT

Những con số về thời gian và tốc độ chương trình đo được là qua thử nghiệm trên một bộ dữ liệu cụ thể, với một máy tính cụ thể và một công cụ lập trình cụ thể. Với bộ dữ liệu khác, máy tính và công cụ lập trình khác, kết quả có thể khác. Tuy vậy, việc đo thời gian thực thi của  từng thuật toán sắp xếp vẫn cần thiết nếu ta muốn so sánh tốc độ của các thuật toán cùng cấp phức tạp bởi các tính toán trên lý thuyết đôi khi bị lệch so với thực tế vì nhiều lý do khác nhau.

Có một vấn đề đặt ra là ngoài những thuật toán sắp xếp cấp O(n2), rất khó có thể đo được tốc độ trung bình của những thuật toán sắp xếp còn lại khi mà chúng đều chạy không tới một nhịp đồng hồ thời gian thực (đều cho thời gian chạy bằng 0 do không kịp đo thời gian). Một cách giải quyết là cho mỗi thuật toán QuickSort, RadixSort, … thực hiện c lần (c là một số nguyên đủ lớn) trên các bộ dữ liệu ngẫu nhiên rồi lấy thời gian tổng chia cho c, hay có thể tăng kích thước dữ liệu (điều này có thể dẫn đến việc phải sửa lại một vài chỗ trong chương trình hoặc thậm chí phải thay đổi môi trường lập trình).

Tôi đã viết lại chương trình này trên Borland Delphi để đưa vào một số cải tiến:

  • Có thể chạy với kích thước dữ liệu lớn hơn rất nhiều (hàng triệu khóa)

  • Thiết kế dựa trên kiến trúc đa luồng (MultiThreads) cho phép chạy đồng thời hai hay nhiều thuật toán sắp xếp để so sánh tốc độ, hiển thị quá trình sắp xếp trực quan trên màn hình.

  • Cũng cho phép chạy tuần tự các thuật toán sắp xếp để đo thời gian thực hiện chính xác của chúng.

Chú ý: Để chương trình không bị ảnh hưởng bởi các phần mềm khác đang chạy, khi bấm  hoặc  khởi động các threads, bàn phím, chuột và tất cả các phần mềm khác sẽ bị treo tạm thời đến khi các threads thực hiện xong. Vì vậy không nên chạy các thuật toán sắp xếp chậm với dữ liệu lớn, sẽ không thể đợi đến khi các threads kết thúc và sẽ phải tắt máy khởi động lại. Hình dưới đây là giao diện của chương trình, bạn có thể tham khảo mã nguồn chương trình kèm theo:

v1study.com/public/images/article/giai-thuat-va-lap-trinh-cai-dat-cac-thuat-toan-sap-xep-voi-du-lieu-lon.png

Cài đặt các thuật toán sắp xếp với dữ liệu lớn

Cùng một mục đích sắp xếp như nhau, nhưng có nhiều phương pháp giải quyết khác nhau. Nếu chỉ dựa vào thời gian đo được trong một ví dụ cụ thể mà đánh giá thuật toán này tốt hơn thuật toán kia về mọi mặt là điều không nên. Việc chọn một thuật toán sắp xếp thích hợp cho phù hợp với từng yêu cầu, từng điều kiện cụ thể là kỹ năng của người lập trình.

Những thuật toán có độ phức tạp O(n2) thì chỉ nên áp dụng trong chương trình có ít lần sắp xếp và với kích thước n nhỏ. Về tốc độ, BubbleSort luôn luôn đứng bét, nhưng mã lệnh của  nó lại hết sức đơn giản mà người mới học lập trình nào cũng có thể cài đặt được, tính ổn định của BubbleSort cũng rất đáng chú ý. Trong những thuật toán có độ phức tạp O(n2), InsertionSort tỏ ra nhanh hơn những phương pháp còn lại và cũng có tính ổn định, mã lệnh cũng tương đối đơn giản, dễ nhớ. SelectionSort thì không ổn định nhưng với n nhỏ, việc chọn ra m phần tử nhỏ nhất có thể thực hiện dễ dàng chứ không cần phải sắp xếp lại toàn bộ như  sắp xếp chèn.

Thuật toán đếm phân phối và thuật toán sắp xếp bằng cơ số nên được tận dụng trong trường hợp các khoá sắp xếp là số tự nhiên (hay là một kiểu dữ liệu có thể quy ra thành các số tự nhiên) bởi những thuật toán này có tốc độ rất cao. Thuật toán sắp xếp bằng cơ số cũng có thể sắp xếp dãy khoá có số thực hay số âm nhưng ta phải biết được cách thức lưu trữ các kiểu dữ liệu đó trên máy tính thì mới có thể làm được.

QuickSort, HeapSort, MergeSort và ShellSort là những thuật toán sắp xếp tổng quát, dãy khoá thuộc kiểu dữ liệu có thứ tự nào cũng có thể áp dụng được chứ không nhất thiết phải là các số.

QuickSort gặp nhược điểm trong trường hợp suy biến nhưng xác suất xảy ra trường hợp này rất nhỏ. HeapSort thì mã lệnh hơi phức tạp và khó nhớ, nhưng nếu cần chọn ra m phần tử lớn nhất trong dãy khoá thì dùng HeapSort sẽ không phải sắp xếp lại toàn bộ dãy. MergeSort phải đòi hỏi thêm một không gian nhớ phụ, nên áp dụng nó trong trường hợp sắp xếp trên file. Còn ShellSort thì hơi khó trong việc đánh giá về thời gian thực thi, nó là sửa đổi của thuật toán sắp xếp chèn nhưng lại có tốc độ tốt, mã lệnh đơn giản và lượng bộ nhớ cần huy động rất ít. Tuy nhiên, những nhược điểm của bốn phương pháp này quá nhỏ so với ưu điểm chung của chúng là nhanh. Hơn nữa, chúng được đánh giá cao không chỉ vì tính tổng quát và tốc độ nhanh, mà còn là kết quả của những cách tiếp cận khoa học đối với bài toán sắp xếp.

Những thuật toán trên không chỉ đơn thuần là cho ta hiểu thêm về một cách sắp xếp mới, mà kỹ thuật cài đặt chúng (với mã lệnh tối ưu) cũng dạy cho chúng ta nhiều điều: Kỹ thuật sử dụng số ngẫu nhiên, kỹ thuật "chia để trị", kỹ thuật dùng các biến với vai trò luân phiên v.v…Vậy nên nắm vững nội dung của những thuật toán đó, mà cách thuộc tốt nhất chính là cài đặt chúng vài lần với các ràng buộc dữ liệu khác nhau (nếu có thể thử được trên hai ngôn ngữ lập trình thì rất tốt) và cũng đừng quên kỹ thuật sắp xếp bằng chỉ số.

Bài tập

Bài 1

Viết thuật toán QuickSort không đệ quy

Bài 2

Hãy viết những thuật toán sắp xếp nêu trên với danh sách những xâu ký tự gồm 3 chữ cái thường, để sắp xếp chúng theo thứ tự từ điển.

Bài 3

Hãy viết lại tất cả những thuật toán nêu trên với phương pháp sắp xếp bằng chỉ số trên một dãy số cần sắp không tăng (giảm dần).

Bài 5

Cho một danh sách thí sinh gồm n người, mỗi người cho biết tên và điểm thi, hãy chọn ra m người điểm cao nhất. Giải quyết bằng thuật toán có độ phức tạp tính toán trung bình O(n)

Bài 6

Thuật toán sắp xếp bằng cơ số trực tiếp có ổn định không ? Tại sao ?

Bài 7

Cài đặt thuật toán sắp xếp trộn hai đường tự nhiên

Bài 8

Tìm hiểu phép trộn k đường và các phương pháp sắp xếp ngoài (trên tệp truy nhập tuần tự và tệp truy nhập ngẫu nhiên).

« Prev
Next »