Khai phá dữ liệu (Data Mining) là một lĩnh vực liên ngành, kết hợp kiến thức từ thống kê, máy học, cơ sở dữ liệu và biểu diễn tri thức. Trong đó, thống kê đóng vai trò then chốt, đặc biệt trong việc kiểm định mô hình và đánh giá tri thức. Bài viết này giới thiệu các khái niệm thống kê cơ bản, tập trung vào mô tả dữ liệu, đo lường xu hướng tập trung và sự biến thiên, giúp bạn có nền tảng vững chắc hơn khi tiếp cận khai phá dữ liệu.
Để hiểu rõ hơn, chúng ta sẽ bắt đầu với một ví dụ đơn giản.
Giả sử bạn chạy 100 mét sáu lần và ghi lại thời gian (tính bằng giây) cho mỗi lần chạy. Kết quả của bạn như sau:
x = {25.1, 21.2, 17.9, 23.0, 24.6, 19.5}
Dữ liệu này cho chúng ta biết điều gì? Hãy cùng xem xét một số thống kê mô tả đơn giản:
- Thời gian chạy trung bình (Mean): 21.9 giây
- Giá trị ở giữa (Median): 22.1 giây
- Thời gian chạy nhanh nhất (Minimum): 17.9 giây
- Thời gian chạy chậm nhất (Maximum): 25.1 giây
- Phương sai (Variance): 8.2 giây bình phương
- Độ lệch chuẩn (Standard Deviation): 2.9 giây
Đo lường xu hướng tập trung (Central Tendency)
Xu hướng tập trung của dữ liệu thường được đo bằng ba tham số chính: Mean (trung bình), Median (trung vị) và Mode (yếu vị).
Mục Lục
- 1 Mean (Trung bình)
- 2 Median (Trung vị)
- 3 Mode (Yếu vị)
- 4 So sánh Mean, Median và Mode
- 5 Quartiles (Tứ phân vị)
- 6 Interquartile Range (IQR – Độ trải giữa)
- 7 Box Plot (Biểu đồ hộp)
- 8 Range (Khoảng biến thiên)
- 9 Deviation (Độ lệch)
- 10 Variance (Phương sai) và Standard Deviation (Độ lệch chuẩn)
- 11 Standard Error (Sai số chuẩn)
- 12 Ví dụ: Nhiệt độ và doanh thu bán kem
- 13 Đồ thị Scatter Plot:
- 14 Cách tính hệ số tương quan (Pearson’s Correlation)
Mean (Trung bình)
Trung bình số học (Arithmetic mean) là tổng của tất cả các giá trị trong mẫu chia cho kích thước mẫu.
Với dữ liệu ví dụ trên, ta có:
Mean = (25.1 + 21.2 + 17.9 + 23.0 + 24.6 + 19.5) / 6 = 21.9 giây
Median (Trung vị)
Trong thống kê, trung vị là giá trị chia phân bố thành hai nửa bằng nhau. Một nửa số cá thể có giá trị nhỏ hơn hoặc bằng trung vị, nửa còn lại có giá trị lớn hơn hoặc bằng trung vị.
Để tính trung vị:
- Sắp xếp dữ liệu theo thứ tự tăng dần.
- Nếu số lượng giá trị là lẻ, trung vị là giá trị ở giữa.
- Nếu số lượng giá trị là chẵn, trung vị là trung bình của hai giá trị ở giữa.
Trong ví dụ trên, sau khi sắp xếp, ta có: {17.9, 19.5, 21.2, 23.0, 24.6, 25.1}. Vì n = 6 (chẵn), Median = (21.2 + 23.0) / 2 = 22.1 giây.
Ký hiệu toán học:
- ⌊p⌋: Số nguyên lớn nhất nhỏ hơn hoặc bằng p (hàm floor).
- ⌈p⌉: Số nguyên nhỏ nhất lớn hơn hoặc bằng p (hàm ceiling).
- x(p): Giá trị tại vị trí p trong mẫu x sau khi đã sắp xếp tăng dần.
Mode (Yếu vị)
Mode là giá trị xuất hiện nhiều nhất trong mẫu. Nếu không có giá trị nào lặp lại, mẫu không có mode. Trong ví dụ trên, không có mode.
So sánh Mean, Median và Mode
Median thường là tham số đo lường xu hướng tập trung mạnh nhất, ít bị ảnh hưởng bởi các giá trị ngoại lệ (outliers).
Ví dụ, giả sử bạn chạy thêm hai lần nữa và bị đau chân, kết quả là 79.9 giây cho cả hai lần. Mẫu dữ liệu mới sẽ là:
x = {25.1, 21.2, 17.9, 23.0, 24.6, 19.5, 79.9, 79.9}
Bảng so sánh:
Central tendency | 6 measurements | 8 measurements |
---|---|---|
Mean | 21.9 giây | 36.4 giây |
Median | 22.1 giây | 23.8 giây |
Mode | Không có | 79.9 giây |
Như bạn thấy, hai outliers (79.9 giây) ảnh hưởng lớn đến Mean (tăng từ 21.9 lên 36.4) và xuất hiện Mode mới, nhưng ít ảnh hưởng đến Median (tăng từ 22.1 lên 23.8).
Mode đặc biệt hữu ích với dữ liệu phân loại (nominal), khi Mean và Median không có ý nghĩa. Ví dụ, nếu dữ liệu giới tính là 1 (nam) và 0 (nữ), Mean hay Median là 0.5 không có ý nghĩa, nhưng Mode cho biết giới tính nào phổ biến hơn.
Quartiles (Tứ phân vị)
Tứ phân vị chia một tập dữ liệu đã sắp xếp thành bốn phần bằng nhau, bao gồm ba giá trị: Q1 (tứ phân vị thứ nhất), Q2 (tứ phân vị thứ hai, tương đương với Median) và Q3 (tứ phân vị thứ ba).
Để xác định tứ phân vị:
- Sắp xếp dữ liệu theo thứ tự tăng dần.
- Chia dãy số thành 4 phần bằng nhau.
- Tứ phân vị là các giá trị tại vị trí cắt.
Interquartile Range (IQR – Độ trải giữa)
IQR đo lường sự phân tán của dữ liệu bằng cách tính khoảng cách giữa Q3 và Q1:
IQR = Q3 – Q1
Box Plot (Biểu đồ hộp)
Box plot biểu diễn trực quan các đại lượng quan trọng của dãy số như min, max, quartile và IQR.
Đo lường sự biến thiên của dữ liệu (Variation of Data)
Ngoài xu hướng tập trung, việc đo lường sự biến thiên (hay phân tán) của dữ liệu là rất quan trọng. Hai mẫu có thể có cùng trung bình nhưng sự biến thiên lại khác nhau.
Các tham số thường dùng để đo lường sự biến thiên:
- Range (khoảng biến thiên)
- Interquartile Range (IQR – khoảng tứ phân vị)
- Standard Deviation (độ lệch chuẩn)
- Variance (phương sai)
- Standard Error (sai số chuẩn)
Range (Khoảng biến thiên)
Range là hiệu giữa giá trị lớn nhất và giá trị nhỏ nhất.
Range = Max – Min
Trong ví dụ chạy 100m, Range = 25.1 – 17.9 = 7.2 giây.
Deviation (Độ lệch)
Độ lệch đo lường khoảng cách giữa mỗi giá trị và giá trị trung tâm (thường là Mean). Tuy nhiên, tổng độ lệch luôn bằng 0, nên không thể dùng để mô tả sự phân tán.
Variance (Phương sai) và Standard Deviation (Độ lệch chuẩn)
Để khắc phục vấn đề tổng độ lệch bằng 0, người ta sử dụng tổng bình phương các độ lệch chia cho kích thước mẫu trừ 1 (hiệu chỉnh), gọi là phương sai mẫu (Sample Variance).
Điểm yếu của phương sai là đơn vị tính không cùng với Mean (bình phương đơn vị của Mean). Để giải quyết, người ta lấy căn bậc hai của phương sai, gọi là độ lệch chuẩn (Standard Deviation).
Standard Error (Sai số chuẩn)
Sai số chuẩn (SE) mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể. Nó được tính bằng độ lệch chuẩn chia cho căn bậc hai của kích thước mẫu:
SE = Standard Deviation / √n
Độ lệch chuẩn mô tả sự biến thiên của các cá thể trong quần thể, còn sai số chuẩn mô tả sự biến thiên của các số trung bình mẫu lấy từ tổng thể.
Tương quan (Correlation)
Hệ số tương quan (Coefficient Correlation) cho biết độ mạnh của mối quan hệ tuyến tính giữa hai biến số ngẫu nhiên.
- Tương quan dương: Hai biến tăng cùng nhau.
- Tương quan âm: Một biến tăng, biến kia giảm.
Hệ số tương quan có giá trị từ -1 đến 1:
- Gần 1: Tương quan dương mạnh.
- Gần -1: Tương quan âm mạnh.
- Gần 0: Tương quan yếu hoặc không có tương quan tuyến tính.
Ví dụ: Nhiệt độ và doanh thu bán kem
Giả sử có dữ liệu về nhiệt độ (Temperature) và doanh thu bán kem (Ice Cream Sales):
Đồ thị Scatter Plot:
Scatter Plot cho thấy nhiệt độ càng cao, doanh thu bán kem càng cao. Hệ số tương quan là 0.9575, cho thấy mối quan hệ dương rất mạnh.
Lưu ý: Tương quan không có nghĩa là nhân quả (Causation).
Cách tính hệ số tương quan (Pearson’s Correlation)
Công thức Pearson:
Trong đó:
- x và y là hai biến.
- Cov(x,y) là hiệp phương sai của x và y.
- σx và σy là độ lệch chuẩn của x và y.
Dưới đây là minh họa việc tính hệ số tương quan cho ví dụ trên:
Các hàm trong MS Excel
MS Excel cung cấp nhiều hàm để tính toán các tham số thống kê:
- Đo lường xu hướng trung tâm:
- AVERAGE: Tính trung bình số học (mean)
- MEDIAN: Tính trung vị
- MODE: Tính số mode
- Đo lường độ biến thiên:
- MAX – MIN: Tính Range
- PERCENTILE (array, k): Tìm phân vị thứ k
- QUARTILE (array, 3) – QUARTILE (array, 1): Tính IQR
- VAR: Tính phương sai mẫu
- VARPA: Tính phương sai tổng thể
- STDEV: Tính độ lệch chuẩn mẫu
- STDEVPA: Tính độ lệch chuẩn tổng thể
- Một số hàm liên quan khác:
- SUM: Tính tổng
- SQRT: Căn bậc hai
- CEILING: Hàm ceiling
- FLOOR: Hàm floor
Với kiến thức thống kê cơ bản này, bạn sẽ có nền tảng tốt hơn để khám phá và phân tích dữ liệu, từ đó đưa ra những quyết định sáng suốt hơn.