Thông Tin và Dữ Liệu: Mã Hóa và Biểu Diễn trong Máy Tính

Thông tin là tri thức thu được về một thực thể, trong khi dữ liệu là thông tin được nhập vào máy tính để xử lý. Để máy tính có thể hiểu và thao tác, thông tin cần được mã hóa thành dạng mà máy tính có thể đọc được. Bài viết này sẽ đi sâu vào cách thông tin được biểu diễn và mã hóa trong hệ thống máy tính, từ đơn vị đo lường cơ bản đến các phương pháp mã hóa khác nhau cho số và phi số.

Đơn vị cơ bản để đo lường thông tin là bit (viết tắt của Binary Digit). Bit là đơn vị nhỏ nhất mà máy tính có thể lưu trữ, biểu diễn hai trạng thái: 0 (không có điện) và 1 (có điện). Bit còn được gọi là mã nhị phân.

.png)

Ngoài bit, đơn vị đo lượng thông tin phổ biến khác là Byte. Một byte tương đương với 8 bit. Để dễ dàng quản lý và biểu diễn dung lượng lớn, người ta sử dụng các đơn vị bội của byte như Kilobyte (KB), Megabyte (MB), Gigabyte (GB), Terabyte (TB) và Petabyte (PB).

Dưới đây là bảng tổng hợp các đơn vị bội của Byte:

Kí hiệu Đọc Độ lớn
Byte Bai 8 bit
KB Ki-lô-bai 1024 byte
MB Mê-ga-bai 1024 KB
GB Gi-ga-bai 1024 MB
TB Tê-ra-bai 1024 GB
PB Pê-ta-bai 1024 TB

Thông tin được chia thành hai loại chính: thông tin loại số và thông tin loại phi số.

  • Thông tin loại số: Bao gồm các số nguyên (ví dụ: 1, 2, 3) và số thực (ví dụ: 1.5, 3.14).

  • Thông tin loại phi số: Bao gồm văn bản, hình ảnh và âm thanh.

    • Dạng văn bản: Ví dụ như báo, sách, văn bản trên màn hình.
    • Dạng hình ảnh: Ví dụ như ảnh chụp, tranh vẽ, biểu đồ.
    • Dạng âm thanh: Ví dụ như tiếng nói, âm nhạc, tiếng động.

Mã Hóa Thông Tin trong Máy Tính

Để máy tính có thể xử lý, mọi thông tin cần được biến đổi thành dãy bit (biểu diễn bằng 0 và 1). Quá trình này gọi là mã hóa thông tin.

.png)

Mã hóa thông tin dạng văn bản thường sử dụng bộ mã ASCII hoặc Unicode.

  • Bộ mã ASCII (American Standard Code for Information Interchange): Sử dụng 8 bit để mã hóa mỗi ký tự, cho phép mã hóa tối đa 256 ký tự.
  • Bộ mã Unicode: Sử dụng 16 bit (hoặc hơn) để mã hóa mỗi ký tự, cho phép mã hóa hàng triệu ký tự, bao gồm tất cả các bảng chữ cái và ký tự đặc biệt trên thế giới.

a. Biểu Diễn và Mã Hóa Thông Tin Loại Số

Hệ Đếm

Máy tính sử dụng các hệ đếm khác nhau để biểu diễn số, bao gồm:

  • Hệ thập phân (Decimal): Sử dụng 10 chữ số (0-9).
  • Hệ nhị phân (Binary): Sử dụng 2 chữ số (0 và 1). Đây là hệ đếm cơ bản của máy tính.
  • Hệ cơ số mười sáu (Hexadecimal): Sử dụng 16 ký tự (0-9 và A-F).

Biểu diễn số trong các hệ đếm:

  • Hệ thập phân: Một số N bất kỳ có thể biểu diễn dưới dạng:

    (N = aₙ 10ⁿ + aₙ₋₁ 10ⁿ⁻¹ + … + a₁ 10¹ + a₀ 10⁰ + a₋₁ 10⁻¹ + … + a₋ₘ 10⁻ᵐ)

    (0 ≤ aᵢ ≤ 9)

  • Hệ nhị phân: Tương tự, một số N bất kỳ có thể biểu diễn dưới dạng:

    (N = aₙ 2ⁿ + aₙ₋₁ 2ⁿ⁻¹ + … + a₁ 2¹ + a₀ 2⁰ + a₋₁ 2⁻¹ + … + a₋ₘ 2⁻ᵐ)

    (aᵢ = 0, 1)

  • Hệ hexa: Một số N bất kỳ có thể biểu diễn dưới dạng:

    (N = aₙ 16ⁿ + aₙ₋₁ 16ⁿ⁻¹ + … + a₁ 16¹ + a₀ 16⁰ + a₋₁ 16⁻¹ + … + a₋ₘ 16⁻ᵐ)

    (0 ≤ aᵢ ≤ 15)

    Trong đó: A = 10, B = 11, C = 12, D = 13, E = 14, F = 15

Chuyển đổi giữa các hệ đếm:

Việc chuyển đổi giữa các hệ đếm là một kỹ năng quan trọng trong lĩnh vực tin học. Dưới đây là ví dụ về cách chuyển đổi một số từ hệ thập phân sang hệ nhị phân và hệ cơ số mười sáu:

.png)

Biểu diễn số trong máy tính:

  • Biểu diễn số nguyên:

    (7₁₀ = 111₂)

    Số nguyên được biểu diễn bằng một chuỗi các bit. Số lượng bit được sử dụng để biểu diễn số nguyên quyết định phạm vi giá trị mà số đó có thể biểu diễn.

    .png)

    • Phần nhỏ nhất của bộ nhớ lưu trữ số 0 hoặc 1: 1 bit
    • Một byte có 8 bit, bit cao nhất thể hiện dấu (bit dấu)
    • Có thể dùng 1 byte, 2 byte, 4 byte… để biểu diễn số nguyên
  • Biểu diễn số thực:

    • Biểu diễn số thực dưới dạng dấu phẩy động:

      Ví dụ: 13456,25 = 0.1345625 x 10⁵

      Dạng tổng quát: ±M x 10±K

      Trong đó:

      • M: Là phần định trị (0,1 ≤ M < 1)
      • K: Là phần bậc (K ≤ 0)
    • Biểu diễn số thực trong một số máy tính:

      Ví dụ: 0,007 = 0.7 x 10⁻²

      .png)

b. Biểu Diễn và Mã Hóa Thông Tin Loại Phi Số

Biểu diễn văn bản:

  • Mã hoá thông tin dạng văn bản thông qua việc mã hóa từng kí tự và thường sử dụng:
    • Bộ mã ASCII: Dùng 8 bit để mã hoá kí tự, mã hoá được 256 = 2⁸ kí tự
    • Bộ mã Unicode: Dùng 16 bit để mã hóa kí tự, mã hoá được 65536 = 2¹⁶ kí tự
  • Trong bảng mã ASCII mỗi kí tự được biểu diễn bằng 1 byte

Các dạng khác: Hình ảnh, âm thanh cũng phải mã hoá thành các dãy bit

Nguyên lí mã hóa nhị phân:

Thông tin có nhiều dạng khác nhau như số, văn bản, hình ảnh, âm thanh,… Khi đưa vào máy tính, chúng đều biến đổi thành dạng chung – dãy bit. Dãy bit đó là mã nhị phân của thông tin mà nó biểu diễn.

Tóm lại, việc hiểu cách thông tin được biểu diễn và mã hóa trong máy tính là rất quan trọng để nắm bắt được cách máy tính xử lý dữ liệu. Từ các đơn vị đo lường cơ bản như bit và byte đến các phương pháp mã hóa phức tạp cho số và phi số, tất cả đều đóng vai trò quan trọng trong việc cho phép máy tính hiểu và tương tác với thế giới thực.