Các tập kí tự
Một vài ngôn ngữ lập trình sử dụng các dạng dữ liệu khác nhau cho các strings và các kí tự riêng rẽ. Trong Python,
các literals kí tự trông chính như các string literlas và thuộc dạng string. Để đánh dấu sự khác nhau, các học phần
sử dụng nháy đơn để bao gói các strings kí tự đơn và nháy đôi để bao gói các strings nhiều kí tự. Vì vậy, nó
tham chiếu đến ‘H’ như một kí tự và “Hi!” như một string, mặc dù cả hai chúng về kĩ thuật là các Python strings và
được code màu bằng màu xanh lá cây trong text này.
Như bạn học ở học phần trước, tất cả dữ liệu và lệnh trong một chương trình được dịch thành các số nhị phân trước
khi được chạy trên một máy tính thực. Để hỗ trợ dịch này, các kí tự trong một string mỗi cái chập vào một giá
trị số nguyên. Chập này được định nghĩa trong các tập kí tự, giữa chúng có tập ASCII và tập Unicode. (Thuật ngữ
ASCII có nghĩa cho American Standard Code for Information Interchange.) Trong những năm 1960s, ASCII gốc mã hóa
mỗi kí tự bàn phím và một vài kí tự kiểm soát sử dụng các số nguyên từ 0 đến 127. Một ví dụ về một control character
là Ctrl+D, cái là lệnh để chấm dứt một shell window. Khi các nút chức năng mới và một vài kí tự quốc tế được thêm
vào bàn phím, tập ASCII nhân đôi trong kích cỡ thành 256 giá trị khác biệt trong giữa những năm 1980s. Sau đó, khi
các kí tự và kí hiệu được thêm từ các ngôn ngữ ngoài tiếng Anh, tập Unicode đã được tạo để hỗ trợ 65,536 giá trị
trong đầu những năm 1990s. Unicode hỗ trợ hơn 128,000 giá trị trong thời điểm hiện tại.
Bảng dưới thể hiện chập các giá trị kí tự thành 128 codes ASCII đầu tiên. Các con số trong cột trái trình bày các
con số cực trái của một ASCII code, và các con số trong dòng đỉnh là các con số cực phải. Vì vậy, ASCII code của
kí tự ‘R’ tại dòng 8, cột 2 là 82.