Giới thiệu khoa học dữ liệu với Python:pandas Series và DataFrames
Mảng của NumPy được tối ưu hóa cho dữ liệu số đồng nhất cái được truy cập qua các chỉ mục số nguyên. Khoa học
dữ liệu trình bày các nhu cầu duy nhất cho chúng các cấu trúc dữ liệu phù hợp hóa theo yêu cầu hơn được yêu
cầu. Các ứng dụng dữ liệu lớn phải hỗ trợ các dạng dữ liệu pha trộn, chỉ mục hóa phù hợp theo yêu cầu, dữ liệu
bị mất, dữ liệu cái không được cấu trúc ổn định và dữ liệu cái cần thao tác xử lí thành các dạng phù hợp cho
các CSDL và các gói phân tích dữ liệu bạn sử dụng.
Pandas là thư viện thông dụng nhất cho làm việc với dữ liệu như vậy. Nó cung cấp 2 bộ then chốt cái bạn sẽ sử
dụng trong một vài phần Intro to Data Science của chúng ta và xuyên suôt các case studies khoa học dữ liệu – Series
cho các bộ một chiều và DataFrames cho các bộ 2 chiều. Bạn có thể sử dụng pandas’ MultiIndex để thao tác xử lí
dữ liệu nhiều chiều trong bối cảnh Series và DataFrames.
Wes McKinney tạo pandas vào năm 2008 trong khi làm việc trong nghành. Cái tên pandas bắt nguồn từ thuật ngữ
“panel data,” cái là dữ liệu cho đo lường theo thời gian, như giá cổ phiếu và đọc lịch sử nhiệt độ. McKinney
cần một thư viện trong đó cùng các cấu trúc dữ liệu có thể xử lí cả dữ liệu dựa trên time và non-time với hỗ
trợ cho căn chỉnh dữ liệu, dữ liệu bị mất, các thao tác xử lí dữ liệu phong cách CSDL phổ biến, và nhiều hơn.
