Giới thiệu khoa học dữ liệu với Python:pandas Series và DataFrames (phần 5)

Truy cập các phần tử một Series

Bạn có thể truy cập các phần tử của một Series bằng cách thông qua [ ] chứa một chỉ mục:

In [5]: grades[0]
Out[5]: 87

Xuất ra thống kê mô tả cho một Series

Series cung cấp nhiều phương thức cho các nhiệm vụ phổ biến bao gồm xuất ra các thống kê mô tả khác nhau. Sau đây
chúng ta thể hiện count, mean, min, max và std (độ lệch chuẩn):

In [6]: grades.count()
Out[6]: 3
In [7]: grades.mean()
Out[7]: 93.66666666666667
In [8]: grades.min()
Out[8]: 87
In [9]: grades.max()
Out[9]: 100
In [10]: grades.std()
Out[10]: 6.506407098647712

Mỗi trong số này có một giảm phong cách chức năng. Gọi phương thức Series describe sinh ra tất cả các trạng thái
này và nhiều hơn:

In [11]: grades.describe()
Out[11]:
count 3.000000
mean 93.666667
std 6.506407
min 87.000000
25% 90.500000
50% 94.000000
75% 97.000000
max 100.000000
dtype: float64

25%, 50% và 75% là các tứ phân vị:
+ 50% trình bày ở giữa của các giá trị xắp sếp
+ 25% trình bày ở giữa của nửa đầu của các giá trị xắp sếp
+ 75% trình bày ở giữa của nửa thứ hai của các giá trị xắp sếp.
Cho các tứ phân vị, nếu có 2 phần tử ở giữa, thì trung bình của chúng là ở giữa của tứ phân vị đó. Chúng ta chỉ
có 3 giá trị trong Series của chúng ta, nên tứ phân vị 25% là trung bình của 87 và 94, và tứ phân vị 75% là trung
bình của 94 và 100. Cùng với nhau, dải liên tứ phân vị là tứ phân vị 75% trừ tứ phân vị 25%, cái là đo lường khác
của phân tán, như độ lệch chuẩn và phương sai. Tất nhiên, tứ phân vị và liên dải tứ phân vị là hữu dụng hơn trong
các tập dữ liệu lớn hơn.

Chia sẻ