Chuẩn bị tập dữ liệu (tiếp tục)
Gần đây, Google Colab đã thêm thư viện Transformers vào thư viện cài đặt trước trong môi trường của nó, nên không
cần cài đặt nó riêng rẽ. Tôi đã quyết định cập nhật nó thành phiên bản mới nhất vì tôi đã test các models cái được
giới thiệu gần đây. Tuy nhiên, bạn không cần thực hiện cập nhật nếu bạn không sẽ trải nghiệm với các models trình
bày trong vài tháng qua.
Hai thư viện sau để nhập khẩu là có khả năng quen thuộc với bạn: Numpy và Pandas. Chúng là hai trong số thư viện
Python sử dụng rộng rãi nhất trong khoa học dữ liệu.
Numpy là một thư viện sử dụng cho tính toán số cái làm nó dễ để thực hiện tính toán toán học và làm việc với các
vectors, linear algebra routines, và khởi tạo số tùy biến.
Pandas mặt khác là thư viện go-to cho thao tác xử lí và phân tích dữ liệu.
import numpy as np
import pandas as pd
Vì các thư viện này đã được cài đặt trước trong Google Colab, bạn chỉ cần nhập khảu chúng, nó là không cần thiết
để cài đặt chúng.
Bây giờ, tôi sẽ load tập dữ liệu. Nhớ rằng mục tiêu cuối cùng là có một .csv file chứu dữ liệu trong một thư mục
truy cập được tới notebook.
Tôi sẽ gọi Kaggle API để download file và sau đó lưu nó trong một thư mục trên Google Drive. Để làm cái này, tôi
phải kết nối Google Colab với Google Drive. Nếu bạn thích hơn, bạn có thể download tập dữ liệu từ Kaggle và upload
nó lên Google Drive bản thân bạn. Như lựa chọn, nếu bạn đang chạy notebook trên máy địa phương của bạn, đơn giản
unzip .zip file và copy CSV file.
Như đề cập ở trên, tôi đã sử dụng 3 tập dữ liệu khác nhau. Lí do duy nhất cho làm notebook làm việc với các tập
dữ liệu khác nhau này là trải nghiệm và xem giải pháp phản ứng như thế nào với các đầu vào khác nhau. Cảm thấy tự
do để thử nhiều tập dữ liệu như bạn thích. Nó tất cả là về trải nghiệm và hiểu hành vi của giải pháp với các tập
dữ liệu khác nhau.
from google.colab import drive
drive.mount(‘/content/drive’)
Khi kết nối Google Colab với Google Drive, nó sẽ thúc giục bạn hiệu lực hóa kết nối này qua một hộp thoại, như thấy
trong ảnh dưới.

