Đây là bài học đánh dấu bước chuyển từ xử lý thủ công sang phân tích dữ liệu chuyên nghiệp.
Khi bạn cần làm việc với dữ liệu dạng bảng “nghiêm túc”
Nếu openpyxl
giúp bạn thao tác Excel, thì pandas
chính là công cụ đỉnh cao để:
- Phân tích hàng nghìn dòng dữ liệu
- Lọc, nhóm, sắp xếp thông minh
- Biến đổi, trích xuất, thống kê nhanh gọn
- Và quan trọng: kết hợp cực mạnh với Excel, CSV, JSON, SQL…
Nếu bạn làm phân tích, khoa học dữ liệu, web crawling, tự động báo cáo… thì pandas là vũ khí bắt buộc phải biết.
Mục tiêu bài học
- Cài đặt và import
pandas
- Đọc dữ liệu từ file
.csv
hoặc Excel - Hiểu và sử dụng
DataFrame
- Lọc, truy xuất, tính toán dữ liệu
- Áp dụng vào bảng tính và phân tích đơn giản
1. Cài thư viện pandas
pip install pandas openpyxl
2. Import và đọc file .csv
import pandas as pd
df = pd.read_csv("diem_thi.csv") # hoặc .xlsx nếu dùng Excel
print(df.head()) # In 5 dòng đầu tiên
📌 Nếu file .xlsx
:
df = pd.read_excel("diem_thi.xlsx")
3. Khái niệm DataFrame
- Là bảng dữ liệu gồm hàng và cột
- Tương tự Excel nhưng xử lý nhanh hơn nhiều
- Mỗi cột là một
Series
print(df.columns) # Danh sách tên cột
print(df["Điểm"]) # Một cột cụ thể
4. Truy xuất và xử lý
print(df["Điểm"].mean()) # Trung bình điểm
print(df["Điểm"].max()) # Điểm cao nhất
print(df["Điểm"] > 8) # True/False theo từng dòng
# Lọc dữ liệu
hoc_gioi = df[df["Điểm"] >= 8.5]
print(hoc_gioi)
5. Thêm cột mới
df["Xếp loại"] = df["Điểm"].apply(lambda x: "Giỏi" if x >= 8 else "Khá")
print(df)
6. Ghi lại file mới
df.to_excel("ket_qua.xlsx", index=False)
7. Một số thao tác nhanh
print(df.sort_values(by="Điểm", ascending=False)) # Sắp xếp
print(df["Điểm"].describe()) # Thống kê: min, max, mean...
print(df[df["Tên"].str.contains("Linh")]) # Tìm tên chứa “Linh”
8. Bài tập luyện tập
Bài 1: Đọc file danh sách nhân viên, lọc người có lương trên 10 triệu
Bài 2: Thêm cột “Thuế” = 10% lương
Bài 3: Ghi kết quả ra file report.xlsx
Bài 4: Đọc bảng xếp hạng bóng đá từ web (sau này dùng requests
) và phân tích đội ghi bàn nhiều nhất
Bạn đã học được
- Làm việc với bảng dữ liệu bằng
pandas
- Lọc, tính toán, thêm cột, thống kê
- Tạo báo cáo Excel có phân tích
- Đây là nền tảng vững chắc để đi tiếp vào phân tích dữ liệu, AI, hoặc tự động hoá báo cáo doanh nghiệp
Thảo luận