Đăng nhập

Bài 29: Làm quen với pandas – Thư viện phân tích dữ liệu mạnh mẽ nhất Python

Đây là bài học đánh dấu bước chuyển từ xử lý thủ công sang phân tích dữ liệu chuyên nghiệp.


Khi bạn cần làm việc với dữ liệu dạng bảng “nghiêm túc”

Nếu openpyxl giúp bạn thao tác Excel, thì pandas chính là công cụ đỉnh cao để:

  • Phân tích hàng nghìn dòng dữ liệu
  • Lọc, nhóm, sắp xếp thông minh
  • Biến đổi, trích xuất, thống kê nhanh gọn
  • Và quan trọng: kết hợp cực mạnh với Excel, CSV, JSON, SQL…

Nếu bạn làm phân tích, khoa học dữ liệu, web crawling, tự động báo cáo… thì pandas là vũ khí bắt buộc phải biết.


Mục tiêu bài học

  • Cài đặt và import pandas
  • Đọc dữ liệu từ file .csv hoặc Excel
  • Hiểu và sử dụng DataFrame
  • Lọc, truy xuất, tính toán dữ liệu
  • Áp dụng vào bảng tính và phân tích đơn giản

1. Cài thư viện pandas

pip install pandas openpyxl

2. Import và đọc file .csv

import pandas as pd

df = pd.read_csv("diem_thi.csv")  # hoặc .xlsx nếu dùng Excel
print(df.head())  # In 5 dòng đầu tiên

📌 Nếu file .xlsx:

df = pd.read_excel("diem_thi.xlsx")

3. Khái niệm DataFrame

  • bảng dữ liệu gồm hàng và cột
  • Tương tự Excel nhưng xử lý nhanh hơn nhiều
  • Mỗi cột là một Series
print(df.columns)  # Danh sách tên cột
print(df["Điểm"])  # Một cột cụ thể

4. Truy xuất và xử lý

print(df["Điểm"].mean())  # Trung bình điểm
print(df["Điểm"].max())   # Điểm cao nhất
print(df["Điểm"] > 8)     # True/False theo từng dòng

# Lọc dữ liệu
hoc_gioi = df[df["Điểm"] >= 8.5]
print(hoc_gioi)

5. Thêm cột mới

df["Xếp loại"] = df["Điểm"].apply(lambda x: "Giỏi" if x >= 8 else "Khá")
print(df)

6. Ghi lại file mới

df.to_excel("ket_qua.xlsx", index=False)

7. Một số thao tác nhanh

print(df.sort_values(by="Điểm", ascending=False))  # Sắp xếp
print(df["Điểm"].describe())  # Thống kê: min, max, mean...

print(df[df["Tên"].str.contains("Linh")])  # Tìm tên chứa “Linh”

8. Bài tập luyện tập

Bài 1: Đọc file danh sách nhân viên, lọc người có lương trên 10 triệu
Bài 2: Thêm cột “Thuế” = 10% lương
Bài 3: Ghi kết quả ra file report.xlsx
Bài 4: Đọc bảng xếp hạng bóng đá từ web (sau này dùng requests) và phân tích đội ghi bàn nhiều nhất


Bạn đã học được

  • Làm việc với bảng dữ liệu bằng pandas
  • Lọc, tính toán, thêm cột, thống kê
  • Tạo báo cáo Excel có phân tích
  • Đây là nền tảng vững chắc để đi tiếp vào phân tích dữ liệu, AI, hoặc tự động hoá báo cáo doanh nghiệp

Thảo luận

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *

Đăng ký nhận tin mới

Nhận bài học, tài nguyên và cơ hội việc làm qua email hàng tuần.

Chúng tôi cam kết không spam. Bạn có thể hủy bất cứ lúc nào.