Phần trước đã trình bày một tập hợp các chỉ số mô hình, tất cả đều được tính toán ở một giá trị ngưỡng phân loại duy nhất. Tuy nhiên, nếu muốn đánh giá chất lượng của một mô hình trên tất cả các ngưỡng có thể, bạn cần có các công cụ khác.
Đường cong đặc trưng hoạt động của bộ thu (ROC)
Đường cong ROC là hình ảnh trực quan về hiệu suất của mô hình trên tất cả các ngưỡng. Phiên bản dài của tên, đặc tính hoạt động của bộ thu, là một phần còn lại của công nghệ phát hiện radar trong Thế chiến II.
Đường cong ROC được vẽ bằng cách tính tỷ lệ dương tính thực (TPR) và tỷ lệ dương tính giả (FPR) ở mọi ngưỡng có thể (trong thực tế, ở các khoảng thời gian đã chọn), sau đó lập biểu đồ TPR trên FPR. Một mô hình hoàn hảo, ở một ngưỡng nào đó có TPR là 1.0 và FPR là 0.0, có thể được biểu thị bằng một điểm tại (0, 1) nếu tất cả các ngưỡng khác bị bỏ qua hoặc bằng cách sau:

Diện tích dưới đường cong (AUC)
Diện tích dưới đường cong ROC (AUC) đại diện cho xác suất mô hình, nếu được cung cấp một ví dụ dương tính và âm tính được chọn ngẫu nhiên, sẽ xếp hạng dương tính cao hơn âm tính.
Mô hình hoàn hảo ở trên, chứa một hình vuông có các cạnh dài 1, có diện tích dưới đường cong (AUC) là 1.0. Điều này có nghĩa là có 100% khả năng mô hình sẽ xếp hạng chính xác một ví dụ dương tính được chọn ngẫu nhiên cao hơn một ví dụ âm tính được chọn ngẫu nhiên. Nói cách khác, khi xem xét mức độ phân tán của các điểm dữ liệu bên dưới, AUC cho biết xác suất mô hình sẽ đặt một hình vuông được chọn ngẫu nhiên ở bên phải một hình tròn được chọn ngẫu nhiên, không phụ thuộc vào vị trí đặt ngưỡng.
Nói một cách cụ thể hơn, một bộ phân loại thư rác có AUC là 1.0 luôn gán cho một email rác ngẫu nhiên có nhiều khả năng là thư rác hơn một email hợp lệ ngẫu nhiên. Việc phân loại thực tế của từng email phụ thuộc vào ngưỡng mà bạn chọn.
Đối với một bộ phân loại nhị phân, một mô hình hoạt động chính xác như các dự đoán ngẫu nhiên hoặc tung đồng xu có ROC là một đường chéo từ (0,0) đến (1,1). AUC là 0,5, thể hiện xác suất 50% để xếp hạng chính xác một ví dụ ngẫu nhiên về ví dụ tích cực và ví dụ tiêu cực.
Trong ví dụ về trình phân loại thư rác, trình phân loại thư rác có AUC là 0,5 chỉ gán xác suất cao hơn một nửa cho một email rác ngẫu nhiên so với một email hợp lệ ngẫu nhiên.

(Không bắt buộc, nâng cao) Đường cong độ chính xác-độ hồi quy
AUC và ROC hoạt động hiệu quả khi so sánh các mô hình khi tập dữ liệu được cân bằng gần như giữa các lớp. Khi tập dữ liệu không cân bằng, các đường cong độ chính xác-độ hồi quy (PRC) và diện tích bên dưới các đường cong đó có thể cung cấp hình ảnh trực quan so sánh hiệu suất mô hình tốt hơn. Đường cong độ chính xác-độ hồi quy được tạo bằng cách vẽ độ chính xác trên trục y và độ hồi quy trên trục x trên tất cả các ngưỡng.

AUC và ROC để chọn mô hình và ngưỡng
AUC là một chỉ số hữu ích để so sánh hiệu suất của hai mô hình khác nhau, miễn là tập dữ liệu được cân bằng gần như nhau. Mô hình có diện tích lớn hơn dưới đường cong thường là mô hình tốt hơn.


Các điểm trên đường cong ROC gần nhất với (0,1) thể hiện phạm vi ngưỡng hoạt động hiệu quả nhất cho mô hình nhất định. Như đã thảo luận trong các phần Ngưỡng, Ma trận nhầm lẫn và Chọn chỉ số và đánh đổi, ngưỡng mà bạn chọn phụ thuộc vào chỉ số quan trọng nhất đối với trường hợp sử dụng cụ thể. Hãy xem xét các điểm A, B và C trong sơ đồ sau, mỗi điểm đại diện cho một ngưỡng:

Nếu kết quả dương tính giả (cảnh báo giả) gây ra tổn thất lớn, bạn nên chọn một ngưỡng có FPR thấp hơn, chẳng hạn như ngưỡng tại điểm A, ngay cả khi TPR giảm. Ngược lại, nếu kết quả dương tính giả có chi phí thấp và kết quả âm tính giả (bỏ lỡ kết quả dương tính thực) có chi phí cao, thì ngưỡng cho điểm C (tối đa hoá TPR) có thể được ưu tiên. Nếu chi phí gần như tương đương, điểm B có thể mang lại sự cân bằng tốt nhất giữa TPR và FPR.
Dưới đây là đường cong ROC cho dữ liệu mà chúng ta đã thấy trước đó:
Bài tập: Kiểm tra mức độ hiểu bài








(Không bắt buộc, nâng cao) Câu hỏi thưởng
Hãy tưởng tượng một tình huống mà bạn nên cho phép một số email rác vào hộp thư đến thay vì gửi email quan trọng cho công việc vào thư mục thư rác. Bạn đã đào tạo một bộ phân loại thư rác cho trường hợp này, trong đó lớp dương là thư rác và lớp âm là không phải thư rác. Bạn nên chọn điểm nào sau đây trên đường cong ROC cho bộ phân loại của mình?
