cost-function-la-gi

Cost Function là gì? Kiến thức cho người mới vào nghề

Chia sẻ kinh nghiệm

Bên cạnh các mẫu dữ liệu, các hàm tính tính toán chính là công cụ đắc lực giúp Machine Learning dự đoán chính xác. Trong đó, một hàm tính toán cơ bản người mới vào nghề nhất định phải biết chính là Cost Function. Vậy Cost Function là gì? Khi nào cần sử dụng Cost Function? Câu trả lời sẽ có ngay trong bài viết dưới đây của topviecit.vn

Cost Function là gì? 

Định nghĩa Cost Function là gì khá phức tạp. Tuy nhiên, dựa vào chức năng của nó khi kết hợp với các hàm khác, bạn sẽ có cái nhìn dễ hiểu hơn về hàm này. 

Cost Function và Hypothesis Function là một cặp bài trùng luôn song hành cùng nhau. Nếu Hypothesis Function hay còn gọi là Hàm giả định (Hàm dự đoán) giúp những chương trình Machine Learning dự đoán và tìm các trọng số tối ưu. Thì Cost Function sẽ hỗ trợ làm tăng tính chính xác của những dự đoán này. 

>>>Xem thêm: Json Là Gì? Những Điều Dân Lập Trình Cần Biết Về JSON

Hàm Cost Function có tính ứng dụng trong hầu hết lĩnh vực của Machine Learning
Hàm Cost Function có tính ứng dụng trong hầu hết lĩnh vực của Machine Learning

Cụ thể, Cost Function vừa đưa ra dự đoán đầu ra thực tế của mô hình vừa tính toán mức độ sai lầm của mô hình trong dự đoán của nó. Nếu dự đoán của chúng ta sai biệt nhiều so với giá trị thực tế, Cost Function sẽ cho ra con số cao hơn. 

Bên cạnh đó, hàm Cost Function cũng hỗ trợ khá nhiều cho Loss Function (Hàm mất mát). Theo đó, Cost Function được sử dụng để chỉ mức trung bình của các hàm Los Function trên toàn bộ tập dữ liệu đào tạo.

Khi nào cần sử dụng hàm Cost Function?

Sau khi đã đi tìm hiểu “Cost Function là gì?” chúng ta cần hiểu được vai trò của nó trong những chương trình Machine Learning. Để tìm câu trả lời cho câu hỏi ở trên, hãy đặt Cost Function vào một ví dụ thực tế khi phân loại dữ liệu. Giả sử chúng ta có thông tin chi tiết về chiều cao và cân nặng của một số lượng mèo và chó. Chúng ta hãy sử dụng 2 đặc điểm này để phân loại chúng một cách chính xác. Nếu vẽ biểu đồ, chúng ta sẽ nhận được biểu đồ phân tán sau:

Về cơ bản cả ba bộ phân loại đều có độ chính xác rất cao nhưng giải pháp thứ ba là tốt nhất vì nó không phân loại sai bất kỳ điểm nào. Lý do tại sao nó phân loại tất cả các điểm một cách hoàn hảo là đường thẳng gần như chính xác giữa hai nhóm và không gần hơn bất kỳ điểm nào trong số các nhóm. Đây là nơi xuất hiện khái niệm ham Cost Function. Hàm Cost Function giúp chúng ta đạt được giải pháp tối ưu và là kỹ thuật đánh giá hiệu quả của các thuật toán/ mô hình. 

Theo đó, chúng ta có thể dựa trên Cost Function để điều chỉnh mô hình của mình nhằm cải thiện các dự đoán. Hàm Cost Function hoạt động như một chỉ báo cho biết mô hình đã được cải thiện như thế nào. Từ đó tăng khả năng tối ưu hóa. 

>>>Xem thêm: Magento Là Gì? Có Nên Làm Magento Developer Hay Không?

Hình ảnh ví dụ phân loại khi sử dụng hàm Cost Function
Hình ảnh ví dụ phân loại khi sử dụng hàm Cost Function 

Phân loại các hàm Cost Function

Trên thực tế, có nhiều loại hàm Cost Function trong các chương trình Machine Learning. Nếu đã hiểu được Cost Function là gì thì việc phân loại chúng sẽ đơn giản hơn. Vì mỗi loại sẽ được sử dụng khác nhau tùy thuộc vào bài toán hồi quy hay bài toán phân loại. 

Hàm Cost Function quy hồi 

Mô hình hồi quy xử lý việc dự đoán một giá trị liên tục, ví dụ như lương nhân viên, giá xe, dự đoán khoản vay, v.v. Một hàm Cost Function được sử dụng trong bài toán hồi quy được gọi là “Hàm Cost Function hồi quy”. Chúng được tính toán trên sai số dựa trên công thức như sau:

Error = y-y ‘

Với: 

  • Y – Đầu vào thực tế
  • Y ’- Sản lượng dự đoán

Một số hàm Cost Function được sử dụng nhiều nhất có thể kể đến như: 

  • Mean Error (ME)
  • Mean Squared Error (MSE)
  • Mean Absolute Error (MAE)
Một số bài toán có thể sử dụng Cost Function
Một số bài toán có thể sử dụng Cost Function 

Hàm Cost Function phân loại nhị phân 

Hàm Cost Function được sử dụng trong các bài toán phân loại sẽ khác với bài toán quy hồi. Một trong những hàm Loss Function ( Hàm mất mát) được sử dụng để phân loại là cross – entropy loss function ( Hàm mất mát chéo). Trước khi tìm hiểu về cost function phân loại nhị phân, chúng ta cần hiểu kiến thức nền tảng về cross – entropy loss function. 

Một ví dụ thực tế như sau: 

Lớp (Cam, Táo, Cà chua)

Mô hình Machine Learning sẽ đưa ra phân phối xác suất của 3 lớp này làm đầu ra cho một dữ liệu đầu vào nhất định. Lớp có xác suất cao nhất được coi là lớp chiến thắng để dự đoán.

Output = [P (Cam), P (Táo), P (Cà chua)]

Phân phối xác suất thực tế cho mỗi lớp được hiển thị bên dưới.

Cam = [1,0,0]

Táo = [0,1,0]

Cà chua = [0,0,1]

Nếu trong giai đoạn Training, lớp đầu vào là cà chua, thì phân phối xác suất dự đoán sẽ có xu hướng hướng tới phân phối xác suất thực tế của lớp này. Nếu phân phối xác suất dự đoán không gần với thực tế hơn, thì mô hình phải điều chỉnh trọng số của nó. Đây là nơi mà cross – entropy trở thành một công cụ để tính toán phân phối xác suất dự đoán so với thực tế là bao nhiêu. Nói cách khác, có thể coi Cross-entropy là một cách để đo khoảng cách giữa hai phân phối xác suất.

Trên đây là một số kiến thức cơ bản về Cost Function là gì cũng như những ví dụ minh hoạt trực quan về cách sử dụng hàm này. Công nghệ Machine Learning còn khá mới mẻ nên việc nắm vững các kiến thức cơ bản như trên chắc chắn sẽ giúp bạn rất nhiều khi theo đuổi lĩnh vực này. Hy vọng bài viết trên đã mang đến cho bạn nhiều thông tin hữu ích. Hẹn gặp lại bạn trong những bài viết tiếp theo!

>>>Xem thêm: Webpack Là Gì? Những Kiến Thức Tổng Quan Về Webpack

Hình ảnh: Sưu tầm

Trả lời

Email của bạn sẽ không được hiển thị công khai.