PHÂN NHÓM THUẬT TOÁN MACHINE LEARNING

Phân nhóm các thuật toán Machine Learning dựa trên hai phương thức. Một là dựa trên phương thức học (learning style), hai là dựa trên chức năng (function)

1. Dùng Phương Thức Học Để Phân Nhóm

Trong phương thức học, thuật toán Machine Learning được chia làm 4 nhóm: Supervise learning, Unsupervised, Semi – supervised lerning và Reinforcement learning.

- Học có giám sát  (Supervised Learning)

Supervises Learning là một thuật toán dự đoán đầu ra (outcome) của một dữ liệu mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ liệu này còn hay được gọi là (data, label). Nghĩa (dữ liệu, nhãn). Supervised learning là nhóm thuật toán phổ biến nhất trong các thuật toán Machine Learning.

Supervised learning có nghĩa là khi chúng ta có một tập hợp biến đầu vào X = {x1,x2,…,xN} và một tập hợp nhãn tương ứng Y = {y1,y2,…,yN},  trong đó xi,yixi,yi là các vector. Các cặp dữ liệu biết trước (xi,yi)∈ X × Y được gọi là tập training data (dữ liệu huấn luyện). Từ các tập traing data này, chúng ta cần tạo ra một hàm số ánh xạ mỗi phần tử từ tập X sang một phần tử (xấp xỉ) tương ứng từ tập YY:

Yi ≈ f(xi), ∀I = 1,2,…,N

Mục đích là để xấp xỉ hàm số f thật tốt để khi có một dữ liệu X mới, chúng ta có thể tính được nhãn tương ứng từ đó y = f(x).

Ví dụ: Trong nhận dạng các chữ viết hoa. Chúng ta có ảnh của hàng nghìn ví dụ từ mỗi chữ số và được viết từ nhiều người khác nhau. Sau khi đưa bức ảnh này vào thuật toán và chỉ ra nó biết mỗi đến một hàm số mà đầu vào sẽ là một chữ số. Sau khi nhận được bức ảnh mới mà mô hình chưa từng nhìn thấy bao giờ. Từ đó, nó sẽ dự đoán bức ảnh trong đó chứa những chữ số như nào.

Phân nhóm thuật toán Machine Learning

Ví dụ trên rất giống với cách học của con người khi nhỏ. Chúng ta đưa bảng chữ cái cho đứa trẻ bất kỳ và chỉ ra cho chúng thấy đâu là A, đâu là B. Qua nhiều lần được dạy thì trẻ con hoàn toàn có thể nhận biết đâu là chữ A, và chữ B thông qua những cuốn sách mà chúng chưa từng thấy.

Bên cạnh đó, còn có nhiều thuật toán dò tìm khuôn mặt trong các hình ảnh. Có thể thấy facebook đã sử dụng thuật toán này để chỉ ra các khuôn mặt của họ trong bức ảnh và yêu cầu người dùng tag tên bạn bè…

Xem thêm: Giới thiệu về Artificial Inteligent (AI)/ Machine Learning (ML)

- Phân Loại (Classification)

Bài toán được gọi là Classification nếu như các label của input data chia thành các số hữu hạn nhóm.

Tương tự như gmail xác định xem một email có phải là email spam hay không, các hãng tín dụng xác định xem khách hàng có khả năng thanh toán nợ hay là không….

- Hồi Quy (Regression)

Nếu như label không thể chia thành nhiều nhóm mà là các giá trị thực cụ thể.

Ví dụ: Căn nhà rộng x m2 có y phòng ngủ cách trung tâm thành phố z km thì sẽ có mức giá là bao nhiêu?

Cụ thể gần đây Microsoft có ứng dụng dự đoán giới tính và tuổi dựa trên khuôn mặt mỗi người. Phần dự đoán giới tính này có thể coi là thuật toán Regression.

- Học không giám sát (Unsupervised Learning)

Đối với thuật toán này, chúng ta không biết được outcome hay nhãn mà chỉ có duy nhất dữ liệu đầu vào. Các thuật toán Unsupervised Learning sẽ dựa vào cấu trúc của dữ liệu để thực hiện các công việc đó. 

Ví dụ như khi phân loại nhóm hay giảm số chiều của dữ liệu sao cho thuận tiện khi lưu trữ và tính toán dữ liệu.

- Phân nhóm (Clustering)

Các bài toán được phân nhóm toàn bộ dữ liệu X thành nhiều nhóm nhỏ có sự liên quan giữa các dữ liệu trong nhóm.

Ví dụ: Phân nhóm khách hàng dựa trên các hành vi mua hàng của họ. Tương tự như việc chúng ta đưa cho đứa trẻ nhiều mảnh ghép với nhiều hình thù và màu sắc khác nhau. Ví dụ như các tam giác, vuông, tròn cùng màu xanh, đỏ…Mặc dù không cho trẻ biết mảnh ghép nào ứng với hình nào. Nhưng nhiều khả năng trẻ vẫn có thể tự phân loại được các mảnh ghép theo màu hay hình dạng nào.

- Association

Đây là dạng bài toán khi mà chúng ta muốn khám phá ra một quy luật dựa trên những dữ liệu cho trước.

Phân nhóm thuật toán Machine Learning

Ví dụ: Các khách hàng nam khi mua quần áo thường có xu hướng mua thêm nhiều đồng hồ hay thắt lưng. Nhiều khán giả khi xem phim thường có xu hướng xem thêm nhiều bộ phim khác cùng thể loại khác nhau, điều này là thúc đẩy nhu cầu mua sắm…

-  Học bán giám sát (Semi – Supervised Learning)

Khi ta có một dữ liệu lớn X nhưng chỉ có một phần nhỏ được gán nhãn thì được gọi là Semi – Supervised Learning.

Ví dụ: Điển hình của nhóm này chỉ có một phần hình ảnh và văn bản được gán nhãn. Và hầu hết, các bức ảnh văn bản chưa được dán nhãn được thu thập từ internet.

- Học củng cố (Reinforcement Learning)

Reinforcement Learning là bài toán giúp hệ thống tự động xác định hành vi khách hàng dựa trên hoàn cảnh để đạt được những lợi ích cao nhất.

Thời điểm hiện tại, Reinforcement Learning chủ yếu được áp dụng vào các lý thuyết game. Các thuật toán này cần xác định nước các nước đi tiếp để đạt được điểm số cao nhất.

- Dựa trên chức năng để phân nhóm

Cách thứ hai để phân nhóm đó chính là dựa trên chức năng của thuật toán. Bạn đọc sẽ được tìm hiểu kỹ hơn ở những phần tiếp theo.

Thông tin liên hệ:

  1. Địa chỉ: 220/1 Nguyễn Trọng Tuyển, phường 8, quận Phú Nhuận, thành phố Hồ Chí Minh, Việt nam
  2. Tel: (0084) 2839977249  -  Fax: (0084) 2839977348
  3. Di động:
    (0084) 903323053 – Mrs. Châu
  4. Email: info@engma.com.vn
  5. www.engma.com.vn
Aide entreprise