Học máy – Wikipedia tiếng Việt - The first knowledge sharing application in Vietnam

Học máy (tiếng Anh: machine learning) là một lĩnh vực của trí tuệ nhân tạo liên quan đến việc nghiên cứu và xây dựng các kĩ thuật cho phép các hệ thống “học” tự động từ dữ liệu để giải quyết những vấn đề cụ thể. Ví dụ như các máy có thể “học” cách phân loại thư điện tử xem có phải thư rác (spam) hay không và tự động xếp thư vào thư mục tương ứng. Học máy rất gần với suy diễn thống kê (statistical inference) tuy có khác nhau về thuật ngữ.

Học máy có liên quan lớn đến thống kê, vì cả hai nghành đều nghiên cứu và điều tra việc nghiên cứu và phân tích tài liệu, nhưng khác với thống kê, học máy tập trung chuyên sâu vào sự phức tạp của những giải thuật trong việc thực thi đo lường và thống kê. Nhiều bài toán suy luận được xếp vào loại bài toán NP-khó, do đó một phần của học máy là nghiên cứu và điều tra sự tăng trưởng những giải thuật suy luận xê dịch mà hoàn toàn có thể giải quyết và xử lý được .

Học máy có hiện nay được áp dụng rộng rãi bao gồm máy truy tìm dữ liệu, chẩn đoán y khoa, phát hiện thẻ tín dụng giả, phân tích thị trường chứng khoán, phân loại các chuỗi DNA, nhận dạng tiếng nói và chữ viết, dịch tự động, chơi trò chơi và cử động rô-bốt (robot locomotion).

Dưới góc nhìn của trí tuệ nhân tạo, động lực chính học máy bởi là nhu cầu thu nhận tri thức (knowledge acquisition). Thật vậy, trong nhiều trường hợp ta cần kiến thức chuyên gia là khan hiếm (không đủ chuyên gia ngồi phân loại lừa đảo thẻ tín dụng của tất cả giao dịch hàng ngày) hoặc chậm vì một số nhiệm vụ cần đưa ra quyết định nhanh chóng dựa trên xử lý dữ liệu khổng lồ (trong mua bán chứng khoán phải quyết định trong vài khoảng khắc của giây chẳng hạn) và thiếu ổn định thì buộc phải cần đến máy tính. Ngoài ra, đại đa số dữ liệu sinh ra ngày nay chỉ phù hợp cho máy đọc (computer readable) tiềm tàng ngưồn kiến thức quan trọng. Máy học nghiên cứu cách thức để mô hình hóa bài toán cho phép máy tính tự động hiểu, xử lý và học từ dữ liệu để thực thi nhiệm vụ được giao cũng như cách đánh giá giúp tăng tính hiệu quả.

Bạn đang đọc: Học máy – Wikipedia tiếng Việt

Tom Mitchell, giáo sư nổi tiếng của Đại học Carnegie Mellon University – CMU định nghĩa đơn cử và chuẩn mực hơn như sau : ” Một chương trình máy tính CT được xem là học cách thực thi một lớp trách nhiệm NV trải qua thưởng thức KN, so với thang đo năng lượng NL nếu như dùng NL ta đo thấy năng lượng thực thi của chương trình có văn minh sau khi trải qua KN ” ( máy đã học ). [ 1 ]
Biểu diễn ( tiếng Anh : representation ) là một trong những yếu tố quan trọng của học máy. Biểu diễn ở đây hoàn toàn có thể hiểu làm thế nào ghi mã ( encode ) những thông tin của quốc tế thật giúp triển khai xong trách nhiệm một cách hiệu suất cao và rất đầy đủ nhất hoàn toàn có thể. tin tức ở đây bao hàm cả thông tin về tài liệu nguồn vào, đầu ra hay những trạng thái của mạng lưới hệ thống ; cũng như cách nhìn nhận hiệu suất cao của chương trình .

Thông thường, trong học máy người ta hay xây dựng các mô hình sử dụng những biến ngẫu nhiên cho việc biểu diễn dữ liệu và nội trạng thái của hệ thống. Ví dụ: dùng biến ngẫu nhiên để biểu thị cho tính chất của email là spam (tương ứng giá trị 0) hay là bình thường (tương ứng 1). Mối tương quan giữa các biến ngẫu nhiên này có thể sử dụng ví dụ như mô hình xác suất dạng đồ thị để miêu tả. Mặt khác, để đo hiệu quả có thể dùng các hàm thiệt hại (hay hàm tiện ích, trong tiếng Anh là loss function và utility function tương ứng).

Mục lục bài viết

Tính phổ quát[sửa|sửa mã nguồn]

Một trong những trọng tâm khác của học máy là đạt được tính phổ quát ( tiếng Anh : generalization ), nói cách khác là đặc thù của chương trình hoàn toàn có thể làm việc tốt với tài liệu mà nó chưa gặp khi nào ( tiếng Anh : unseen data ). Một chương trình chỉ hiệu suất cao với tài liệu đã gặp nhìn chung không có nhiều tính hữu dụng .

Lấy ví dụ về xếp thư điện tử tự động như trên, một hệ thống tự động sau khi trải qua quá trình học từ dữ liệu (“training”) có thể suy diễn một số nguyên tắc riêng (chẳng hạn như xem xét nội dung: nếu thư được viết bằng tiếng Anh mà chứa một số từ như “porn”, “sell”, “good product” hoặc người gửi đến từ Somalia trong khi người nhận ở Hà Nội không thân quen nhau) để quyết định xem có phải là thư rác hay không. Tuy nhiên, nếu như trong dữ liệu bài giảng (training data) có ngôn ngữ khác trong thực tế (tiếng Việt thay vì tiếng Anh) hoặc thậm chí không phải dạng thuần văn bản (dạng ảnh khiến cho bóc tách nội dung khó hơn hoặc không thể) thì rất có thể máy sẽ dự báo không chính xác nữa.

Một số chương trình có thể tự động cập nhật trong thời gian thực (ví dụ như người sử dụng có chỉ ra rằng thư bị sắp xếp sai danh mục).

Xem thêm: Bộ đề thi vào lớp 6 môn Toán năm 2021

Tương tác với con người[sửa|sửa mã nguồn]

Một số mạng lưới hệ thống học máy nỗ lực vô hiệu nhu yếu trực giác của con người trong việc nghiên cứu và phân tích tài liệu, trong khi những mạng lưới hệ thống khác hướng đến việc tăng sự cộng tác giữa người và máy. Không thể vô hiệu trọn vẹn tác động ảnh hưởng của con người vì những nhà phong cách thiết kế mạng lưới hệ thống phải chỉ định cách màn biểu diễn của tài liệu và những chính sách nào sẽ được dùng để tìm kiếm những đặc tính của tài liệu. Học máy hoàn toàn có thể được xem là một nỗ lực để tự động hóa 1 số ít phần của giải pháp khoa học. Một số nhà nghiên cứu và điều tra học máy tạo ra những giải pháp bên trong những khuôn khổ của thống kê Bayes .

Tương quan với Khai phá tài liệu[sửa|sửa mã nguồn]

Khai phá tài liệu và học máy là hai khái niệm hay bị nhầm lẫn. Hai nghành nghề dịch vụ này nhìn chung gần với nhau và nhiều lúc dùng chung nhiều chiêu thức, công cụ nhưng độc lạ chính là ở tiềm năng :

Khai phá dữ liệu: thường mục tiêu là tìm kiếm những thông tin, tri thức hoàn toàn mới tiềm năng có ích trong nguồn dữ liệu.
Học máy: dự đoán một số thông tin của dữ liệu dựa trên những đặc tính đã biết.

Các loại giải thuật[sửa|sửa mã nguồn]

Các thuật toán học máy được phân loại theo hiệu quả mong ước của thuật toán. Các loại thuật toán thường dùng gồm có :

Học có giám sát—trong đó, thuật toán tạo ra một hàm ánh xạ dữ liệu vào tới kết quả mong muốn. Một phát biểu chuẩn về một việc học có giám sát là bài toán phân loại: chương trình cần học (cách xấp xỉ biểu hiện của) một hàm ánh xạ một vector $[X_{1},X_{2},\ldots X_{N}]$
Học không giám sát—mô hình hóa một tập dữ liệu, không có sẵn các ví dụ đã được gắn nhãn.
Học nửa giám sát—kết hợp các ví dụ có gắn nhãn và không gắn nhãn để sinh một hàm hoặc một bộ phân loại thích hợp.
Học tăng cường—trong đó, thuật toán học một chính sách hành động tùy theo các quan sát về thế giới. Mỗi hành động đều có tác động tới môi trường, và môi trường cung cấp thông tin phản hồi để hướng dẫn cho thuật toán của quá trình học.
Chuyển đổi—tương tự học có giám sát nhưng không xây dựng hàm một cách rõ ràng. Thay vì thế, cố gắng đoán kết quả mới dựa vào các dữ liệu huấn luyện, kết quả huấn luyện, và dữ liệu thử nghiệm có sẵn trong quá trình huấn luyện.
Học cách học—trong đó thuật toán học thiên kiến quy nạp của chính mình, dựa theo các kinh nghiệm đã gặp.