Artificial Intelligent là một trong những xu hướng phát triển cực mạnh mẽ trong thời gian gần đây sau thời kỳ đóng băng từ năm 1980 – 2000. Một trong những lý do cho sự đóng băng dài kỳ của AI đó là thiếu đi độ mạnh của bộ vi xử lý, khả năng lưu trữ của các máy tính… và thiếu data. Trong đó data hay còn gọi là dữ liệu là yếu tố rất quan trọng, đóng vai trò cốt lõi cho AI.
Mỗi chương trình Deep learning, nhất là các chương trình thiên về phân loại, dự đoán đều cần dữ liệu lớn như Big Data. Việc thu thập dữ liệu ở các thế kỷ trước rất vất vả vì internet, máy tính, công nghệ chưa phổ biến toàn cầu, mặc dù các chương trình học máy đầu tiên đã ra đời từ những năm 1945. Ngày nay nhờ có Google, Facebook, Youtube … số lượng cực lớn data được upload lên mỗi ngày khiến cho việc thu thập dữ liệu trở nên dễ dàng hơn. Khả năng lưu trữ của các máy tính thông qua bộ nhớ cũng đã tăng cực nhanh từ 5MB từ những năm 1950 tới Terabyte, Petabyte, Exabytes ngày nay. Nhờ khả năng lưu trữ và độ đa dạng của dữ liệu khiến cho AI phát triển và ứng dụng nhiều hơn trong các mảng: y tế, giáo dục, giao thông, kinh tế…
Theo ông Arvind Krishna, giám đốc điều hành IBM, cho rằng 80% công việc trong dự án AI là thu thập, làm sạch và chuẩn bị dữ liệu. Dữ liệu mẫu chuẩn hay chưa đạt, số lượng ít hay nhiều cũng ảnh hưởng lớn đến độ chính xác của các chương trình AI. Nếu quá ít dữ liệu thì mô hình học máy được tạo ra sẽ không có nhiều trường hợp để học tập và đưa vào model. Điều đó sẽ dẫn tới tỷ lệ dự đoán sai tăng cao nếu dữ liệu test khác biệt nhiều so với dữ liệu train. Dữ liệu train nên đa dạng, nhiều bối cảnh, có cả nhiễu nhẹ để các chương trình AI học được hiệu quả hơn.
Dựa vào mục đích, các loại AI mà dữ liệu được thu thập vào thường được chia làm nhiều dạng:
- Dữ liệu văn bản: đó là các thông tin có thể lưu trữ trong các file như doc, excel, tài liệu viết tay, email, định vị GPS…. Nhờ đó có thể tạo ra các chương trình dự báo thời tiết, dự báo xu hướng kinh tế, hoặc chặn spam email…
- Dữ liệu âm thanh: đó là các file video, audio, ghi âm… từ đó có thể xây dựng chương trình dịch thuật tự động, thiết kế trợ lý ảo…
- Dữ liệu hình ảnh: rất phổ biến và ưa chuộng trong các chương trình dự đoán, nhận diện khuôn mặt, thị giác máy tính…
Tóm lại bên cạnh thuật toán, dữ liệu cũng đóng vai trò rất quan trọng với sự phát triển của AI. Nếu không có dữ liệu, AI sẽ không được huấn luyện, không phát triển và thay thế con người được.
Giảng viên Trần Thị Bảo Hạnh
Bộ môn Công nghệ thông tin
FPT Polytechnic Đà Nẵng