DỮ LIỆU LÀ GÌ

Có thể bạn đã nghe qua từ Dữ liệu trong cuộc sống hàng ngày. Vậy dữ liệu là gì? Có các loại dữ liệu nào? Và dữ liệu AI là gì?

Dữ liệu là gì?

Dữ liệu tiếng Anh là data, là các dữ kiện, số liệu thống kê hoặc các mục thông tin riêng lẻ, thường là số.

Bạn đang xem: Dữ liệu là gì

Theo nghĩa kỹ thuật hơn, dữ liệu là tập hợp các giá trị của các biến định tính hoặc định lượng về một hoặc nhiều người hoặc đối tượng.

Ví dụ như thông tin về họ tên, ngày tháng năm sinh của một người cụ thể nào đó. Trong trường hợp này, có thể xem đây là dữ liệu cá nhân bởi vì nó liên quan đến những thông tin cá nhân.

Có các loại dữ liệu nào?

Dữ liệu đến từ ba nguồn chính là: âm thanh (sound), hình ảnh (image), và dữ liệu dạng chữ (text data).

*
Có thể nói dữ liệu đến từ ba nguồn chính là: âm thanh, hình ảnh, và dữ liệu dạng chữ. (Ảnh: sử dụng các ảnh từ chụp màn hình và miền công cộng).

Dữ liệu Âm thanh

Dữ liệu âm thanh có thể là các đoạn ghi âm, các đoạn hội thoại, các file âm thanh, … tất cả những thông tin lưu dưới dạng âm thanh đều có thể được xem là dữ liệu âm thanh.

Dữ liệu Hình ảnh

Dữ liệu hình ảnh là những dữ liệu liên quan đến hình ảnh. Từ một hình ảnh cụ thể, chúng ta có thể biết được các thông tin. Ví dụ, từ hình ảnh chụp chứng minh nhân dân của một người, chúng ta có thể biết được tên, ngày tháng năm sinh, quê quán, …

Dữ liệu dạng chữ

Dữ liệu dạng chữ là tất cả dữ liệu liên quan đến văn bản. Ví dụ như các tin tức trên báo, các nghiên cứu khoa học, sách, các thông báo từ chính phủ, …

Có một số dữ liệu là tổng hợp từ nhiều nguồn; ví dụ như các video trên Youtube bao gồm cả dữ liệu âm thanh và dữ liệu hình ảnh.

Trong một số trường hợp, trong ảnh có chữ, như vậy dữ liệu hình ảnh có thể có chứa dữ liệu dạng chữ.

Dữ liệu có cấu trúc và dữ liệu không có cấu trúc 

Khi làm việc với máy tính, có một cách phân biệt các loại dữ liệu dựa vào cấu trúc của dữ liệu.

Có 3 loại như sau: dữ liệu có cấu trúc (structured data), dữ liệu không có cấu trúc (unstructured data), và dữ liệu bán cấu trúc (semi-structured data).

Ví dụ về dữ liệu có cấu trúc là các bảng dữ liệu SQL hay các Knowledge Base của Google (tạm dịch: cơ sở tri thức).

Ví dụ về dữ liệu không có cấu trúc: ví dụ như các file word, pdf, các văn bản, … Trong khi đó, dữ liệu bán cấu trúc có thể thấy ở các file XML hay HTML.

Quý độc giả muốn tìm hiểu kỹ hơn về những loại dữ liệu này có thể xem ở đây. Difference between Structured, Semi-structured and Unstructured data (tạm dịch: Sự khác biệt giữa dữ liệu có cấu trúc, bán cấu trúc và dữ liệu không có cấu trúc)

*
Ví dụ về dữ liệu bán cấu trúc, XML data. (Ảnh chụp màn hình từ hình ảnh từ Wikimedia)

Dữ liệu AI là gì?

AI là từ viết tắt của Artificial Intelligence, có nghĩa là trí tuệ nhân tạo. Như vậy, dữ liệu AI là dữ liệu được sử dụng trong ngành trí tuệ nhân tạo.

Xem thêm: Hướng Dẫn Cách Đo Huyết Áp Điện Tử, Cách Sử Dụng Máy Đo Huyết Áp Điện Tử

Các mô hình trong trí tuệ nhân tạo có thể áp dụng với cả 3 loại dữ liệu: hình ảnh, âm thành và dữ liệu dạng chữ.

Tuỳ vào bài toán và vấn đề, mà dữ liệu được sử dụng có thể lưu trữ ở dạng có cấu trúc hay không có cấu trúc.

Một ví dụ nổi tiếng về dữ liệu cho AI là ImageNet. Dữ liệu này được dùng cho bài toán phân loại hình ảnh. Dữ liệu bao gồm 1,2 triệu hình ảnh được phân thành 1000 loại.

Một ví dụ khác là Amazon product data, bộ dữ liệu này chứa các bài đánh giá và siêu dữ liệu (metadata) về sản phẩm từ Amazon, bao gồm 142,8 triệu bài đánh giá từ 5/1996 đến 7/2014.

*
Các ví dụ vui về bài toán phân lớp hình ảnh. Hình bên trái phân loại: Chó Chihuahua và bánh nướng xốp. Hình bên phải phân loại: chó Labradoodle và gà rán. (Ảnh: Ảnh chụp màn hình từ nghiên cứu: Deep Learning Approach for Very Similar Objects Recognition Application on Chihuahua and Muffin Problem. Tác giả chính: Enkhtogtokh Togootogtokh, Arxiv).

Các thuật ngữ tiếng Anh liên quan đến dữ liệu

Big data: dữ liệu lớn là một thuật ngữ cho việc xử lý một tập hợp dữ liệu rất lớn và phức tạp mà các ứng dụng xử lý dữ liệu truyền thống không xử lý được.

Data analytics:

Tiếng Việt là phân tích dữ liệu; phân tích dữ liệu là việc chúng ta tìm cách để phân tích dữ liệu có sẵn. Chúng ta có thể sử dụng các công cụ phần mềm có sẵn hoặc viết các chương trình phần mềm để làm việc này.

Ví dụ như, trên Youtube, có rất nhiều bình luận của người xem. Việc đọc hết tất cả các bình luận có thể tốn khá nhiều thời gian. Chúng ta có thể viết các phần mềm để tự động phân tích xem người dùng có thích video đó hay không.

Raw data: dữ liệu thô (đôi khi được gọi là dữ liệu nguồn (source data), dữ liệu nguyên tử hoặc dữ liệu chính) là dữ liệu chưa được xử lý. Đôi khi có sự phân biệt giữa dữ liệu và thông tin; thông tin là sản phẩm cuối cùng của quá trình xử lý dữ liệu.

Metadata: siêu dữ liệu là dạng dữ liệu mô tả thông tin chi tiết về dữ liệu. Trong cơ sở dữ liệu, metadata là các sửa đổi dạng biểu diễn khác nhau của các đối tượng trong cơ sở dữ liệu.

Data mining: tiếng Việt là khai thác dữ liệu; đây là quá trình người dùng tìm cách khai thác các thông tin từ dữ liệu có sẵn.

Data warehouse:

Tiếng Việt là kho dữ liệu; là kho lưu trữ dữ liệu của một tổ chức nào đó. Các kho dữ liệu được thiết kế để hỗ trợ việc phân tích dữ liệu và lập báo cáo.

*
Hình ảnh mô tả thiết kế của Data warehouse. (Ảnh: miền công cộng)

Nguồn tham khảo:

Data - Wikipedia tiếng Anh Dữ liệu lớn - Wikipedia tiếng Việt Siêu dữ liệu - Wikipedia tiếng Việt Difference between Structured, Semi-structured and Unstructured data - Geeksforgeeks.org