Bỏ qua, đến nội dung
Skuto

Thuật ngữ

Dữ liệu tổng hợp

Dữ liệu tổng hợp là dữ liệu được tạo ra một cách nhân tạo để bắt chước đặc điểm của dữ liệu thật mà không chứa thông tin của người thật. Nó dùng để huấn luyện và kiểm thử AI khi dữ liệu thật khan hiếm, nhạy cảm hoặc khó dùng về mặt pháp lý.

Đôi khi bạn cần dữ liệu hành xử giống thật mà không phải là dữ liệu thật. Dữ liệu tổng hợp được tạo ra, thường bởi một mô hình AI, để sao chép hình dạng thống kê của một tập dữ liệu thật: cả một bệnh viện giả với độ tuổi và chẩn đoán trông như thật, nhưng không có bệnh nhân thật nào. Vì không có người thật nào trong đó, nó tránh được nhiều ràng buộc về quyền riêng tư đi kèm với dữ liệu cá nhân, thứ mà Nghị định 13/2023/NĐ-CP bảo vệ chặt chẽ. Đó là lý do dữ liệu tổng hợp phổ biến trong việc huấn luyện và kiểm thử AI ở lĩnh vực y tế, ngân hàng và phát triển phần mềm. Nó cũng quan trọng vì các LLM đã đọc gần hết internet công khai rồi, và dữ liệu tổng hợp là một cách để tiếp tục cho chúng “ăn”.

Còn có phiên bản đời thường của mẹo này nữa. Một chủ quán cà phê muốn được giúp thiết kế bảng tính thẻ tích điểm nhưng không muốn dán khách hàng thật vào chatbot. Bạn ấy nhờ AI bịa ra hai mươi khách hàng nghe có vẻ hợp lý rồi xây công thức trên những khách đó. Vẫn được giúp như thường, mà lộ ra số không: một người anh em thân thiện của ẩn danh hóa dữ liệu.

Đáng lưu ý: dữ liệu tổng hợp chỉ khách quan đúng bằng dữ liệu thật mà nó bắt chước, và những tập được tạo cẩu thả vẫn có thể để lộ dấu vết của bản gốc. Khi bạn cân nhắc dữ liệu thật nào có thể dán vào thay thế, công cụ kiểm tra bảo mật là lối đi nhanh hơn.

Bạn gặp thuật ngữ này ở đâu

  • Tài liệu mô hình của các nhà cung cấp AI khi mô tả nguồn dữ liệu huấn luyện
  • Công cụ cho lập trình viên cung cấp dữ liệu kiểm thử tổng hợp cho ứng dụng và cơ sở dữ liệu
  • Các thảo luận nghiên cứu và chính sách về việc huấn luyện mô hình sau khi đã “cạn” văn bản trên web

Bắt tay vào dùng

← Quay lại trang thuật ngữ