Thuật ngữ

Dữ liệu huấn luyện

Dữ liệu huấn luyện là kho văn bản, hình ảnh và mã khổng lồ mà mô hình AI học từ đó. Với vài chatbot, những gì bạn gõ có thể thành dữ liệu huấn luyện cho mô hình sau, trừ khi bạn tắt nó trong phần cài đặt quyền riêng tư.

Bản thân một mô hình AI không tự biết gì cả. Nó học cách viết và trả lời nhờ tiêu hóa lượng văn bản khổng lồ: sách, trang web, mã nguồn. Toàn bộ kho đó chính là dữ liệu huấn luyện. Điều quan trọng với bạn là: một số nhà cung cấp còn dùng chính các cuộc trò chuyện của bạn để huấn luyện mô hình tương lai, tùy theo gói và phần cài đặt của bạn.

Hãy hình dung chủ một quán cà phê dán email của nhà cung cấp vào chatbot để nhờ soạn câu trả lời. Nếu tùy chọn “cải thiện mô hình” đang bật, email đó, kèm theo tên và giá cả, có thể bị đưa vào quá trình huấn luyện. Nó sẽ không hiện ra nguyên văn cho người khác, nhưng coi như đã ra khỏi tầm tay bạn.

Ở Việt Nam, dữ liệu cá nhân được bảo vệ theo Nghị định 13/2023/NĐ-CP và Luật Bảo vệ dữ liệu cá nhân (có hiệu lực năm 2026), với Bộ Công an (A05) là cơ quan đầu mối. Vì vậy việc bạn để chatbot dùng nội dung của mình hay không là một lựa chọn nên cân nhắc.

Cách xử lý thường chỉ là một công tắc, và rất đáng kiểm tra trước khi bạn dán bất cứ thứ gì nhạy cảm. Công cụ kiểm tra trước khi dán của chúng tôi cho bạn thấy từng chatbot lớn xử lý nội dung bạn gõ ra sao, theo từng gói.

Bạn gặp thuật ngữ này ở đâu

ChatGPT → Settings → Data Controls → “Improve the model for everyone”
Claude → Settings → Privacy, nơi đặt tùy chọn về huấn luyện
Gemini → trang Gemini Apps Activity trong tài khoản Google của bạn

Xem thêm từ chối tham gia (opt-out) và LLM.

Bắt tay vào dùng

← Quay lại trang thuật ngữ

Bạn gặp thuật ngữ này ở đâu

Thuật ngữ liên quan

Bắt tay vào dùng