Bỏ qua, đến nội dung
Skuto

Thuật ngữ

Đa phương thức (multimodal)

AI đa phương thức hiểu và tạo ra nhiều hơn chữ viết: nó xem ảnh, đọc tài liệu, nghe, nói và thường tạo được hình ảnh. Các trợ lý lớn (ChatGPT, Claude, Gemini) ngày nay đều đa phương thức.

“Phương thức” chỉ là cách nói học thuật cho “loại dữ liệu đầu vào”: chữ, ảnh, âm thanh, video. Một mô hình đa phương thức xử lý được nhiều loại cùng lúc, và điều đó đã thay đổi cách chúng ta dùng AI hằng ngày. Bàn phím không còn là cánh cửa duy nhất nữa.

Cụ thể là: chụp màn hình báo lỗi của bình nóng lạnh rồi hỏi “E04 nghĩa là gì, tôi tự sửa được không?”. Chụp một công thức nấu ăn viết tay của bà rồi nhờ gõ lại sạch sẽ và chia đôi cho hai người ăn. Hướng camera vào một tờ khai bằng tiếng nước ngoài. Tải lên một file PDF 30 trang và hỏi điều khoản hủy nằm ở đâu. Mỗi việc đó là tính đa phương thức đang làm thay bạn phần gõ phím mà bạn sẽ chẳng bao giờ muốn ngồi gõ.

Một lưu ý giúp bạn đỡ thất vọng: khả năng nhìn của AI tốt nhưng chưa hoàn hảo. Mô hình đọc nhầm chữ nhỏ, chữ viết tay và bảng số liệu phức tạp nhiều hơn so với chữ in rõ ràng. Vì vậy với những con số quan trọng, hãy đối chiếu lại với bản gốc.

Bạn gặp thuật ngữ này ở đâu

  • Biểu tượng kẹp giấy hoặc hình ảnh trong ChatGPT, Claude và Gemini.
  • Ô nhập bằng camera trên ứng dụng di động của các trợ lý này.
  • Chế độ giọng nóitạo ảnh bằng AI cũng là một phần của tính đa phương thức.
  • Mỗi ứng dụng có khả năng khác nhau, nên công cụ chọn AI của chúng tôi sẽ ghép đúng cái bạn thực sự cần.

Bắt tay vào dùng

← Quay lại trang thuật ngữ