Glossario
Multimodale
Un'AI multimodale capisce e produce più del testo: guarda foto, legge documenti, ascolta, parla e spesso genera immagini. Tutti i grandi assistenti, da ChatGPT a Claude a Gemini, oggi sono multimodali.
“Modale” è solo il modo accademico di dire “tipo di input”: testo, immagini, audio, video. Un modello multimodale ne gestisce diversi, e questo ha cambiato l’uso quotidiano dell’AI: la tastiera non è più l’unica porta d’ingresso.
In concreto: fotografa il display della caldaia in errore e chiedi “cosa significa E04, posso sistemarlo da solo?”. Fotografa la ricetta scritta a mano della nonna e fattela trascrivere e dimezzare per due persone. Inquadra un modulo in tedesco in vacanza. Carica un PDF di 30 pagine e chiedi dov’è la clausola di recesso. Ognuna di queste cose è la multimodalità che ti risparmia trascrizioni che non avresti mai fatto.
Un’avvertenza che evita delusioni: la visione è buona, non perfetta. I modelli sbagliano più spesso su caratteri piccoli, scrittura a mano e tabelle complesse che su testo pulito: per i numeri che contano, ricontrolla sull’originale.
Dove lo incontrerai
L’icona graffetta/foto in ChatGPT, Claude e Gemini; la fotocamera nelle loro app mobili; anche la modalità vocale e la generazione di immagini sono multimodalità. Le capacità variano da app ad app, e il nostro quiz quale AI le abbina a ciò che ti serve davvero.