Glossario

Multimodale

Un'AI multimodale capisce e produce più del testo: guarda foto, legge documenti, ascolta, parla e spesso genera immagini. Tutti i grandi assistenti, da ChatGPT a Claude a Gemini, oggi sono multimodali.

“Modale” è solo il modo accademico di dire “tipo di input”: testo, immagini, audio, video. Un modello multimodale ne gestisce diversi, e questo ha cambiato l’uso quotidiano dell’AI: la tastiera non è più l’unica porta d’ingresso.

In concreto: fotografa il display della caldaia in errore e chiedi “cosa significa E04, posso sistemarlo da solo?”. Fotografa la ricetta scritta a mano della nonna e fattela trascrivere e dimezzare per due persone. Inquadra un modulo in tedesco in vacanza. Carica un PDF di 30 pagine e chiedi dov’è la clausola di recesso. Ognuna di queste cose è la multimodalità che ti risparmia trascrizioni che non avresti mai fatto.

Un’avvertenza che evita delusioni: la visione è buona, non perfetta. I modelli sbagliano più spesso su caratteri piccoli, scrittura a mano e tabelle complesse che su testo pulito: per i numeri che contano, ricontrolla sull’originale.

Dove lo incontrerai

L’icona graffetta/foto in ChatGPT, Claude e Gemini; la fotocamera nelle loro app mobili; anche la modalità vocale e la generazione di immagini sono multimodalità. Le capacità variano da app ad app, e il nostro quiz quale AI le abbina a ciò che ti serve davvero.

Mettilo in pratica

Gratis AI per Principianti Nuovo dell'AI e non sai da dove partire? Rispondi a qualche domanda semplice e ti indichiamo l'unico assistente adatto a ciò che vuoi fare — onesto, con fonti, senza esagerazioni. Parti da qui.

← Torna al glossario

Dove lo incontrerai

Termini correlati

Mettilo in pratica