AI 入门指北AI · 说人话

什么是多模态？

多模态（Multimodal）是指 AI 能同时理解和生成多种形式的信息——文字、图片、语音、视频，而不只是文字。

用生活例子理解

拍一张冰箱里食材的照片，问 AI"能做什么菜"——它在看图
开车时直接跟 AI 语音对话——它在听和说
上传一段网课视频让它总结要点——它在看视频
输入一句话让它生成一张海报、一段短视频——它在生成图像/视频

为什么重要？

人类接收信息本来就不只靠文字。多模态让 AI 从"会聊天的笔友"变成"长了眼睛和耳朵的助手"，使用场景一下子扩大了：看病历单、改作业、识别植物、辅导题目、做设计初稿。

代表产品

GPT-4o、Claude、Gemini 都支持图文混合输入；国内豆包、通义千问也都有看图能力；生成方向有即梦、Midjourney（图）、Sora、可灵（视频）。

常见误解

"多模态 = 能生成图片"——生成只是一半，"看懂"你给的图片同样是多模态。
"语音助手都是多模态大模型"——老式语音助手只是"语音转文字+规则匹配"，和大模型的理解能力不是一回事。

相关名词

什么是大模型？ · 什么是 AIGC？

继续看看

什么是 RAG（检索增强生成）？什么是模型微调？什么是 MCP（模型上下文协议）？什么是大模型？什么是 AIGC？什么是 token？