什么是多模态?
多模态(Multimodal)是指 AI 能同时理解和生成多种形式的信息——文字、图片、语音、视频,而不只是文字。
用生活例子理解
- 拍一张冰箱里食材的照片,问 AI"能做什么菜"——它在看图
- 开车时直接跟 AI 语音对话——它在听和说
- 上传一段网课视频让它总结要点——它在看视频
- 输入一句话让它生成一张海报、一段短视频——它在生成图像/视频
为什么重要?
人类接收信息本来就不只靠文字。多模态让 AI 从"会聊天的笔友"变成"长了眼睛和耳朵的助手",使用场景一下子扩大了:看病历单、改作业、识别植物、辅导题目、做设计初稿。
代表产品
GPT-4o、Claude、Gemini 都支持图文混合输入;国内豆包、通义千问也都有看图能力;生成方向有即梦、Midjourney(图)、Sora、可灵(视频)。
常见误解
- "多模态 = 能生成图片"——生成只是一半,"看懂"你给的图片同样是多模态。
- "语音助手都是多模态大模型"——老式语音助手只是"语音转文字+规则匹配",和大模型的理解能力不是一回事。