AI 入门指北

什么是多模态?

多模态(Multimodal)是指 AI 能同时理解和生成多种形式的信息——文字、图片、语音、视频,而不只是文字。

用生活例子理解

  • 拍一张冰箱里食材的照片,问 AI"能做什么菜"——它在看图
  • 开车时直接跟 AI 语音对话——它在听和说
  • 上传一段网课视频让它总结要点——它在看视频
  • 输入一句话让它生成一张海报、一段短视频——它在生成图像/视频

为什么重要?

人类接收信息本来就不只靠文字。多模态让 AI 从"会聊天的笔友"变成"长了眼睛和耳朵的助手",使用场景一下子扩大了:看病历单、改作业、识别植物、辅导题目、做设计初稿。

代表产品

GPT-4o、Claude、Gemini 都支持图文混合输入;国内豆包、通义千问也都有看图能力;生成方向有即梦、Midjourney(图)、Sora、可灵(视频)。

常见误解

  • "多模态 = 能生成图片"——生成只是一半,"看懂"你给的图片同样是多模态。
  • "语音助手都是多模态大模型"——老式语音助手只是"语音转文字+规则匹配",和大模型的理解能力不是一回事。

相关名词

什么是大模型? · 什么是 AIGC?