AI 入门指北

AI 名词百科

看资讯被名词卡住了?每个词条 3 分钟,从此不再似懂非懂。

什么是 RAG(检索增强生成)?

RAG 是让 AI 先去查资料再回答的技术,解决大模型知识过时、容易乱编的问题。

什么是模型微调?

微调是用自己的专业数据继续训练通用大模型,让它变成某个行业的专家。

什么是 MCP(模型上下文协议)?

MCP 是让 AI 连接外部工具和数据的通用接口标准,就像给 AI 装上可以随意更换的插件手臂。

什么是大模型?

大模型是用海量文字训练出来的 AI 程序,能听懂人话、写文章、回答问题,ChatGPT、豆包背后都是它。

什么是 AIGC?

AIGC 指由 AI 生成的内容,包括文章、图片、视频、音乐——AI 从读懂内容进化为创造内容。

什么是 token?

token 是大模型处理文字的最小单位,AI 按 token 计费,理解它就理解了 AI 的'计价单位'。

什么是机器学习?

机器学习是让计算机从数据中自动总结规律的技术,是 AI 的核心基础,大模型也是它的一种。

什么是提示词(Prompt)?

提示词就是你发给 AI 的指令。同一个 AI,提示词写得好坏,得到的结果天差地别。

什么是深度学习?

深度学习是用多层神经网络处理复杂数据的机器学习方法,是今天 AI 爆发的直接推手。

什么是 AI 幻觉?

AI 幻觉指大模型一本正经地编造错误信息。它不是 bug 而是原理决定的,学会核查是用 AI 的必修课。

什么是神经网络?

神经网络是模仿大脑神经元连接方式设计的数学模型,是深度学习和大模型的底层基础。

什么是 AI Agent(智能体)?

Agent 是会自己拆解任务、调用工具、连续干活的 AI,从'问一句答一句'升级成'交代一件事它办完'。

什么是模型参数量(7B、70B 是什么意思)?

参数量是衡量 AI 模型大小的指标,7B 表示 70 亿个参数,参数越多模型通常越强但越耗算力。

什么是多模态?

多模态指 AI 不仅能处理文字,还能看图、听声音、看视频。拍照问 AI'这是什么'就是多模态。

什么是训练和推理?

训练是让 AI 从数据中学习的过程,推理是训练好的 AI 实际回答问题的过程,两者成本和场景完全不同。

什么是开源模型?

开源模型是公开下载、可自己部署的大模型,DeepSeek、Llama 是代表。它让企业和个人不必依赖大厂接口。

什么是算力?

算力是训练和运行 AI 所需的计算能力,GPU 是核心载体,也是中美 AI 竞争的关键焦点。

什么是 AI 搜索?

AI 搜索是'先搜网页再用大模型总结成答案'的新搜索方式,代表产品有 Perplexity、秘塔、豆包搜索。

什么是温度参数(Temperature)?

温度是控制 AI 回答随机性的旋钮,调高了更有创意、调低了更严谨,写代码用低温,写诗用高温。

什么是上下文窗口?

上下文窗口是 AI 一次对话能'记住'的内容上限,超出就会忘记前面说过的话。

什么是向量和向量数据库?

向量是把文字意思转换成数字坐标的方式,向量数据库让 AI 能快速找到语义相似的内容,是 RAG 的核心基础。

什么是 AGI(通用人工智能)?

AGI 是能像人类一样在任何领域自主学习和解决问题的 AI,目前还没到达,但争议何时到来从未停止。

什么是提示词工程?

提示词工程是系统研究如何写出更好指令来控制 AI 输出质量的方法论,是普通人最容易掌握的 AI 技能。

什么是 GPU?英伟达为什么这么重要?

GPU 是最适合 AI 计算的芯片,英伟达凭借技术和生态垄断了 AI 训练市场,成为这轮 AI 热潮最大受益者。

什么是模型蒸馏?

模型蒸馏是让小模型向大模型学习、压缩能力的技术,让手机等低算力设备也能跑出接近大模型的效果。

什么是 AI 对齐和安全?

AI 对齐是研究如何让 AI 的行为符合人类价值观和意图的领域,目标是避免强大 AI 做出有害或失控的事。

大模型竞技场(LMArena)是怎么给 AI 排名的?

LMArena 让真人匿名对比两个 AI 的回答并投票,用类似国际象棋等级分的方式算出排名,是目前最能反映“用起来顺不顺”的榜单。

什么是 Transformer?

Transformer 是 2017 年提出的神经网络架构,是几乎所有大模型的基础,它靠'注意力机制'理解词与词之间的关系。

MMLU 是什么?为什么顶级 AI 都考 90 分以上了

MMLU 是一套覆盖 57 个学科的多选知识题考试,曾是衡量 AI 知识面的标准测试,但顶级模型已普遍超过 90 分,考试本身快"饱和"了,区分度越来越低。

GPQA:专家都做不出、还搜不到答案的博士级考题

GPQA 是一批博士级别的物理、化学、生物难题,设计时特意确保连专家都不能轻松答对、靠搜索引擎找不到答案,专门考验 AI 的真正推理能力。

SWE-bench:让 AI 修真实的程序 Bug

SWE-bench 从真实的开源代码仓库里取出 Bug 工单,让 AI 写出能通过测试的补丁,是目前最贴近真实编程工作的 AI 能力测试。

AIME:用奥数竞赛题考 AI 的数学推理

AIME 是美国高中数学邀请赛的竞赛题,每道题都需要多步严谨推导才能得出答案,是检验 AI 数学推理能力的经典测试,顶级推理模型已接近满分。

综合智能指数:把十几项考试揉成一个分数

Artificial Analysis 把 MMLU、GPQA、AIME 等多项测试的结果加权汇总,算出一个 0-100 的"综合智能指数",方便横向比较不同 AI 的整体能力,但"一个分数"也有明显局限。

AI 都在考什么题?六大评测真题大赏

排行榜上那些分数背后,AI 到底做什么题?这里搬来 MMLU、GPQA、SWE-bench、AIME、HumanEval、LMArena 六大评测的真实样例题,让你亲眼看看——这题,你做得出来吗?

跑分高就一定好用吗?看懂 AI 排行榜的 5 个常识

AI 榜单更新极快、分数会饱和、贵不一定适合你、中文场景和英文榜单可能对不上——看排行榜之前,先了解这 5 个常识,才不会被数字牵着鼻子走。

2026 我该用哪个 AI?按场景帮你选

从日常聊天、写作、编程到画图、长文档处理,按你的实际使用场景一一给出推荐,帮你找到最适合自己的 AI 工具。