AI语言模型是如何运作的?

主页 /新闻中心 /资优频道 /学苑撰文

撰文：郑礼言（香港资优教育学苑学员）

平日我们常用的人工智能 (AI) 大型语言模型 (LLM)，像是ChatGPT和DeepSeek，究竟是如何运作的呢？

AI大型语言模型的本质

事实上，这些AI模型与你对话时，主要是在不断预测下一个字是什么。你可以把它想象成手机上的「自动完成功能」，但是它更聪明，能够从大量知识中找出相关的内容，并用连贯的句子表达出来。从它说出第一个字开始，便一直预测下一个字，直至完成整个答案。

自动完成功能会从前面的字句提出几个你可能想写的字。

模型是如何训练出来的？

AI大型语言模型看过大量文字，基本上网路上大部分的文字都看过，因此它非常擅长建立自然语言的统计模型。这种统计模型包含了上千亿个参数，可以从海量数据中学到很多知识。加上前沿训练及建模技术，当模型遇到不同的问题时，就能预测出相关的字句。

模型再经过强化学习，透过反复试验 (trial and error)，学习怎样更有效地与人沟通，并更好地遵从使用者的指示。

模型有什么限制？

由于模型应对时只是按照统计规律来预测下一个字，如果遇到从未见过的状况，又或需要用不常见的方法来解决的问题，它就有可能出错。例如它可能会编造不存在的科学文献，这些现象叫做AI幻觉 (AI hallucination)，这只是目前 AI 模型限制中的一部分。

目前AI大型语言模型的运作仍是一个活跃的研究领域，如果你对这类模型感兴趣，不妨在互联网上查询更多资讯，或是直接问问AI吧！

AI大型语言模型非常有用，但并非万能。我们使用AI时，要善用批判性思考，检查清楚它「预测」出来的内容，才能善用AI模型的丰富知识。

作者简介

郑礼言，伊利沙伯中学中五学生及香港资优教育学苑学员。曾代表香港参加2025年国际奥林匹克人工智能大赛（IOAI) ，为金牌得主之一。对人工智能及太空科学研究感兴趣，希望透过不同比赛及实习经验，增进自己的知识眼界及科研能力。

曾刊载于《星岛日报》小学校园报《阳光校园》（2025年10月）

更新日期：2025-10-09