AI語言模型是如何運作的?

主頁 /新聞中心 /資優頻道 /學苑撰文

撰文：鄭禮言（香港資優教育學苑學員）

平日我們常用的人工智能 (AI) 大型語言模型 (LLM)，像是ChatGPT和DeepSeek，究竟是如何運作的呢？

AI大型語言模型的本質

事實上，這些AI模型與你對話時，主要是在不斷預測下一個字是什麼。你可以把它想像成手機上的「自動完成功能」，但是它更聰明，能夠從大量知識中找出相關的內容，並用連貫的句子表達出來。從它說出第一個字開始，便一直預測下一個字，直至完成整個答案。

自動完成功能會從前面的字句提出幾個你可能想寫的字。

模型是如何訓練出來的？

AI大型語言模型看過大量文字，基本上網路上大部分的文字都看過，因此它非常擅長建立自然語言的統計模型。這種統計模型包含了上千億個參數，可以從海量數據中學到很多知識。加上前沿訓練及建模技術，當模型遇到不同的問題時，就能預測出相關的字句。

模型再經過強化學習，透過反覆試驗 (trial and error)，學習怎樣更有效地與人溝通，並更好地遵從使用者的指示。

模型有什麼限制？

由於模型應對時只是按照統計規律來預測下一個字，如果遇到從未見過的狀況，又或需要用不常見的方法來解決的問題，它就有可能出錯。例如它可能會編造不存在的科學文獻，這些現象叫做AI幻覺 (AI hallucination)，這只是目前 AI 模型限制中的一部分。

目前AI大型語言模型的運作仍是一個活躍的研究領域，如果你對這類模型感興趣，不妨在互聯網上查詢更多資訊，或是直接問問AI吧！

AI大型語言模型非常有用，但並非萬能。我們使用AI時，要善用批判性思考，檢查清楚它「預測」出來的內容，才能善用AI模型的豐富知識。

作者簡介

鄭禮言，伊利沙伯中學中五學生及香港資優教育學苑學員。曾代表香港參加2025年國際奧林匹克人工智能大賽（IOAI) ，為金牌得主之一。對人工智能及太空科學研究感興趣，希望透過不同比賽及實習經驗，增進自己的知識眼界及科研能力。

曾刊載於《星島日報》小學校園報《陽光校園》（2025年10月）

更新日期：2025-10-09