學苑撰文

AI語言模型是如何運作的?

撰文:鄭禮言(香港資優教育學苑學員)

平日我們常用的人工智能 (AI) 大型語言模型 (LLM),像是ChatGPT和DeepSeek,究竟是如何運作的呢?

 

AI大型語言模型的本質

 事實上,這些AI模型與你對話時,主要是在不斷預測下一個字是什麼。你可以把它想像成手機上的「自動完成功能」,但是它更聰明,能夠從大量知識中找出相關的內容,並用連貫的句子表達出來。從它說出第一個字開始,便一直預測下一個字,直至完成整個答案。

自動完成功能會從前面的字句提出幾個你可能想寫的字。


模型是如何訓練出來的?

 AI大型語言模型看過大量文字,基本上網路上大部分的文字都看過,因此它非常擅長建立自然語言的統計模型。這種統計模型包含了上千億個參數,可以從海量數據中學到很多知識。加上前沿訓練及建模技術,當模型遇到不同的問題時,就能預測出相關的字句。

 模型再經過強化學習,透過反覆試驗 (trial and error),學習怎樣更有效地與人溝通,並更好地遵從使用者的指示。

 

模型有什麼限制?

 由於模型應對時只是按照統計規律來預測下一個字,如果遇到從未見過的狀況,又或需要用不常見的方法來解決的問題,它就有可能出錯。例如它可能會編造不存在的科學文獻,這些現象叫做AI幻覺 (AI hallucination),這只是目前 AI 模型限制中的一部分。

 目前AI大型語言模型的運作仍是一個活躍的研究領域,如果你對這類模型感興趣,不妨在互聯網上查詢更多資訊,或是直接問問AI吧!

 AI大型語言模型非常有用,但並非萬能。我們使用AI時,要善用批判性思考,檢查清楚它「預測」出來的內容,才能善用AI模型的豐富知識。


作者簡介

鄭禮言,伊利沙伯中學中五學生及香港資優教育學苑學員。曾代表香港參加2025年國際奧林匹克人工智能大賽 (IOAI) ,為金牌得主之一。對人工智能及太空科學研究感興趣,希望透過不同比賽及實習經驗,增進自己的知識眼界及科研能力。


曾刊載於《星島日報》小學校園報《陽光校園》(2025年10月)


更新日期:2025-10-09