AI语言模型是如何运作的?
撰文:郑礼言(香港资优教育学苑学员)
平日我们常用的人工智能 (AI) 大型语言模型 (LLM),像是ChatGPT和DeepSeek,究竟是如何运作的呢?
AI大型语言模型的本质
事实上,这些AI模型与你对话时,主要是在不断预测下一个字是什么。你可以把它想象成手机上的「自动完成功能」,但是它更聪明,能够从大量知识中找出相关的内容,并用连贯的句子表达出来。从它说出第一个字开始,便一直预测下一个字,直至完成整个答案。
自动完成功能会从前面的字句提出几个你可能想写的字。
模型是如何训练出来的?
AI大型语言模型看过大量文字,基本上网路上大部分的文字都看过,因此它非常擅长建立自然语言的统计模型。这种统计模型包含了上千亿个参数,可以从海量数据中学到很多知识。加上前沿训练及建模技术,当模型遇到不同的问题时,就能预测出相关的字句。
模型再经过强化学习,透过反复试验 (trial and error),学习怎样更有效地与人沟通,并更好地遵从使用者的指示。
模型有什么限制?
由于模型应对时只是按照统计规律来预测下一个字,如果遇到从未见过的状况,又或需要用不常见的方法来解决的问题,它就有可能出错。例如它可能会编造不存在的科学文献,这些现象叫做AI幻觉 (AI hallucination),这只是目前 AI 模型限制中的一部分。
目前AI大型语言模型的运作仍是一个活跃的研究领域,如果你对这类模型感兴趣,不妨在互联网上查询更多资讯,或是直接问问AI吧!
AI大型语言模型非常有用,但并非万能。我们使用AI时,要善用批判性思考,检查清楚它「预测」出来的内容,才能善用AI模型的丰富知识。
作者简介 郑礼言,伊利沙伯中学中五学生及香港资优教育学苑学员。曾代表香港参加2025年国际奥林匹克人工智能大赛 (IOAI) ,为金牌得主之一。对人工智能及太空科学研究感兴趣,希望透过不同比赛及实习经验,增进自己的知识眼界及科研能力。 |
曾刊载于《星岛日报》小学校园报《阳光校园》(2025年10月)