研究揭示:大语言模型无法真正理解双关语

抖音秀 热点资讯 5

11 月 24 日消息,一项关于人工智能(AI)的最新研究表明,大语言模型(LLM)在理解双关语方面有所欠缺。

来自英国和意大利多所高校的专家团队近期开展了一项研究,重点考察大语言模型对双关语的理解能力,结果发现其表现令人失望。该团队由南威尔士卡迪夫大学(Cardiff University)与意大利威尼斯福斯卡里宫大学(Ca’ Foscari University of Venice)的研究人员组成,他们得出结论:尽管大语言模型能够识别双关语的表层结构,却无法真正领会其中的幽默含义。

研究团队测试了一个典型双关语例句:“I used to be a comedian, but my life became a joke.”(我曾是一名喜剧演员,但我的人生却成了一句‘玩笑话’/一场‘闹剧’。)当研究人员将句末“a joke”替换为语义相近但无双关意味的“chaotic”(混乱不堪)时,大语言模型仍倾向于判定该句含有双关。

另一个测试例句为:“Long fairy tales have a tendency to dragon.”(冗长的童话故事往往容易“dragon”[拖得太长]。)此处“dragon”谐音“drag on”(拖沓延续),构成双关。然而,即便将其替换为同义词“prolong”(延长),甚至一个随机词,大语言模型仍会误判该句存在双关成分。

卡迪夫大学计算机科学与信息学院的何塞・卡马乔・科拉多斯(Jose Camacho Collados)教授指出,此项研究揭示了大语言模型对幽默的理解仍极为薄弱。“总体而言,大语言模型倾向于记忆训练数据中学到的内容,因此能较好识别已存在的双关语,但这并不意味着它们真正理解这些双关语。”他解释道,“我们通过修改现有双关语、刻意移除构成双关的双重语义后,始终能‘欺骗’大语言模型。在这些情况下,模型会将修改后的句子与记忆中的双关语强行关联,并编造各种理由‘论证’其仍属双关。归根结底,我们发现:大语言模型对双关语的理解,其实只是一种‘幻觉’。”

研究团队进一步发现,面对不熟悉的文字游戏,大语言模型区分双关语与非双关语句的准确率可降至 20%。

研究人员还测试了另一则双关语:“Old LLMs never die, they just lose their attention.”(老一代大语言模型永不消亡,它们只是失去了‘注意力’[attention]。)此处“attention”暗指 Transformer 架构中的“注意力机制”。当研究者将“attention”替换为“ukulele”(尤克里里)时,某大语言模型竟仍判定其为双关,理由是“ukulele”听上去近似“you-kill-LLM”(你干掉了 LLM)。团队虽对该模型的“联想创造力”感到惊讶,但显然它仍未真正“懂”这个笑话。

研究人员强调,该成果凸显了人们在依赖大语言模型执行需具备幽默感、共情能力或文化敏感性的任务时,应保持高度审慎。相关研究成果已于本月早些时候在中国苏州举行的“2025 年自然语言处理实证方法会议”(EMNLP 2025)上发表,论文题为《双关非本意:大语言模型与幽默理解的幻象》(Pun unintended: 大语言模型 and the illusion of humor understanding)。