
人类
有兴趣的伙伴可关注我们的最新研究:大型语言模型代理能否模拟
人类信任行为?。项目网站详见下方链接。欢迎访问了解详情,探索大模型在社会科学研究中的潜力与应用。目前,大模型的价值对齐受到广泛关注,而我们的研究提出了一种新的概念——行为对齐,用于描述大模型与
人类在行为上的相似程度,从全新角度探讨二者的一致性表现。具体来说,我们的研究受到行为经济学的启发,发现大型语言模型代理(LLM Agents)在信任游戏中能够展现出信任行为。尤其是GPT-4代理的表现与
人类的信任行为高度一致,这表明使用LLM Agents模拟
人类信任行为是可行的。这一成果为借助LLM Agents开展更复杂的
人类社会行为模拟提供了重要基础,对社会学研究以及LLM Agent的实际应用具有深远意义。这项工作不仅验证了技术的潜力,还为未来跨学科探索打开了新的大门。另一个研究方向是大型语言模型(LLM)与虚假信息的结合,这一领域与LLM的安全性和事实性密切相关。您可以关注我们的项目网站LLMs Meet Misinformation,以及我们在ICLR 2024上的一项最新研究成果Can LLM-Generated Misinformation Be Detected?和综述文章Combating Misinformation in the Age of LLMs:
OPPOrtunities and Challenges。具体来说,LLM与虚假信息的研究主要涵盖两个方面:机遇与挑战。从机遇的角度来看,核心问题在于我们是否能够利用LLM来对抗虚假信息。例如,通过训练模型识别和纠正错误信息,或者生成高质量的事实核查内容,从而为用户提供更准确的信息来源。然而,与此同时,这一领域也面临着巨大的挑战,即如何有效应对由LLM生成的虚假信息。随着技术的进步,LLM生成的内容越来越逼真,这也使得虚假信息的传播变得更加隐蔽和难以检测。LLM生成的虚假信息可以根据意图分为两类:一类是非故意生成的非事实信息,通常来源于普通用户的正常使用场景,这种现象被称为幻觉(hallucination)。在这种情况下,模型可能因为数据偏差或推理错误而输出不准确的信息,尽管用户并没有恶意。另一类是有意生成的非事实信息,这通常与恶意用户相关。这些用户可能通过越狱(j
AIlbreak)技术绕过模型的安全限制,促使模型生成误导性或有害的内容。这类虚假信息的危害性更强,因为它往往被设计用于特定的恶意目的,如散布谣言、操控舆论或进行网络攻击。因此,在推动LLM发展的同时,我们必须高度重视其在虚假信息领域的双重影响,并积极探索有效的解决方案,以实现技术的负责任应用。欢迎对这两个方向感兴趣的朋友们多多交流,期待有机会合作,
微信 alexccychen。