研究发现 OpenAI 的 GPT-4o 道德推理能力胜过人类专家

发布时间：2025-12-19 08:05:49

近期的一项研讨标明，OpenAI 最新的谈天机器人 GPT-4o 能够供给品德方面的解说和主张，且质量优于“公认的”品德专家所供给的主张。

据 The Decoder 报导

，美国北卡罗莱纳大学教堂山分校和艾伦 AI 研讨所的研讨人员进行了两项研讨，将 GPT 模型与人类的品德推理才能进行比较，以讨论大言语模型是否可被视为“品德专家”。

研讨内容如下：

研讨一

501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的品德解说。结果标明，人们以为 GPT 的解说比人类参与者的解说更契合品德、更值得信任、更周到。

评价者也以为人工智能的评价比其他人更牢靠。尽管差异很小，但要害发现是 AI 能够匹配乃至逾越人类水平的品德推理。

研讨二

将 OpenAI 最新的 GPT-4o 模型生成的主张与《纽约时报》“品德学家”专栏中闻名品德学家 Kwame Anthony Appiah 的主张进行了比较。900 名参与者对 50 个“品德窘境”的主张质量进行了评分。

结果标明，GPT-4o 在“简直每个方面”都胜过人类专家。人们以为 AI 生成的主张在品德上更正确、更值得信任、更周到、更精确。只要在感知细微差别方面，人工智能和人类专家之间没有明显差异。

研讨人员以为，这些结果标明 AI 能够经过“比较品德图灵测验”（cMTT）。而文本剖析显现，GPT-4o 在供给主张时运用的品德和活跃言语比人类专家更多。这能够部分解说为什么 AI 的主张评分更高 —— 但不是仅有要素。

需求留意的是，这项研讨只是针对美国参与者进行，后续仍需进一步研讨人们怎么看待 AI 生成的品德推理的文化差异。

论文地址：

https://osf.io/preprints/psyarxiv/w7236

新闻详情