研究发现 OpenAI 的 GPT-4o 道德推理能力胜过人类专家
近期的一项研讨标明,OpenAI 最新的谈天机器人 GPT-4o 能够供给品德方面的解说和主张,且质量优于“公认的”品德专家所供给的主张。
据 The Decoder 报导
,美国北卡罗莱纳大学教堂山分校和艾伦 AI 研讨所的研讨人员进行了两项研讨,将 GPT 模型与人类的品德推理才能进行比较,以讨论大言语模型是否可被视为“品德专家”。研讨内容如下:
研讨一
501 名美国成年人对比了 GPT-3.5-turbo 模型和其他人类参与者的品德解说。结果标明,人们以为 GPT 的解说比人类参与者的解说更契合品德、更值得信任、更周到。
评价者也以为人工智能的评价比其他人更牢靠。尽管差异很小,但要害发现是 AI 能够匹配乃至逾越人类水平的品德推理。

研讨二
将 OpenAI 最新的 GPT-4o 模型生成的主张与《纽约时报》“品德学家”专栏中闻名品德学家 Kwame Anthony Appiah 的主张进行了比较。900 名参与者对 50 个“品德窘境”的主张质量进行了评分。
结果标明,GPT-4o 在“简直每个方面”都胜过人类专家。人们以为 AI 生成的主张在品德上更正确、更值得信任、更周到、更精确。只要在感知细微差别方面,人工智能和人类专家之间没有明显差异。

研讨人员以为,这些结果标明 AI 能够经过“比较品德图灵测验”(cMTT)。而文本剖析显现,GPT-4o 在供给主张时运用的品德和活跃言语比人类专家更多。这能够部分解说为什么 AI 的主张评分更高 —— 但不是仅有要素。
需求留意的是,这项研讨只是针对美国参与者进行,后续仍需进一步研讨人们怎么看待 AI 生成的品德推理的文化差异。
论文地址:
https://osf.io/preprints/psyarxiv/w7236