OpenAI的论文Learning from Human Preferences提到学习人类的偏好。诺贝尔经济学奖获得者保罗·萨缪尔森提出显示偏好公理(Weak Axiom of Revealed Preference),是现代新古典主义经济学的基石之一。如果消费者的行为是追求效用最大化,那么消费者在市场上所能购买的商品组合就是他所能购买的最优商品组合,这些实际购买的商品组合优于那些消费者有能力购买而没有购买的商品组合。即如果组合A直接显示出比B更被消费者所偏好,而且A和B不同,则不可能直接显示出B比A更被消费者偏好。
ChatGPT使用人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)增强了人类对模型输出结果的调节,并且对结果进行了更具理解性的排序。如前文所说,大模型只能学到人们大抵共用的那个偏好序列。伟大的艺术家是超越时代的,梵高的艺术审美远远领先与其同时代的人们。鲁迅等同时代文人们重新定义了白话文的书写。