全球科技前沿2025年4月19日2025年4月19日作者 《中华品牌》杂志在 PersonQA 基准测试中,o3 模型产生幻觉的时间为 33%,高于 o1 的 16% 和 o3-mini 的 14.8%。 OpenAI, 的新推理模型看到幻觉发生率上升
评论