在数学和编程方面表现出色。在国 土耳其电话 际数学奥林匹克(IMO)选拔考试中PT-o 只正确解决了 % 的问题而推理模型得分为 8%。编程能力在比赛中达到了ofors 竞赛的 89 百分位。 Opn 表示作为早期模型目前还不具备使 htPT 实用的许多功能比如浏览信息、上传文件和图片。对于许多常见情况PT-o 在短期内会更为强大。 但对于复杂的推理任务这代表了 能力的重大进展。Opn 将计数器重置为并将这一系列命名为Opn o。 安全性 在开发该系列新模型过程中Opn 提出了一种新的安全训练方法利用它们的推理能力使其遵循安全和一致性指南。

通过在上下文中推理安全规则模型能够更有效地应用这些规则。 Opn 通过测试模型在用户尝试绕过其安全规则(即“越狱”)时的表现来衡量安全性。 在Opn 最难的越狱测试中PT-o 得分为(满分 分)而 Opn 的o预览模型得分为 8。 为了匹配这些模型的新能力Opn 加强了Opn 的安全工作、内部治理以及与联邦政府的合作。 包括使用Opn 的《准备框架》进行严格的测试和评估、世界级的红队测试、以及包括安全与安保委员会在内的董事会级别审查流程。 为了推进对安全的承诺Opn 最近与美国和英国 安全机构达成了正式协议。