该模型被称为Inflection-1,规模和功能大致相当于GPT-3.5(也被称为ChatGPT),其训练所使用的计算资源也相应。公司声称,在与其他同等级别模型进行比较时,Inflection-1在性能上具备竞争力甚至超越其他模型,并通过一份技术备忘录提供了一些对其模型(GPT-3.5、LLaMA、Chinchilla和PaLM-540B)进行的基准测试结果。
根据其发布的结果,Inflection-1在各项指标上表现良好,例如中小学考试任务(如生物学101)和"常识"基准测试(例如"如果Jack把球扔到屋顶上,Jill再把它扔回来,球在哪里?")。然而,在编码方面,Inflection-1相对于GPT-3.5明显劣势,而与之相比,GPT-4则更加强大;OpenAI的最大型号在编码领域的质量提升是众所周知的,因此这并不令人意外。