品玩5月16日讯,据 Huggingface 页面显示,UIUC与BigCode组织的研究者们最近发布了StarCoder2-15B-Instruct代码大模型。
StarCoder2-15B-Instruct的独特之处在于其纯自对齐策略,整个训练流程公开透明,且完全自主可控。通过自我生成数千个指令-响应对,直接对StarCoder-15B基座模型进行微调,无需依赖昂贵的人工标注数据,也无需从商业大模型中获取数据,避免了潜在的版权问题。
在HumanEval测试中,StarCoder2-15B-Instruct以72.6%的Pass@1成绩脱颖而出,较CodeLlama-70B-Instruct的72.0%有所提升。在LiveCodeBench数据集的评估中,这一自对齐模型的表现甚至超越了基于GPT-4生成数据训练的同类模型,证明了通过自身数据训练的大模型同样能够有效地学习如何与人类偏好对齐。
精彩评论