智谱AI:千亿基座的对话模型启动内测,单卡版模型已全面开源丨华兴的朋友们

华兴资本
2023-03-15

近日,由清华技术成果转化的公司智谱AI开源了GLM系列模型的新成员——中英双语对话模型ChatGLM-6B,支持在单张消费级显卡上进行推理使用。与此同时,基于千亿基座模型的ChatGLM也同期推出,初具问答和对话功能,现已开启邀请制内测,后续还会逐步扩大内测范围。

ChatGLM-6B是一个开源的、支持中英双语问答的对话语言模型,并针对中文进行了优化。该模型基于General Language Model(GLM)架构,具有62亿参数。结合模型量化技术,用户可以在消费级的显卡上进行本地部署(INT4量化级别下最低只需6GB显存)。ChatGLM-6B使用了和 ChatGLM相同的技术,针对中文问答和对话进行了优化。经过约1T标识符的中英双语训练,辅以监督微调、反馈自助、人类反馈强化学习等技术的加持,62亿参数的ChatGLM-6B虽然规模不及千亿模型,但大大降低了推理成本,提升了效率,并且已经能生成相当符合人类偏好的回答。ChatGLM-6B现已在GitHub上正式开源。

自OpenAI发布ChatGPT以来,受到了全行业的广泛关注与狂热追捧。面对ChatGPT背后能力强大的大规模预训练模型GPT-3.5,国内外大模型竞争和发展格局将会如何?未来人工智能行业长期发展过程中还会面临哪些挑战?近期智谱AI首席执行官张鹏接受了澎湃科技的采访,聊了聊他对于行业的前瞻洞察和未来发展方向的思考。以下是澎湃科技与智谱AI首席执行官张鹏的对话实录,enjoy:

作者丨张静

来源丨澎湃科技

澎湃科技:最近ChatGPT很火,国际科技巨头都在布局这块。

张鹏:ChatGPT最近挺热的,但其实这个事儿不是很新鲜,往前推已经有几年时间了,最早可以追溯到2018年左右开始做大规模预训练模型,2020年OpenAI发布了GPT-3语言模型,引起对生成式AI的关注。去年生成式AI的另一个顶峰是图像生成模型的推出,引起了AIGC(人工智能生成内容)领域的火热。但背后的根本是大规模语言模型技术,这个技术从国外起步,现在把这个模型推到了千亿甚至万亿级别的规模之后会产生从量变到质变的变化。GPT-3之后,国内外的研究机构、厂商开始追捧这个技术,布局研发工作。

澎湃科技:国内目前的发展或追赶情况是怎样的?

张鹏:ChatGPT火出圈确实有不太一样的地方,它不是纯研究,而是一个封装得非常好的产品,而且选择了聊天这样一个泛用场景,所以引起非常广泛的关注。

其实国内还有其他一些厂家也在做这个事,目前还是百花齐放的状态。比如百度文心,华为有盘古模型,字节跳动和达摩院也有自己的模型。这些模型大部分是语言模型,但也有一些多模态的模型,比如达摩院的M6模型是多模态的模型,它不光可以生成文本,也可以生成图像。

但可能都限于某些比较小众的应用,所以没有形成非常大规模的市场影响力。其次,深究下来,我们在底层技术上跟国外还有一定的代差,ChatGPT背后的GPT-3.5模型确实非常强,领先国内大模型一个代差,在这点上还值得我们去追赶。

澎湃科技:具体差距是什么?

张鹏:ChatGPT的能力源自于背后的基座模型,也就是大规模预训练模型。ChatGPT的基座模型是GPT-3,在GPT-3和ChatGPT之间还有一系列模型,也就是在GPT-3的基础上做了很多改进和优化,形成了GPT-3.5这样的系列模型。这一系列模型的能力是ChatGPT能取得当前这样的效果的基础。

GPT-3.5和GPT-3之间就是一个代差,国内大量的工作大概是在GPT-3的水平甚至比GPT-3还差一些的水平,所以这就是我说的技术上的代差,国内外的差距就在于模型的基础性能上。

去年,斯坦福大学基础模型研究中心的负责人Percy Liang等开展了一项研究,对全球范围内将近30个大模型横向评测,列了7项评测指标,其中6项是关于模型本身的评测性能,代表了模型本身能力的强弱,包括准确性、鲁棒性、公允性、偏见度、校准误差、恶意性。这个榜单里的模型绝大部分都是国外的,包括和ChatGPT相关的InstructGPT模型。当然这里面也有我们与清华多个实验室共同训练的大规模中英文预训练语言模型GLM-130B,这是国内唯一一个入选、能跟这些顶尖模型一较高下的基座模型。

澎湃科技:国内企业如果要追赶,生产出类ChatGPT产品,要从哪些方面入手?

张鹏:我们一直在做关于千亿模型和万亿模型的研究,也在思考我们与ChatGPT的距离。首先,我们认为要有能够跟国际比肩的性能非常好的基座模型,也就是类似GPT-3和GLM-130B这样的模型。有了基座模型之后,还要在基座模型上做优化,包括加入代码的训练,增强它的逻辑性,做监督性的训练,做强化学习的训练和用户反馈的数据监督训练。还要做很多这样的工作,才能得到跟ChatGPT背后的模型相媲美的模型。然后在大模型的基础上再去开发出产品,这是工程性的问题。

澎湃科技:现在人们会和ChatGPT交流自己的职业会不会被它替代。

张鹏:目前ChatGPT还有一些不可避免的缺陷,暂时还不太可能完全替代某一个职业或某一份工作。但随着用户量的急剧增加,给ChatGPT的反馈信息越来越多,模型迭代训练后,是真的有可能替代一些简单重复、没有太大技术含量的工作。

澎湃科技:ChatGPT的出现能否说明我们已经接近了通用人工智能?

张鹏:说通用人工智能还早,顶多算是通向通用人工智能中的认知智能很重要的一步,通过大规模预训练模型技术,实现了部分认知推理能力和内容生成能力。当然它仍然会“一本正经地胡说八道”,犯一些常规性和知识性的错误,这就是它的一个缺陷,它仍然欠缺认知当中严谨的知识和逻辑这个部分,它生成的结果的可解释性还比较欠缺。

澎湃科技:你们去年联合清华的几个实验室训练出了GLM-130B模型,后续有哪些发展规划?

张鹏:自2022年8月发布以来,GLM-130B收到了41个国家266个研究机构的使用需求,包括Google、Microsoft、Stanford、MIT、UC Berkely、CMU、Harvard、华为、百度、阿里巴巴、腾讯、头条、智源、北京大学、浙江大学、香港大学等。当前OpenAI的GPT对中国禁用,英伟达的A100等高端芯片对中国禁售,我们在做大模型的过程中挑战巨大,但同时也有这份责任心,要做大模型的中国创新,要做能媲美GPT系列的认知大模型。接下来从GPT-3到GPT-3.5到ChatGPT这条路径中的必要工作我们会持续去做,基于GLM-130B模型提供基础服务能力,比如文本生成、代码辅助编写等。

澎湃科技:在大模型中加入记忆模块和自我反思机制吗?

张鹏:这是我们的一个构想,团队正在这方面持续探索。首先要解决犯知识性错误的问题,因为现在ChatGPT是纯用生成的方式来回答问题,没有结合常识知识和背景性质的数据,所以它回答问题的时候虽然语句上是通顺的,但知识性的细节会出错。这是模型本身的缺陷,在训练时可能没有加入更多的知识,或者生成这个结果后没有用事实性的逻辑推理方式去检查。记忆模块就是为了解决知识内容犯错的问题,把这些知识记住就不需要胡说八道,直接从记忆里检索出来就好了。

澎湃科技:总的来说,ChatGPT会带来哪些技术和社会挑战?

张鹏:技术挑战就是它离真正的通用人工智能甚至认知智能这个目标还有一些距离,包括加入基于self-instruct的自我反思机制,需要从技术上持续突破。

对于社会问题,根据我们的观察,首先要考虑安全风险,它曾经在诱导下写出毁灭全人类的计划书,因此需要考虑如何避免或受到监管。其次,每个技术的诞生都会存在滥用的问题,现在国外有些学校、科研机构、期刊杂志禁止使用ChatGPT写论文。此外,可能会引起工作岗位、职业的变更,甚至会引起一些不稳定因素。总体上,目前技术已经跑在前头了,安全、法律、道德等层面对它的约束和应对还是要跟上。

澎湃科技:大小企业都在做大模型或类ChatGPT产品,怎样的企业会胜出?

张鹏:做这件事需要几方面要素,首先要有深厚的技术积累,持续深入研究,并有成果产出。

第二需要有大量资源,包括数据、算力。这一点上,国内和国际的大企业有天生的优势。

第三需要生态建设,一项新的技术在投入使用过程中不能靠一两个公司或者少量的人就能把整个事情做起来,它需要一个生态。比如大家愿意在产品中嵌入并应用这些技术,技术本身会接收到更多反馈,然后不断迭代,这需要一个良好的应用生态环境去促进不断升级和迭代。

从这几个要素可以判断哪些企业或机构能够在这件事上走得更远。

免责声明

本文内容已获澎湃新闻授权转载,谨供接收方作参考用途,不构成在任何地区对任何证券的研究报告,不构成对接收方的投资建议,亦并非作为买卖、认购证券或其它金融工具及产品的邀请或保证。接收方不应仅依赖本文作出投资决定,且在作出任何投资行动前,应咨询专业意见。华兴资本与本文所提及的公司之间可能存在或寻求业务关系,因此,请知悉可能存在的影响本文客观性的利益冲突。华兴资本不就本文内容作出任何陈述或保证,对依据或使用本文所载资料所造成的任何后果,华兴资本不承担任何责任。

智谱AI基于千亿基座的ChatGLM线上模型目前在进行邀请制内测。对ChatGLM感兴趣的朋友们,也可以欢迎点击下方阅读原文,进入ChatGLM内测申请网址申请。

免责声明:上述内容仅代表发帖人个人观点,不构成本平台的任何投资建议。

精彩评论

发表看法
6
2