实测阿里通义千问:最接近ChatGPT水平的国产AI模型
@阿尔法工场:
导语:在中文文书方面,通义千问的能力与 GPT-3.5 已不相上下,而在代码写作方面,通义千问则是大幅度的领先于文心一言。通义千问的诞生背景阿里巴巴(BABA.US)作为中国最大的电子商务平台之一,一直致力于利用人工智能技术提升用户体验和商业效率。在大模型领域,阿里巴巴早在2019年就推出了PLUG,一种基于预训练语言模型的通用对话框架,这是阿里巴巴对于LLM(Large language model大语言模型)领域的首次尝试。2021年11月,阿里达摩院宣布了M6大模型,一种基于10万亿参数的多模态大模型,一跃成为了全球最大的 AI 预训练模型。根据阿里巴巴的描述,M6大模型已经在淘宝,支付宝,天猫等阿里巴巴旗下产业中应用落地并取得了卓越成效。但M6模型至今仍未面向公众开放,非阿里系的厂商也罕有应用。直到2023年4月7日,阿里云推出了自研大模型“通义千问”,并面向企业以及邀请用户开放。根据官网描述,“通义千问”是一个专门响应人类指令的语言大模型,它可以理解和回答各种领域的问题,包括常见的、复杂的甚至是少见的问题。它不仅是一个效率助手,也是一个点子生成机,可以帮助用户完成各种任务,如写邮件、写文章、写脚本、写情书、写诗等。它还可以提供娱乐功能,如讲笑话、唱歌等。在大预言模型大热的今天,通义千问自然是处于风口浪尖之上。国内的各大公司都想在该领域分一杯羹,百度(BIDU.US)是第一个吃螃蟹的公司,其在2023年3月16日发布了“文心一言”系列的“多模态”模型(虽然我们现在知道其实它的图片生成能力其实是来源于另一个百度开发的模型)。而阿里巴巴选择了避其锋芒在四月发布全新针对聊天内容优化的通义千问。由于阿里巴巴吸取了此前文心一言的惨淡场景,选择了仅对部分受邀媒体和企业开放服务。笔者成功拿到了此次的内测资格。通义千问能力测试对于非多模态的语言模型,主要可以从三个方面考量其能力:文