近日,全国科学技术名词审定委员会发布公告,推荐将人工智能领域中的“Token”译为“词元”,并面向社会试用。随后,《人民日报》发文《专家解读token中文名为何定为“词元”》,对这一命名从专业角度进行了系统阐释。 文中提到,“token”一词源于古英语 tācen,意为“符号”或“标记”。在语言模型中,token是文本经过切分或字节级编码后得到的最小离散单元,既可以表现为词、子词、词缀或字符等不同形式。模型正是通过对token序列的建模,展现出一定的智能能力。 这一译名在专家论证体系中被认为符合单义性、科学性、简明性与协调性原则,也在当前中文语境中具备一定的使用基础。然而,在阅读相关解读后,我对这一命名路径形成了不同的理解。 从规范化角度看,这一定名方案在短期内具有可理解性与传播优势。但若从计算本体、信息结构、多模态演进及回译一致性等维度审视,其长期适配性仍有待进一步检验。在这一背景下,一个同样值得关注的替代路径——“符元”——逐渐显现出更强的结构一致性与跨语境稳定性。 一、定义的错位:不能用“起源”替代“本质” 文章观点(中国科学院计算技术研究所研究员陈熙霖):Token在人工智能中的初始角色是“语言基本语义单元”,因此“词元”能够更贴合其本质。 这一判断在历史语境中具有合理性,但在技术范式大跃迁的当下,这种思维本质上是一种“学术刻舟求剑”。 在术语定义的逻辑层面,必须严厉区分“初始应用场景”与“结构本质属性”。 Token 确实起源于自然语言处理(NLP),但在 AGI 的进化路径中,它早已突破了语言模型的边界,演化为统一处理文本、图像、语音乃至物理信号的基础单元。在现代计算体系中,Token 真正的结构本体是“离散符号单元”,而非单一模态的语言单位。 如果按“初始角色”定名,计算机(Computer) 至今应该叫 “电子计算手”(源于其最初代替人工计算员的职能);互联