$信也科技(FINV)$ 随着大数据与金融服务的结合愈加紧密,能否通过风险模型从海量数据中挖掘尽可能多的信用信息,并管理和维护海量的变量至关重要。为此,信也科技近日自主研发推出了玄策变量开发管理平台(下称“玄策平台”),通过变量原子化、管理统一化、保障多重化提升变量数据的交付效率,提供统一的变量管理及数据监控。 目前,玄策平台共计管理了2000+变量组任务,共计3万+变量,为模型任务提供了近千张变量表,并通过数据监控功能,多次阻断错误数据进入下游,保障了生产数据的质量与稳定。 三大痛点,数据挖掘的阻碍 在玄策平台未上线时,数据挖掘师开发一个模型任务前,还需开发一张存储变量的Hive表,供模型任务读取。此时往往存在SQL代码过长、变量重复开发以及新增变量流程繁琐等问题。这些问题还会相互叠加,导致开发和维护难度加大。 1.SQL代码过长 模型任务的变量来源繁杂,如一个用户维度的模型,它的输入表里可能包含用户的使用信息、投诉与反馈信息、第三方信息等多个主题的变量,这往往需要从多张底层表中取数计算,最终导致整个SQL代码非常长。 2.变量重复开发 不同的模型任务,所需的变量部分相同,这部分变量的代码会同时存在多个SQL任务中。一旦这些变量逻辑发生变化,则每个包含这部分代码的任务都需要迭代和改动,难以保证不会遗漏。 3.新增变量流程繁琐 如果模型需要新增变量,那么就需要在对应的变量表中新增字段,并且修改SQL。当新增的字段无法通过原SQL中读取的表计算时,则还需要Join其他表格。多次迭代后,任务量越来越大,运行时长难以控制,给优化带来很大难度。 三大绝招,摆脱变量开发的掣肘 玄策离线变量统一管理平台通过变量原子化、管理统一化、保障多重化三个方面,帮助分析师更容易开发、维护、管理变量。 &