您好,我是小DAI,专注于数据库管理员相关的技术问答,请问有什么可以帮您?

SAP HANA 预测分析库(新增和更改)

SAP HANA 平台 2.0 SPS 08 为 Predictive Analysis Library (PAL) 引入了新的和更改的功能。

AutoML(已更改)

  • 评分功能:AutoML 管道模型现在具有新的评分功能。

  • 回归运算符:AutoML 时间序列场景支持两个新的回归运算符:多元线性回归 (MLR) 和混合梯度提升树 (HGBT)。

  • 指标支持:新指标 SPEC 现在支持 AutoML 时间序列场景。

  • 增强的日志记录:AutoML 的进度日志记录已增强,以确保 Python ML 客户端内的完整日志显示。

  • 优化功能:新的基于连接的优化功能加快了 PAL_AUTOML_FIT 过程中的运算符选择过程。

  • 管道更新:FINETUNE_BESTPIPELINE 功能现在允许对所选的最佳管道模型进行持续更新。

  • 随机搜索:支持在 SEARCH_METHOD 参数中进行随机搜索,便于小型配置搜索。

  • 接口扩展:添加了 AutoML 的大容量接口。

    AutoML

    管道(已更改)

  • 算法特定参数:管道的预测方法现在支持通过算法特定的参数传递。

  • AutoExpSm 运算符:新运算符 AutoExpSm 替换预先提供的默认配置中的 SingleExpSm、DoubleExpSm 和 TripleExpSm 运算符,但您可以根据需要手动恢复原始运算符。

  • 时间序列中的多项式功能:多项式功能运算符现在支持时间序列方案。

  • 管道解释方法:除原始内核 SHAP 方法外,还向 PAL_PIPELINE_FIT 函数的 EXPLAIN_METHOD 参数添加了 SHAPGlobal 代理模型,为管道提供轻量级快速解释方法。

    管道

    排列功能重要性(新)

    现在可以计算排列功能重要性,通过测量随机化功能的值时的模型评分减少来深入了解模型依赖于每个功能的程度。

    排列功能重要性支持以下任务:

  • 分类

  • 回归

  • 时间序列ARIMA(自动)统一指数平滑法(包括所有子功能)BSTS附加模型时间序列分析

  • ARIMA(自动)

  • 统一指数平滑法(包括所有子功能)

  • BSTS

  • 附加模型时间序列分析

    您可以使用以下新参数配置排列重要性:

  • PERMUTATION_IMPORTANCE

  • PERMUTATION_EVALUATION_METRIC

  • PERMUTATION_N_REPEATS

  • PERMUTATION_SEED

  • PERMUTATION_N_SAMPLES

    排列特征重要性

    预测间隔支持(新)

  • 以下函数现在支持统一回归方法中的预测间隔输出:随机决策树 (RDT)混合梯度提升树 (HGBT)

  • 随机决策树 (RDT)

  • 混合梯度提升树 (HGBT)

  • 一种新的间隔质量测量方法,通过考虑以下方面来衡量这些预测间隔的质量:重要性级别的间隔宽度观察的罚款期限(超出下限或上限)

  • 重要性级别的间隔宽度

  • 观察的罚款期限(超出下限或上限)

    统一回归的预测间隔和置信区间

    含透视输入数据的统一回归的预测间隔和置信区间

    混合梯度提升树(已更改)

  • 添加了新的目标函数 Huber Loss。新的重大提升方法增强了现有的目标函数,如伪胡伯误差目标函数,使其更加稳健高效。

  • 为 Huber/Pseudo Huber 目标函数引入了 HUBER_SLOPE 参数。

  • HGBT 回归的新重新加权平方目标函数可通过 OBJ_FUNC 参数使用,在 PAL_HGBT 方法中的新值为 10。

  • 新参数:VALIDATION_SET_METRIC 指定在 HGBT 中提前停止的指标。交叉验证中 EVALUATION_METRIC 参数的附加值包括 F1_SCORE、RECALL 和 PRECISION。SCALE_WEIGHT 和 SCALE_WEIGHT_TARGET 参数允许使用指定标签缩放实例权重。

  • VALIDATION_SET_METRIC 指定在 HGBT 中提前停止的指标。

  • 交叉验证中 EVALUATION_METRIC 参数的附加值包括 F1_SCORE、RECALL 和 PRECISION。

  • SCALE_WEIGHT 和 SCALE_WEIGHT_TARGET 参数允许使用指定标签缩放实例权重。

    混合梯度提升树

    SPS08 中引入的新算法 分位数转换(新) 分位数转换通过不同的数据分布自动转换数值输入变量,使其适合用作预测模型的输入。 分位数转换 新推荐系统功能 - MLP 推荐器(新) MLP Recommender 函数使用神经网络预测二进制目标,例如点选率,这是推荐系统中的基本部分。与 ALS 和 FRM 等需要特定用户和项目详细信息并面临其他数据功能困难的旧方法不同,MLP Recommender 可以有效地处理大型的复杂数据,即使它包含不相关的功能。此函数可显著提高现代数据集的预测性能。 MLP 推荐者 Benford's Law Analysis(新) 本福德定律(英语:Benford's Law)(英语:Benford's Law),即第一位数的法律,是一种统计技术,用于检测数值数据集中的异常或异常。 Benford 分析 Hull-White 模型(新) Hull-White 模型是金融数学和风险管理至关重要的单因子利率模型。它提供了一个框架,用于了解利率如何随时间变化,这对于对各种金融工具(如债券和利率衍生工具)进行定价至关重要。 Hull-White 新建多层感知方法(新) 多层感知器(英语:Multilayer Perceptron, MLP)是一种发源人工神经网络。PAL 中的新 MLP 功能提供性能加速和多目标功能支持。添加到 PAL 库的两个新过程为: _SYS_AFL.PAL_MLP_MULTI_TASK_SYS_AFL.PAL_MLP_MULTI_TASK_PREDICT多任务多层感知 回归的离群值检测(新增) 新 _SYS_AFL.PAL_OUTLIER_DETECTION_FOR_REGRESSION 函数在回归场景中检测点离群值,支持以下回归模型: 基于 MLR 的线性模型基于 HGBT 的树模型回归的离群值检测 公平物料分类账(新)公平的机器学习旨在缓解预测模型中的不公平,因为与性别、种族和年龄等功能相关的数据集可能存在偏差。它是一个灵活的框架,可以使用各种机器学习模型或技术。PAL_FAIRML 函数中添加了一个重要的新参数 FAIR_EXCLUDE_SENSITIVE_VARIABLE,允许您决定在训练期间是否排除敏感变量。默认情况下,将排除这些变量。在此初始版本中,Fair ML 支持具有二进制分类和回归功能的 HGBT 模型。公平的 ML 新的大规模函数(新增)引入了大规模函数,允许您跨多个独立数据组并行运行函数,以增强各种算法的性能和可扩展性。这一强大的功能确保可以同时分配和执行计算,从而节省大量时间并提高效率,尤其是在处理大型数据集时。以下算法现在支持大规模并行执行功能:在线 BCPD 算法隔离森林预测精确度度量时间序列离群值检测四分位间距一次指数平滑法二次指数平滑法三次指数平滑法布朗指数平滑法K 最佳规则发现 (KORD)K-均值FP-Growth多元线性回归指数回归二变自然对数回归生物变异几何回归多项式回归差异测试Croston 的方法带阻尼趋势和季节性调整的线性回归白噪声测试季节性测试趋势测试快速傅里叶变换更改点检测间歇时间序列预测 (ITSF)大规模执行 PAL 功能 新文本分类(新) PAL 通过使用 RDT 作为分类符,替换旧的 KNN 分类符增强了文本分类算法。此更新提高了文本分类的准确性。添加到 PAL 库的新过程包括: _SYS_AFL.PAL_TEXTCLASSIFICATION_TRAIN_SYS_AFL.PAL_TEXTCLASSIFICATION含模型的文本分类(训练)含模型的文本分类(预测) SPS08 中引入了更多增强 时间序列的离群值检测增强(已更改) 时间序列函数的离群值检测现在支持自动选择检测算法。通过增强或添加以下参数支持两种新算法: AUTO:确定是否使用自动检测方法。SMOOTH_METHOD:选项包括0:中值过滤器1:低(新)2:更加顺畅(新)VOTING_OUTLIER_METHOD:使用基于虚拟的算法选择逻辑。此外,此功能支持通过以下方式检测间歇时间序列: DETECT_INTERMITTENT_TS:缺省值 0。设置为 1 以检测间歇时间序列,仅在使用自动检测方法时有效。离群值检测 支持统一聚类中预计算距离矩阵的新功能(已更改) PAL 中的以下函数现在支持通过统一聚类接口预计算的距离矩阵: 聚合层次结构聚类光谱聚类统一聚类含透视输入数据的统一聚类 单热编码增强(已更改) 要使用单热编码解决与高基数功能相关的性能和内存问题,引入了两个新参数: ONEHOT_MIN_FREQUENCY – 定义类别的最小频率。此频率下方的类别与其他低频率类别进行分组。ONEHOT_MAX_CATEGORIES – 定义功能的最大类别数。如果总数超过此限制,则会对最低频率类别进行分组。此版本中受影响的算法包括:多类逻辑回归多层感知支持向量机多元线性回归光谱聚类 分类方法中的前 N 个详细类(已更改) 最初,当为分类预测方法设置 VERBOSE 参数时,将输出预测记录的所有相关类和配置,这可能会导致性能问题。新参数 VERBOSE_TOP_N 现在可用于以下函数的预测方法,以控制输出类的数量: 决策树混合梯度提升树多类逻辑回归朴素贝叶斯随机决策树线性鉴别分析统一分类使用透视输入数据的统一分类用于统一分类的详细前 N 项Verbose TopN,用于含透视输入数据的统一分类 用于季节性测试的 STL 分解方法(已更改) 已通过新参数 DECOMPOSE_METHOD 将新的时间序列分解方法 使用 LOESS (STL) 的季节性趋势分解添加到季节性测试中。SMOOTH_METHOD_NON_SEASONAL 分解方法现在包括 STL_ROBUST 和 STL_SEASONAL_AVERAGE 作为参数值。 使用 STL 分解,可通过多步 LOESS 和移动平均值获取趋势和季节性成分。随机组件可以直接估算。如果时间序列中存在零或负值,则 STL 只能执行加法分解。 季节性测试 TF-IDF(已更改) PAL 已为 TF-IDF 添加新参数,以允许您控制非索引字函数: ENABLE_STOPWORDSKEEP_NUMERICALLOWED_LISTNOTALLOWED_LISTTF-IDF 计算 KNN(已更改) PAL 已向 PAL_KNN 和 PAL_KNN_CV 过程的 METHOD 参数添加新参数值 2:矩阵已启用搜索。此启用矩阵的新搜索执行速度更快,但仅支持 DISTANCE_LEVEL=2,并且不支持 STRING_VARIABLE 参数。 KNN 长期时间序列预测 (LTSF)(已更改) LTSF 增加了三种基于线性的新方法来提高速度和准确性。通过在 _SYS_AFL.PAL_LTSF_TRAIN 方法中引入新的 NETWORK_NAME 参数,支持以下方法类型: 0:NLinear(缺省)(新)1:DLinear(新)2:XLinear(新)3: SCINet 此外,新的 PAL_LTSF_DECOMPOSE 方法将预测值分解为 TREND、SEASONAL 以及每个外部功能的计算贡献(含或不含参考值)。当前,仅支持 XLinear 网络类型。 长期系列预测