运维领域大模型检测异常数据，如何给出分析过程数据和可能结论辅助运维人员定位问题？

利用大模型算法实时检测业务和IT技术数据中的异常数据，结合业务运营和科技运维相关知识，识别异常数据是否影响业务的连续性和稳定性，并定位问题根源进行解决。该议题的共识将对金融行业用户提升业务连续性管理能力有显著价值。重点研讨和交流：保障业务连续性和稳定性是金融行...显示全部

关注2

参与3

返回catalinaspring的回答

catalinaspring

副处长金融

在实际场景中，很多数据集都是多维度的。随着维度的增加，数据空间的大小（体积）会以指数级别增长，使数据变得稀疏，这便是维度诅咒的难题。维度诅咒不止给异常检测带来了挑战，对距离的计算，聚类都带来了难题。例如基于邻近度的方法是在所有维度使用距离函数来定义局部性，但是，在高维空间中，所有点对的距离几乎都是相等的（距离集中），这使得一些基于距离的方法失效。在高维场景下，一个常用的方法是子空间方法。
集成是子空间思想中常用的方法之一，可以有效提高数据挖掘算法精度。集成方法将多个算法或多个基检测器的输出结合起来。其基本思想是一些算法在某些子集上表现很好，一些算法在其他子集上表现很好，然后集成起来使得输出更加鲁棒。集成方法与基于子空间方法有着天然的相似性，子空间与不同的点集相关，而集成方法使用基检测器来探索不同维度的子集，将这些基学习器集合起来。
有两种常见的集成方法用于异常数据检测：
Feature Bagging，基本思想与bagging相似，只是对象是feature。feature bagging属于集成方法的一种。
孤立森林（Isolation Forest）算法是周志华教授等人于2008年提出的异常检测算法，是机器学习中少见的专门针对异常检测设计的算法之一，方法因为该算法时间效率高，能有效处理高维数据和海量数据，无须标注样本，在工业界应用广泛。孤立森林属于非参数和无监督的算法，既不需要定义数学模型也不需要训练数据有标签。孤立森林查找孤立点的策略非常高效。假设我们用一个随机超平面来切割数据空间，切一次可以生成两个子空间。然后我们继续用随机超平面来切割每个子空间并循环，直到每个子空间只有一个数据点为止。直观上来讲，那些具有高密度的簇需要被切很多次才会将其分离，而那些低密度的点很快就被单独分配到一个子空间了。孤立森林认为这些很快被孤立的点就是异常点。

银行 · 2024-03-02

运维领域大模型检测异常数据，如何给出分析过程数据和可能结论辅助运维人员定位问题？

返回catalinaspring的回答

回答者

catalinaspring 最近回答过的问题

回答状态