【独家特辑】机器产生的日志数据可以说是大数据宇宙中的暗物质。从智能手机到物联网终端,分布式信息技术生态系统中的每一层、每一个节点,甚至每一个组件都会产生它。它无穷无尽,无处不在,我们可以收集、处理、分析和使用它,主要是在幕后。日志数据通常作为许多沉闷的企业应用程序的基础,包括故障排除、调试、监控、安全、反欺诈、合规性和电子发现。但它也可以成为分析点击流、地理定位、社交媒体和其他与各种核心类型消费者密切相关的行为记录的强大指导工具。单靠人的能力根本跟不上机器记录数据的速度。这类数据大多在设计思路或实际使用上根本没有考虑人为分析的可能性。除非直接粗暴过滤,否则日志数据的极端体量、可怕的积累速度、丰富的特定类别将很快压倒人类的认知能力。埃森哲在最近的一篇文章中对此进行了简洁的解释:随着日志文件的大小和种类不断增加,日志管理解决方案解析日志文件、追踪潜在问题并实际发现错误的难度也在增加。改进——尤其是当交叉日志之间存在相关性时,这一点变得更加突出。即使在最好的情况下,也需要有经验的管理员跟踪事件链、过滤噪音并最终诊断根本原因——这确实是一个相当复杂的过程。显然,自动化已经成为在日志数据中寻找分析结论的关键,尤其是在大数据领域。自动化机制可以保证数据的采集、分析和处理,规则和事件驱动的响应能够真正匹配数据中的信息,并在数据流的传输过程中完成任务执行。实现日志分析机制的自动扩展,关键因素包括机器数据集成中间件、业务规则管理系统、语义分析、流计算平台和机器学习算法。在上述因素中,机器学习是自动化流程和日志数据的大规模分析的重中之重。但是,机器学习并不是日志数据分析的固定方案。不同的机器学习技术适用于不同类型的日志数据和不同的分析挑战。利用相关性和其他现有模式为机器学习机制构建先验监督方案是正确的方法。然而,监督学习人为地准备了一组从日志中导出的参考“训练数据”集。只有这样才能准确定义机器学习算法的判别能力,从而选择最符合实际情况的处理能力。然而,如果日志数据模式不能预测性地精确定义,那么无监督强化学习机制可能更合适。这些由机器学习技术支持的日志数据分析方案可谓是最理想的自动化处理场景,因为此类方案会自动选择匹配度高的处理模式并进行优先级排序,从而无需人工提供训练数据即可进行训练套。完成设定的任务。多日志关联是无监督强化学习方案所针对的核心日志数据分析用例。由于异构日志数据集在组合过程中会产生更高程度的异构性、复杂性和不可预测性,因此在分析过程中数据变量和数据关系总是混乱和模糊的。正因为如此,如果我们只是使用简单的查询、预编程的报告和仪表板或其他标准化的分析机制来查看数据,那么隐藏在数据中的信息模式根本不会显示出来。在这种情况下,机器学习可以使用各种定量方法(例如聚类、马尔可夫模型和自组织映射)来提取最值得注意的关系模式。无监督强化学习机制的另一个关键用例是识别以前从未见过的特定关系模式,或者它曾经见过,但被人类分析方案标记为“干扰”。一位作者写过将机器学习机制应用于安全日志分析,以“立即为用户提供典型的访问模式——即使这种特定模式以前从未发生过——并防止个人信息丢失。高风险。”隐藏在海量日志数据中的分析结论大多具有几个共同的特点:复杂、隐蔽、从未出现过。时间和精力。他们不断地调整他们的机器学习算法,希望在日志中找到重要的“信号”,即使是最好的人类专家也容易错过。原文链接:http://www.infoworld.com/d/big-data/big-data-log-analysis-thrives-machine-learning-244329核可乐翻译
