Leaf Blog

新的一切 新的开始

《混沌工程:Netflix系统稳定性之道》书评感想

《混沌工程:Netflix系统稳定性之道》(下简称《混沌工程》)总结了第一批混沌工程师的经验和智慧。全书虽然不像大部分技术类书籍那样厚,但干货很多,值得反复阅读。书中内容分为三部分:第一部分介绍了什么是混沌工程,为什么需要混沌工程,混沌工程和故障注入、测试之间的区别;第二部分介绍了混沌工程的五大原则——建立稳定状态假设、用现实事件做验证、在生产环境中实验、自动化实验和最小化爆炸半径;第三...

读书笔记:《混沌工程》第二部分——混沌工程原则(5、6、7章)

第五章 在生产环境中进行实验 经典测试的一般信条是寻找软件缺陷要尽可能远离生产环境,但是混沌工程不同,在离生产环境越近的地方越好。理想的实践就是直接在生产环境中进行。 传统测试验证软件的逻辑性(既代码写的对不对),混沌工程验证系统整体的稳定性,如果不在生产环境(or近似生产环境)中进行,就无法产生产环境的系统稳定性具有信心。 状态和服务: “状态”无处不在。无论是「有状态服务...

读书笔记:《混沌工程》第二部分——混沌工程原则(3、4章)

优化一个复杂系统的性能需要在混乱的边缘进行,既在系统行为即将开始变得混乱、无迹可寻之前。 ————Sydney Dekker,Drift Into Failure 开篇 在现实中,复杂系统发生“混乱”是随机且无序的。虽然混沌工程的目的是为了提前找出这些“混乱”,但者不代表混沌工程的实施也是随机的。相反,它是一门原则性很强、具有实验性的学科。 开篇引文的作者Dekker...

阅读笔记:《Unsupervised Anomaly Detection for Intricate KPIs via Adversarial Training of VAE》

论文阅读:复杂KPIs的异常检测算法

这是一篇清华大学NetMans实验室与阿里数据库团队联合发表在INFOCOM2019会议上的论文。 该论文介绍了一种基于划分分析的贝叶斯网络生成对抗训练方法,并将它和VAE模型结合,提出了新的针对复杂KPIs的非监督异常检测算法Buzz。 背景 为了保证Internet应用服务的可靠性,需要每时每刻对关键性能指标(KPI)进行实时监控。当KPI出现异常(如突然增加、突然下降和抖动)...

读书笔记:《混沌工程》第一部分——混沌工程介绍

混沌工程是一门新兴学科,它的初衷是通过实验性的方法,让人们能够建立复杂分布式系统在生产中抵御突发事件能力的信心。 ————混沌工程原则 生产环境中的分布式系统包含大量的交互、依赖点,这导致系统可能出错的地方非常多。每天,系统都可能面临各种问题,例如硬件故障、网络阻塞、流量激增……这些问题如果处理不好,就可能引发各种无法预料的异常(性能低下、业务异常……)。 混沌工程就是...

阅读笔记:《A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data》

论文阅读:多维时间序列无监督异常检测算法

本文介绍了一种使用图神经网络进行多指标异常检测的新方法。在预处理阶段,使用了计算协方差的方式。在模型训练阶段,结合了 AutoEncode 和 Conv-LSTM。 在实验部分,不仅使用人造数据,还使用真实的发电厂运维数据进行对比。对比的方法包括OC-SVM、DAGMM、ARMA、LSTM-ED等多个经典算法。 背景 在现实环境中存在的大部分系统都很复杂复杂,监视这些系统会获取大量...

KINME配置大数据平台:问题记录和解决方法

KNIME连接Hadoop、Spark、Hive过程中会遇到很多问题,这里将问题和解决方案记录下,方便后续少踩坑。

KNIME作为一个功能完善的可视化数据工作流平台,支持连接到Hadoop、Spark、Hive等大数据平台进行数据分析。 在进行相关的实验前,需要部署好相应的大数据平台并将KNIME和它们连接起来,这个过程中会出现很多问题,往往会耗费很多的时间和精力。为了防止下次再遇到相同的问题,在此记录一下。 KNIME版本:3.7 Hadoop版本:2.6 Spark版本:2.4 Hive版...

Mesos论文后续阅读01:Spark on Mesos的两种模式

Spark on Mesos两种模式的学习,解决阅读Mesos论文后遇到的问题。 这篇是后续阅读01,前文请见这里。 问题: Spark官网提到从2.0开始就弃用了Mesos的“细粒度模式”,这是为什么?“细粒度”和“粗粒度”之间的对比?Spark on Mesos中的「动态分配+粗粒度」又是怎么回事? 一、粗粒度和细粒度 粒度(Granularity):粒度是指系统被分...

《Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center》阅读笔记

论文阅读:资源管理系统 Mesos 的详细介绍

Mesos是Apache下的开源分布式资源管理系统。它最初是由加州大学伯克利分校的AMPLab实验室开发的,后在Twitter得到广泛使用。这篇论文于2011年发布在NSDI会议上,里面详细介绍了Mesos的设计初衷、架构实现和实验评估。 现状和问题 文章中提到,当时的共享集群的两种常见解决方案都存在「资源利用率低、未实现高效数据共享」的问题。 两种常见解决方案是:静态分区集群,...

《A hybrid evolutionary algorithm for task scheduling and data assignment of data-intensive scientific workflows on clouds》阅读笔记

论文阅读:A Workflow Scheduling Algorithm Based on a New Model

这是一篇17年发在《Future Generation Computer Systems》上的期刊论文。文章提出了一个科学工作流的新调度模型,并基于这个模型提出了一个新的调度算法HEA (Hybrid Evolutionary Algorithm)。 新模型和旧模型相比,将 data 放到了和 task 同等重要的位置,同时考虑两者的调度方式。 现状和问题 过去,科学工作流的运行环境大...