佳洁的博客 | Leaf Blog

《混沌工程：Netflix系统稳定性之道》书评感想

《混沌工程：Netflix系统稳定性之道》（下简称《混沌工程》）总结了第一批混沌工程师的经验和智慧。全书虽然不像大部分技术类书籍那样厚，但干货很多，值得反复阅读。书中内容分为三部分：第一部分介绍了什么是混沌工程，为什么需要混沌工程，混沌工程和故障注入、测试之间的区别；第二部分介绍了混沌工程的五大原则——建立稳定状态假设、用现实事件做验证、在生产环境中实验、自动化实验和最小化爆炸半径；第三...

Posted by Jiajie Wu on April 9, 2020

读书笔记：《混沌工程》第二部分——混沌工程原则（5、6、7章）

第五章在生产环境中进行实验经典测试的一般信条是寻找软件缺陷要尽可能远离生产环境，但是混沌工程不同，在离生产环境越近的地方越好。理想的实践就是直接在生产环境中进行。传统测试验证软件的逻辑性（既代码写的对不对），混沌工程验证系统整体的稳定性，如果不在生产环境（or近似生产环境）中进行，就无法产生产环境的系统稳定性具有信心。状态和服务： “状态”无处不在。无论是「有状态服务...

Posted by Jiajie Wu on April 2, 2020

读书笔记：《混沌工程》第二部分——混沌工程原则（3、4章）

优化一个复杂系统的性能需要在混乱的边缘进行，既在系统行为即将开始变得混乱、无迹可寻之前。 ————Sydney Dekker，Drift Into Failure 开篇在现实中，复杂系统发生“混乱”是随机且无序的。虽然混沌工程的目的是为了提前找出这些“混乱”，但者不代表混沌工程的实施也是随机的。相反，它是一门原则性很强、具有实验性的学科。开篇引文的作者Dekker...

Posted by Jiajie Wu on March 26, 2020

阅读笔记：《Unsupervised Anomaly Detection for Intricate KPIs via Adversarial Training of VAE》

论文阅读：复杂KPIs的异常检测算法

这是一篇清华大学NetMans实验室与阿里数据库团队联合发表在INFOCOM2019会议上的论文。该论文介绍了一种基于划分分析的贝叶斯网络生成对抗训练方法，并将它和VAE模型结合，提出了新的针对复杂KPIs的非监督异常检测算法Buzz。背景为了保证Internet应用服务的可靠性，需要每时每刻对关键性能指标（KPI）进行实时监控。当KPI出现异常（如突然增加、突然下降和抖动）...

Posted by Jiajie Wu on March 24, 2020

读书笔记：《混沌工程》第一部分——混沌工程介绍

混沌工程是一门新兴学科，它的初衷是通过实验性的方法，让人们能够建立复杂分布式系统在生产中抵御突发事件能力的信心。 ————混沌工程原则生产环境中的分布式系统包含大量的交互、依赖点，这导致系统可能出错的地方非常多。每天，系统都可能面临各种问题，例如硬件故障、网络阻塞、流量激增……这些问题如果处理不好，就可能引发各种无法预料的异常（性能低下、业务异常……）。混沌工程就是...

Posted by Jiajie Wu on March 19, 2020

阅读笔记：《A Deep Neural Network for Unsupervised Anomaly Detection and Diagnosis in Multivariate Time Series Data》

论文阅读：多维时间序列无监督异常检测算法

本文介绍了一种使用图神经网络进行多指标异常检测的新方法。在预处理阶段，使用了计算协方差的方式。在模型训练阶段，结合了 AutoEncode 和 Conv-LSTM。在实验部分，不仅使用人造数据，还使用真实的发电厂运维数据进行对比。对比的方法包括OC-SVM、DAGMM、ARMA、LSTM-ED等多个经典算法。背景在现实环境中存在的大部分系统都很复杂复杂，监视这些系统会获取大量...

Posted by Jiajie Wu on March 12, 2020

KINME配置大数据平台：问题记录和解决方法

KNIME连接Hadoop、Spark、Hive过程中会遇到很多问题，这里将问题和解决方案记录下，方便后续少踩坑。

KNIME作为一个功能完善的可视化数据工作流平台，支持连接到Hadoop、Spark、Hive等大数据平台进行数据分析。在进行相关的实验前，需要部署好相应的大数据平台并将KNIME和它们连接起来，这个过程中会出现很多问题，往往会耗费很多的时间和精力。为了防止下次再遇到相同的问题，在此记录一下。 KNIME版本：3.7 Hadoop版本：2.6 Spark版本：2.4 Hive版...

Posted by Jiajie Wu on March 5, 2020

Mesos论文后续阅读01：Spark on Mesos的两种模式

Spark on Mesos两种模式的学习，解决阅读Mesos论文后遇到的问题。这篇是后续阅读01，前文请见这里。问题： Spark官网提到从2.0开始就弃用了Mesos的“细粒度模式”，这是为什么？“细粒度”和“粗粒度”之间的对比？Spark on Mesos中的「动态分配+粗粒度」又是怎么回事？一、粗粒度和细粒度粒度（Granularity）：粒度是指系统被分...

Posted by Jiajie Wu on September 10, 2019

《Mesos: A Platform for Fine-Grained Resource Sharing in the Data Center》阅读笔记

论文阅读：资源管理系统 Mesos 的详细介绍

Mesos是Apache下的开源分布式资源管理系统。它最初是由加州大学伯克利分校的AMPLab实验室开发的，后在Twitter得到广泛使用。这篇论文于2011年发布在NSDI会议上，里面详细介绍了Mesos的设计初衷、架构实现和实验评估。现状和问题文章中提到，当时的共享集群的两种常见解决方案都存在「资源利用率低、未实现高效数据共享」的问题。两种常见解决方案是：静态分区集群，...

Posted by Jiajie Wu on September 4, 2019

《A hybrid evolutionary algorithm for task scheduling and data assignment of data-intensive scientific workflows on clouds》阅读笔记

论文阅读：A Workflow Scheduling Algorithm Based on a New Model

这是一篇17年发在《Future Generation Computer Systems》上的期刊论文。文章提出了一个科学工作流的新调度模型，并基于这个模型提出了一个新的调度算法HEA （Hybrid Evolutionary Algorithm）。新模型和旧模型相比，将 data 放到了和 task 同等重要的位置，同时考虑两者的调度方式。现状和问题过去，科学工作流的运行环境大...

Posted by Jiajie Wu on July 24, 2019

ABOUT ME

Leaf Blog