Lightsail 中的指标警报 - Amazon Lightsail

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Lightsail 中的指标警报

您可以在 Amazon Lightsail 中创建告警,监控实例、数据库、负载均衡器和内容分发网络 (CDN) 分配的单个指标。可以将警报配置为根据您指定了阈值的指标值来向您发送通知。通知可以是 Lightsail 控制台中显示的横幅、发送到您的电子邮件地址的电子邮件以及发送到您的手机号码的短信。在本指南中,我们将介绍您可以配置的告警条件和设置。

内容

配置告警

要在 Lightsail 控制台中添加告警,请浏览到实例、数据库、负载均衡器或 CDN 分配的指标选项卡。然后选择要监控的指标,再选择添加告警。您可以为每个指标添加两个告警。有关指标的更多信息,请参阅资源指标

要配置告警,首先要确定一个阈值,该指标值是告警改变状态的点(例如,从 OK 状态变为 ALARM 状态,反之亦然)。有关更多信息,请参阅告警状态。然后选择一个比较运算符,该运算符将用于比较指标与阈值。可使用的运算符为大于或等于大于小于以及小于或等于

然后,您可以指定警报改变状态必须超过阈值的次数与评估指标的时段。Lightsail 每 5 分钟评估一次警报的数据点,每个数据点表示 5 分钟的聚合数据时间段。例如,如果您指定当阈值超过 2 次时触发的告警,则评估期必须为过去 10 分钟或更长时间(最多 24 小时)。如果您指定当阈值超过 10 次时触发的告警,则评估期必须为过去 50 分钟或更长时间(最多 24 小时)。

配置告警条件后,您可以配置进行通知的方式。当告警从 OK 状态变为 ALARM 状态时,会在 Lightsail 控制台中始终显示通知横幅。您也可以选择通过电子邮件和 SMS 文本消息进行通知,但必须配置相应的联系人。有关更多信息,请参阅指标通知。如果您选择通过电子邮件和/或 SMS 文本消息进行通知,您也可以选择在告警状态从 ALARM 状态变为 OK 状态时通知,其被视为是全部清除通知。

在告警的高级设置中,您可以选择 Lightsail 如何处理缺失的指标数据。有关更多信息,请参阅配置警报如何处理缺失数据

告警状态

告警始终处于以下状态之一:

  • 警报:指标在规定的阈值范围外。

    例如,如果您选择大于比较运算符,告警将在指标大于指定阈值时为 ALARM 状态。如果您选择小于比较运算符,告警将在指标小于指定阈值时为 ALARM 状态。

  • 正常:指标在规定的阙值范围内。

    例如,如果您选择大于比较运算符,告警将在指标小于指定阈值时为 OK 状态。如果您选择小于比较运算符,告警将在指标大于指定阈值时为 OK 状态。

  • 数据不足:警报刚刚开始、指标不可用或没有足够的指标数据供警报来确定警报状态。

告警仅在状态改变时触发。警报不会仅仅因为其处于颗粒状态而触发,状态必须已更改。触发告警时,会在 Lightsail 控制台中显示通知横幅。您还可以配置告警以通过电子邮件和 SMS 文本消息进行通知。

告警示例

根据之前描述的告警条件,您可以配置一个告警,当实例的 CPU 使用率在一个 5 分钟的时段内有一次大于或等于 5% 时,便进入 ALARM 状态。以下示例显示了此告警在 Lightsail 控制台中的设置。


        CPU 使用率告警示例。

在此示例中,如果实例的 CPU 使用率指标仅报告一个数据点的使用率为 5% 或以上,则告警将从 OK 状态变为 ALARM 状态。后续数据点报告使用率为 5% 或以上会将告警保持在 ALARM 状态。在如果实例的 CPU 使用率指标仅报告一个数据点的使用率为 4.9% 或以下,则告警将从 ALARM 状态变为 OK 状态。

下图进一步说明了此告警。红色虚线表示 5% 的 CPU 使用率阈值,蓝点表示指标数据点。对于第一个数据点,告警为 OK 状态。第二个数据点将告警变为 ALARM 状态,因为该数据点大于阈值。第三个和第四个数据点保持 ALARM 状态,因为数据点继续大于阈值。第五个数据点会将告警变为 OK 状态,因为该数据点小于阈值。


        告警指标的示例。

配置警报如何处理缺失数据

在某些情况下,不报告带有告警的指标的某些数据点。例如,当连接丢失或服务器出现故障时,可能会发生这种情况。

Lightsail 允许您在配置告警时指定如何处理缺失数据点。这可帮助您为要监控的数据类型配置适时进入 ALARM(告警)状态的告警。您可以避免在缺失数据没有指示问题时进行误报。

与每个告警始终处于三种状态之一类似,报告的每个特定数据点将属于以下三个类别之一:

  • 未超出:数据点在阈值范围内。

    例如,如果您选择大于比较运算符,数据点将在其小于指定阈值时为 Not breaching 状态。如果您选择大于比较运算符,数据点将在其大于指定阈值时为 Not breaching 状态。

  • 超出:数据点超出阈值范围。

    例如,如果您选择大于比较运算符,数据点将在其大于指定阈值时为 Breaching 状态。如果您选择大于比较运算符,数据点将在其小于指定阈值时为 Breaching 状态。

  • 缺失:缺失数据点的行为由 treat missing data 参数指定。

对于每个告警,您可以指定 Lightsail 按照以下其中一种方式处理缺失数据点:

  • 未超出:将缺失数据点视为“良好”,并在阈值范围内。

  • 超出:将缺失数据点视为“不良”,并超出阈值。

  • 忽略:保持当前警报状态。

  • 缺失:在评估是否改变状态时,警报不考虑缺失数据点。这是默认的告警行为。

最佳选择取决于指标的类型。对于诸如实例的 CPU 使用率等指标,您可能需要将缺失数据点视为超出阈值。这是因为缺失数据点可能表明有些问题。但对于仅在发生错误时生成数据点的指标 (如负载均衡器的 HTTP 500 服务器错误计数),您可能需要将缺失数据视为未超出阈值。

为您的告警选择最佳选项可防止不必要和误导性的告警条件更改。它还可以更准确地指示系统的运行状况。

在数据缺失时如何评估告警状态

无论您针对如何处理缺失数据设置什么值,当告警评估是否更改状态时,Lightsail 都会尝试检索比 Evaluation Periods (评估期) 指定数量更多的数据点。它尝试检索的数据点的确切数量取决于告警期限长度。它尝试检索的数据点时间范围为评估范围。

一在 Lightsail 检索这些数据点后,会发生以下情况:

  • 如果评估范围内的数据点没有缺失,Lightsail 将根据最近收集的数据点来评估告警。

  • 如果评估范围内的一些数据点缺失,但是收集的现有数据点的数量等于或超过告警的 Evaluation Periods (评估期),则 Lightsail 将根据已成功收集的最近现有数据点来评估告警状态。在此情况下,您针对如何处理缺失数据而设置的值便没有必要,将被忽略。

  • 如果评估范围内的一些数据点缺失,并且收集的现有数据点数量少于评估期的告警数量,则 Lightsail 将在缺失数据点中填写您针对如何处理缺失数据而指定的结果,然后评估该告警。但是,评估范围内的任何实际数据点(无论何时报告)都包含在评估中。Lightsail 尽可能少地使用缺失数据点。

在所有这些情况下,评估的数据点数等于评估期的值。如果少于 Datapoints to Alarm (触发告警的数据点数) 的值超出阈值,则告警状态设置为“正常”。否则,状态设置为“告警”。

注意

该行为的一种特殊情况是,在指标流停止后的一段时间内,Lightsail 告警可能会反复重新评估最后一组数据点。如果告警在指标流即将停止之前更改了状态,这种重新评估可能会导致告警更改状态并重新执行操作。要缓解此行为,请使用较短时间段。

图形示例中的缺失数据

本部分中的以下图表阐明了告警评估行为的示例。在图 A、B、C、D 和 E 中,必须超出到警报状态的数据点和评估期数量都是 3。红色虚线表示阈值,蓝点表示有效的数据点,破折号表示缺失数据。阈值线上方的数据点为超出阈值,阈值线下方的数据未超过阈值。如果最近三个数据点中有一些缺失,Lightsail 将尝试检索其他有效的数据点。

注意

如果创建告警后不久便有数据点缺失,并且该指标在您创建告警之前便已报告给 Lightsail,则 Lightsail 在评估告警时会检索从创建告警之前算起的最近数据点。

图 A


          缺失数据图 A。

在前面的图形指标中,数据点 1 在阈值范围内,数据点 2 缺失,数据点 3 超出阈值,数据点 4 缺失,数据点 5 超出阈值。由于在评估范围内有三个有效的数据点,因此该指标具有零个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“正常”状态。

  • 超出:警报将处于“正常”状态。

  • 忽略:警报将处于“正常”状态。

  • 缺失:警报将处于“正常”状态。

图 B


          缺失数据图 B。

在前面的图形指标中,数据点 1 在阈值范围内,数据点 2 至 5 缺失。由于在评估范围内只有一个有效的数据点,因此该指标具有两个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“正常”状态。

  • 超出:警报将处于“正常”状态。

  • 忽略:警报将处于“正常”状态。

  • 缺失:警报将处于“正常”状态。

在这种情况下,告警将保持在正常状态,即使缺失的数据被视为超出阈值。这是因为一个现有数据点未超出阈值,并且该数据点与两个被视为超出阈值的缺失数据点一起评估。下次评估此告警时,如果数据仍然缺失,它将进入“告警”状态。这是因为未超出阈值的数据点不再是检索的五个最近数据点当中的一个。

图 C


          缺失数据图 C。

前面的图形指标中缺失所有数据点。由于评估范围内的所有数据点都缺失,因此该指标具有三个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“正常”状态。

  • 超出:警报将处于“警报”状态。

  • 忽略:警报将保持当前状态。

  • 缺失:警报将处于“数据不足”状态。

图 D


          缺失数据图 D。

在前面的图形指标中,数据点 1 在阈值范围内,数据点 2 超出阈值,数据点 3 超出阈值,数据点 4 缺失,数据点 5 超出阈值。由于在评估范围内有四个有效的数据点,因此该指标具有零个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“警报”状态。

  • 超出:警报将处于“警报”状态。

  • 忽略:警报将处于“警报”状态。

  • 缺失:警报将处于“警报”状态。

在这种情况下,告警将在所有情形进入“告警”状态。这是因为存在足够的实时数据点,因此不需要设置如何处理缺失数据,缺失数据将被忽略。

图 E


          缺失数据图 E。

在前面的图形指标中,数据点 1 和 2 缺失,数据点 3 超出阈值,数据点 4 和 5 缺失。由于在评估范围内只有一个有效的数据点,因此该指标具有两个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“正常”状态。

  • 超出:警报将处于“警报”状态。

  • 忽略:警报将保持当前状态。

  • 缺失:警报将处于“警报”状态。

在图 F、G、H、I 和 J 中,告警的数据点有 2 个,而评估期是 3 个。这是“N 中的 M”告警,其中 M 为 2,N 为 3。5 是告警的评估范围。

图 F


          缺失数据图 F。

在前面的图形指标中,数据点 1 在阈值范围内,数据点 2 缺失,数据点 3 超出阈值,数据点 4 缺失,数据点 5 超出阈值。由于在评估范围内有三个数据点,因此该指标具有零个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“警报”状态。

  • 超出:警报将处于“警报”状态。

  • 忽略:警报将处于“警报”状态。

  • 缺失:警报将处于“警报”状态。

图 G


          缺失数据图 G。

在前面的图形指标中,数据点 1 和 2 在阈值范围内,数据点 3 超出阈值,数据点 4 在阈值范围内,数据点 5 超出阈值。由于在评估范围内有五个数据点,因此该指标具有零个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“警报”状态。

  • 超出:警报将处于“警报”状态。

  • 忽略:警报将处于“警报”状态。

  • 缺失:警报将处于“警报”状态。

图 H


          缺失数据图 H。

在前面的图形指标中,数据点 1 在阈值范围内,数据点 2 缺失,数据点 3 超出阈值,数据点 4 和 5 缺失。由于在评估范围内有两个数据点,因此该指标具有一个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“正常”状态。

  • 超出:警报将处于“警报”状态。

  • 忽略:警报将处于“正常”状态。

  • 缺失:警报将处于“正常”状态。

图 I


          缺失数据图 I。

在前面的图形指标中,数据点 1 到 4 缺失,数据点 5 在阈值范围内。由于在评估范围内有一个数据点,因此该指标具有两个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“正常”状态。

  • 超出:警报将处于“警报”状态。

  • 忽略:警报将处于“正常”状态。

  • 缺失:警报将处于“正常”状态。

图 J


          缺失数据图 J。

在前面的图形指标中,数据点 1 和 2 缺失,数据点 3 超出阈值,数据点 4 和 5 缺失。由于在评估范围内有一个数据点,因此该指标具有两个缺失数据点。如果您配置告警并将缺失数据点视为:

  • 未超出:警报将处于“正常”状态。

  • 超出:警报将处于“警报”状态。

  • 忽略:警报将保持当前状态。

  • 缺失:警报将处于“警报”状态。

有关告警的更多信息

以下文章可帮助您管理 Lightsail 中的告警: