監控 Amazon Lightsail 資源 - Amazon Lightsail

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

監控 Amazon Lightsail 資源

透過檢查和收集指標資料,監控 Amazon Lightsail 中的執行個體、資料庫、分發、負載平衡器、容器服務和儲存貯體的效能。建立一段時間的基準,那麼您就可以設定警示,以便更輕鬆地偵測資源效能的異常情況和問題。

Amazon Lightsail 會報告執行個體、資料庫、內容交付網路 (CDN) 分發、負載平衡器、容器服務和儲存貯體的指標資料。您可以在 Lightsail 主控台中檢視和監控此資料。監控是維護資源可靠性、可用性與效能的重要環節。定期監控並從您的資源收集指標資料,即可更輕鬆地進行多點失敗的偵錯。

內容

有效監控您的資源

您應該在環境中建立正常資源效能的基準。在不同的時間及負載條件下測量效能。當您監控資源時,您應該寫下並記錄一段時間內資源效能的歷程記錄。將資源的目前效能與您所收集的歷史資料進行比較。這可協助您識別正常效能模式和效能異常情況,並策劃解決這些情況的方法。

例如,您可以監控執行個體的 CPU 使用率、網路使用率和狀態檢查。若效能不符合您所建立的基準,您可能需要重新設定或將執行個體最佳化,以降低 CPU 使用率或降低網路流量。如果您的執行個體運作持續高於 CPU 使用率閾值,您可以為執行個體切換到更大型的方案 (例如,使用每個月 5 USD 的方案,而不是每個月 3.50 USD 的方案)。您可以為執行個體建立新的快照,然後使用較大型的方案從快照建立新執行個體,以切換至較大型的方案。

建立基準之後,您可在 Lightsail 主控台中設定警示,以在資源超過指定的閾值時通知您。如需詳細資訊,請參閱通知警示

指標概念和術語

下列術語和概念可協助您更加了解 Lightsail 中的指標使用情況。

指標

指標代表按時間順序排列的資料集點。您可以將指標視為您所監控的變數,且資料點代表該變數隨著時間的值。指標是由名稱唯一定義。例如,由 Lightsail 提供的一些執行個體指標包括 CPU 使用率 (CPUUtilization)、傳入網路流量 (NetworkIn) 和傳出網路流量 (NetworkOut)。如需 Lightsail 中所有可用資源指標的詳細資訊,請參閱 Lightsail 中可用的指標

指標保留

含少於 60 秒期間 (1 分鐘解析度) 的資料點可供使用 15 天。含少於 300 秒期間 (5 分鐘解析度) 的資料點可供使用 63 天。含少於 3600 秒期間 (1 小時解析度) 的資料點可供使用 455 天 (15 個月)。

原先以較短期間提供的資料點會一起彙總,以供長期儲存。例如,具有 1 分鐘精細程度的資料點 (1 分鐘解析度) 仍可供使用 15 天。在 15 天候,此資料仍可供使用,但會進行彙總並以僅 5 分鐘的解析度可供擷取。在 63 天候,此資料會進一步進行彙總並以僅 1 小時的解析度可供使用。如果您需要指標的可用性超過這些期間,則可使用 Lightsail API、AWS Command Line Interface (AWS CLI) 和軟體開發套件來擷取離線或不同儲存體的資料點。

如需詳細資訊,請參閱《Lightsail API 參考》中的 GetInstanceMetricDataGetBucketMetricDataGetLoadBalancerMetricDataGetDistributionMetricDataGetRelationalDatabaseMetricData

統計資料

指標統計資料是在一段時間內彙總資料的方法。統計資料範例包括 AverageSumMaximum。例如,使用 Average 統計資料可用來平均執行個體 CPU 使用率指標資料、Sum 統計資料可用來新增資料庫連線、Maximum 統計資料可用來擷取最大負載平衡器回應時間等等。

如需可用指標統計清單,請參閱《Lightsail API 參考》中的 GetInstanceMetricData 的統計數字GetBucketMetricData 的統計數字GetLoadBalancerMetricData 的統計數字GetDistributionMetricData 的統計數字GetRelationalDatabaseMetricData 的統計數字

個單位

每個統計單位有量測單位。範例單位包括 BytesSecondsCountPercent。如需單位的完整清單,請參閱《Lightsail API 參考》中的 GetInstanceMetricData 的單位GetLoadBalancerMetricData 的單位GetDistributionMetricData 的單位GetRelationalDatabaseMetricData 的單位

期間

期間是與特定資料點相關聯的時間長度 - 所傳回資料點的精細程度。每個資料點都代表在指定的期間內收集的指標資料彙總。期間會以秒定義,期間的有效值為 60 秒 (1 分鐘) 和 300 秒 (5 分鐘) 的倍數。

當您使用 Lightsail API 擷取資料點時,您可以指定期間、開始時間和結束時間。這些參數會判斷與資料點相關的整體時間長度。Lightsail 會以 1 分鐘或 5 分鐘的增量報告指標資料;因此,您必須以 60 秒和 300 秒的倍數指定期間。您為開始時間和結束時間指定的值會決定 Lightsail 傳回的期間數量。如果您偏好在十分鐘區塊內彙總的統計資料,指定期間為 600。對於在整個小時彙總的統計資料,將期間指定為 3600。

期間對 Lightsail 警示來說也很重要。Lightsail 每 5 分鐘會評估一次警示的資料點,而且警示的每個資料點都代表 5 分鐘的彙總資料。當您建立警示來監控特定的指標,您會詢問 Lightsail 以比較指標與您指定的閾值。您可廣泛控制 Lightsail 進行比較的方式。您可以指定比較進行的期間,但也可以指定在總結時使用的評估期間數量。如需詳細資訊,請參閱 警示

警示

警示會在指定的期間內監視單一指標,並在指標超過您指定的閾值時通知您。通知的形式可以是 Lightsail 主控台中顯示的橫幅、傳送至您指定之電子郵件地址的電子郵件,以及傳送至您指定之行動電話號碼的簡訊。如需詳細資訊,請參閱 警示

Lightsail 中可用的指標

執行個體指標

以下是可用的執行個體指標。如需詳細資訊,請參閱檢視 Amazon Lightsail 中的執行個體指標

  • CPU 使用率 (CPUUtilization) – 執行個體上目前正在使用的已配置運算單位百分比。此指標可識別在執行個體上執行應用程式的處理能力。未將完整處理器核心配置給執行個體時,作業系統中的工具所顯示的百分比會小於 Lightsail。

    在 Lightsail 主控台中檢視執行個體的 CPU 使用率指標圖表時,您會看到永續和可高載區域。如需這些區域代表意義的詳細資訊,請參閱 CPU 使用率永續和可高載區域

  • 高載容量分鐘 (BurstCapacityTime) 與百分比 (BurstCapacityPercentage) – 高載容量分鐘代表執行個體以 100% CPU 使用率高載的可用時間量。高載容量百分比是執行個體可用的 CPU 效能百分比。您的執行個體會持續耗用並累積高載容量。只有當您的執行個體以 100% CPU 使用率運作時,才會以全速耗用高載容量分鐘。如需有關執行個體高載容量的詳細資訊,請參閱在 Amazon Lightsail 中檢視執行個體高載容量

  • 傳入網路流量 (NetworkIn) – 執行個體在所有網路介面上收到的位元組數目。此指標可識別執行個體的傳入網路流量數量。所報告的數目是在期間內收到的位元組總數。因為此指標的報告間隔為 5 分鐘,所以將報告的數字除以 300 可找出每秒的位元組數。

  • 傳出網路流量 (NetworkOut) – 執行個體在所有網路介面上送出的位元組數目。此指標可識別來自執行個體的傳出網路流量數量。所報告的數目是在期間內送出的位元組總數。因為此指標的報告間隔為 5 分鐘,所以將報告的數字除以 300 可找出每秒的位元組數。

  • 狀態檢查失敗 (StatusCheckFailed) – 報告執行個體是否通過執行個體狀態檢查與系統狀態檢查。此指標可以是 0 (通過) 或 1 (失敗)。此指標是以 1 分鐘的頻率提供。

  • 執行個體狀態檢查失敗 (StatusCheckFailed_Instance) – 報告執行個體是否通過執行個體狀態檢查。此指標可以是 0 (通過) 或 1 (失敗)。此指標是以 1 分鐘的頻率提供。

  • 系統狀態檢查失敗 (StatusCheckFailed_System) – 報告執行個體是否通過系統狀態檢查。此指標可以是 0 (通過) 或 1 (失敗)。此指標是以 1 分鐘的頻率提供。

  • 無字符中繼資料請求 (MetadataNoToken) – 已在無字符的情況下成功存取執行個體中繼資料服務的次數。此指標可判斷是否有任何使用執行個體中繼資料服務第 1 版的程序,在未使用字符的情況下存取執行個體中繼資料。如果所有請求都使用字符後端工作階段 (例如執行個體中繼資料服務第 2 版),則值為 0。如需詳細資訊,請參閱 Amazon Lightsail 中的執行個體中繼資料和使用者資料

資料庫指標

以下是可用的資料庫指標。如需詳細資訊,請參閱在 Amazon Lightsail 中檢視資料庫指標

  • CPU 使用率 (CPUUtilization) – 資料庫目前使用的 CPU 使用率百分比。

  • 資料庫連線 (DatabaseConnections) – 使用中的資料庫連線數量。

  • 磁碟佇列深度 (DiskQueueDepth) – 正在等待存取磁碟的未完成 IO (讀/寫請求) 數量。

  • 可用儲存空間 (FreeStorageSpace) – 可用儲存空間的數量。

  • 網路接收輸送量 (NetworkReceiveThroughput) – 資料庫的傳入 (接收) 網路流量,包括客戶資料庫流量及用於監控與複寫的 AWS 流量。

  • 網路傳輸輸送量 (NetworkTransmitThroughput) – 資料庫的傳出 (傳輸) 網路流量,包括客戶資料庫流量及用於監控與複寫的 AWS 流量。

分發指標

以下為可供使用的分發指標。如需詳細資訊,請參閱檢視 Amazon Lightsail 中的分發指標

  • 請求 (Requests) – 對於所有 HTTP 方法以及 HTTP 和 HTTPS 請求,您的分發收到的檢視器請求總數。

  • 上傳的位元組 (BytesUploaded) – 使用 POST 和 PUT 請求,透過您的分發上傳至原始伺服器的位元組數量。

  • 下載的位元組 (BytesDownloaded) – 檢視器為 GET、HEAD 及 OPTIONS 請求下載的位元組數量。

  • 總錯誤率 (TotalErrorRate) – 當回應的 HTTP 狀態碼為 4xx 或 5xx 時,全部檢視器請求的百分比。

  • HTTP 4xx 錯誤率 (4xxErrorRate) – 當回應的 HTTP 狀態碼為 4xx 時,全部檢視器請求的百分比。在這些情況下,用戶端或用戶端檢視器可能發生錯誤。例如,404 (未找到) 狀態碼表示未找到用戶端請求的物件。

  • HTTP 5xx 錯誤率 (5xxErrorRate) – 當回應的 HTTP 狀態碼為 5xx 時,全部檢視器請求的百分比。在這些情況下,原始伺服器不滿足要求。例如,503 (服務無法使用) 狀態碼表示原始伺服器目前無法使用。

負載平衡器指標

以下是可用的負載平衡器指標。如需詳細資訊,請參閱檢視 Amazon Lightsail 中的負載平衡器指標

  • 狀態正常的主機計數 (HealthyHostCount) – 視為狀態正常的目標執行個體數目。

  • 狀態不正常的主機計數 (UnhealthyHostCount) – 視為狀態不正常的目標執行個體數目。

  • 負載平衡器 HTTP 4XX (HTTPCode_LB_4XX_Count) – 源自於負載平衡器的 HTTP 4XX 用戶端錯誤碼數目。要求的格式不正確或不完整時,會產生用戶端錯誤。目標執行個體並未收到這些請求。此計數不包含目標執行個體產生的回應碼。

  • 負載平衡器 HTTP 5XX (HTTPCode_LB_5XX_Count) – 源自於負載平衡器的 HTTP 5XX 伺服器錯誤碼數目。其中不包含目標執行個體產生的任何回應碼。如果沒有狀態正常的執行個體附加至負載平衡器,或如果請求率超過執行個體 (溢出) 或負載平衡器的容量,則會回報此指標。

  • 執行個體 HTTP 2XX (HTTPCode_Instance_2XX_Count) – 目標執行個體所產生的 HTTP 2XX 回應碼數目。這未包含負載平衡器所產生的任何回應碼。

  • 執行個體 HTTP 3XX (HTTPCode_Instance_3XX_Count) – 目標執行個體所產生的 HTTP 3XX 回應碼數目。這未包含負載平衡器所產生的任何回應碼。

  • 執行個體 HTTP 4XX (HTTPCode_Instance_4XX_Count) – 目標執行個體所產生的 HTTP 4XX 回應碼數目。這未包含負載平衡器所產生的任何回應碼。

  • 執行個體 HTTP 5XX (HTTPCode_Instance_5XX_Count) – 目標執行個體所產生的 HTTP 5XX 回應碼數目。這未包含負載平衡器所產生的任何回應碼。

  • 執行個體回應時間 (InstanceResponseTime) – 請求離開負載平衡器之後到收到目標執行個體回應之前所經歷的時間 (秒)。

  • 用戶端 TLS 交涉錯誤計數 (ClientTLSNegotiationErrorCount) – 由於負載平衡器產生的 TLS 錯誤未與負載平衡器建立工作階段之用戶端所啟動的 TLS 連線數目。可能的原因包含晶片或協定不相符。

  • 請求計數 (RequestCount) – 透過 IPv4 處理的請求數目。此計數只包含具有負載平衡器目標執行個體所產生之回應的要求。

  • 拒絕的連線計數 (RejectedConnectionCount) – 因負載平衡器已達其連線數目上限而拒絕的連線數目。

容器服務指標

以下容器服務指標可供使用。如需詳細資訊,請參閱檢視容器服務指標

  • CPU 使用率 (CPUUtilization) – 目前在容器服務上跨全部節點使用之運算單位的平均百分比。此指標可識別在容器服務上執行容器所需的處理能力。

  • 記憶體使用率 (MemoryUtilization) – 目前在容器服務上跨全部節點使用之記憶體的平均百分比。此指標會識別在容器服務上執行容器所需的記憶體。

儲存貯體指標

以下儲存貯體指標可供使用。如需詳細資訊,請參閱檢視 Amazon Lightsail 中的儲存貯體指標

  • 儲存貯體大小 (BucketSizeBytes) – 儲存貯體中儲存的資料量。此值是加總儲存貯體中所有物件的大小 (包含最新和非最新物件) 而計算得出,包括所有分段上傳到儲存貯體的所有不完整部分的大小。

  • 物件數量 (NumberOfObjects) – 儲存貯體中儲存的物件總數。此值是計算儲存貯體中所有物件的數量 (包含最新和非最新物件) 以及所有分段上傳到儲存貯體的所有不完整部分的總數而計算得出。

注意

當您的儲存貯體為空時,不會報告儲存貯體指標資料。