grafana。prometheusにupとかってスクレイピング先がサービスダウンしてるかどうかが0か1かで時系列データベースに記録されるメトリクスが標準搭載されてて、prometheusをメタ的に監視するのにやはり便利。

これは24hで見てるけど、まずup。一瞥で分かりやすい。
あと僕的にこれ付いたほうがいいよなって思って平均とデルタを付けている。(デルタは時間内での数量の全変動の合計)
つまり、meanで稼働率、deltaでサーバーダウン回数が実質的に分かる。
左下のscrape_series_addedは文字通りデータの追加量の推移。logにしてるから見えやすい。形態素解析のNLPのデータがnginxのログデータより平常2,3倍多く推移してることが分かった。
でもmaxとチャートを見て分かる通りnginxの方はたまにスパイクがある。これはどっかの一つのbotが分をわきまえない非常識クローリングを15分(データ取得のinterval)以内でしてきてたっぽいというのを表している。
操作の一覧を開く 前後の投稿を見る