운영 및 유지 보수 모니터링을 잘 수행하는 방법?

통합 모니터링 플랫폼, 본질적으로 모니터링 시스템이다. 모니터링의 기본 역량은 필수다. 모니터링의 본질로 돌아가서 먼저 전체 모니터링 시스템을 정리해라.

① 모니터링 시스템의 본질은 장애 발견, 장애 해결, 장애 예방을 통해 이뤄진다

② 모니터링 시스템은 일반적으로 데이터 수집, 데이터 감지, 경보 관리, 장애 관리, 뷰 관리 및 모니터링 관리 6 대 모듈을 포함합니다. 데이터 수집, 데이터 감지 및 경보 처리는 모니터링의 가장 작은 폐쇄 루프이지만 모니터링 시스템을 제대로 수행하려면 장애 관리 폐쇄 루프, 뷰 관리 및 모니터링 관리 모듈도 필수적입니다.

1, 데이터 수집

1, 수집 방법

데이터 수집 방법은 일반적으로 에이전트 모드와 비 에이전트 모드로 구분됩니다.

에이전트 모드에는 플러그인 수집, 스크립트 수집, 로그 수집, 프로세스 수집, APM 프로브 등

비 에이전트 모드에는 범용 프로토콜 수집, 웹 다이얼 측정, API 인터페이스 등

가 포함됩니다

척도 데이터는 주로 차원으로 식별되는 숫자 기반 모니터링 항목입니다.

로그 데이터는 주로 모니터링할 키워드 정보를 찾는 문자 기반 데이터입니다.

추적 데이터 피드백은 추적 링크의 데이터 흐름 프로세스를 통해 시간이 많이 걸리는 성능이 정상인지 여부를 관찰하는 것입니다.

3, 수집 빈도

수집 빈도 초, 분, 임의 세 가지 유형. 일반적으로 사용되는 수집 빈도는 분 단위입니다.

4, 수집 전송

수집 전송은 전송 개시별 또는 전송 링크별로 분류할 수 있습니다.

전송 개시별 사전 예방적 수집 당기기, 수동 수신 푸시

전송 링크별 직접 모드, 프록시 전송.

여기서 프록시 전송은 네트워크를 통한 데이터 전송 모니터링 문제를 해결할 뿐만 아니라 과도한 모니터링 노드 수로 인한 데이터 전송 병목 현상을 완화하고 프록시를 사용하여 데이터 오프로드를 수행합니다.

5, 데이터 저장소

모니터링 시스템의 경우 주로

① 관계형 데이터베이스

를 선택할 수 있는 세 가지 스토리지가 있습니다 (예: MySQL) 일반적인 모니터링 시스템 담당자: Zabbix, SCOM, Tivoli；;

데이터베이스 자체의 제한으로 인해 대규모 모니터링 장면을 처리하기가 어렵고 성능 병목 현상이 있으며 기존 모니터링 시스템에서만 일반적으로 사용되는

② 타이밍 데이터베이스

는 이러한 장면을 모니터링하도록 설계된 데이터베이스로 지표 데이터 저장 및 계산에 능숙합니다 예를 들어 InfluxDB, OpenTSDB (Hbase 기반), Prometheus 등이 있습니다. 대표적인 모니터링 시스템 대표: 틱 모니터링 프레임워크, 오픈-페일론, Prometheus

③ 전체 텍스트 검색 데이터베이스

는 주로 로그 기반 스토리지에 사용되며 elle 과 같은 데이터 검색에 매우 친숙합니다

2, 데이터 감지

1. 데이터 처리

① 데이터 정리

데이터 정리 로그 데이터는 구조화되지 않으므로

② 데이터 계산

많은 원시 성능 데이터를 사용하여 데이터가 예외를 발생시키는지 여부를 직접 확인할 수 없습니다. 예를 들어, 수집된 데이터는 총 디스크 수와 디스크 사용량입니다. 디스크 사용률을 감지하려면 기존 지표에 대해 간단한 4 가지 연산을 수행하여 디스크 사용률을 얻어야 합니다.

③ 풍부한 데이터

④ 척도 파생

척도 파생은 기존 지표를 통해 새 지표를 계산하는 것을 의미합니다.

2. 감지 알고리즘

에는 고정 규칙과 기계 학습 알고리즘이 있습니다. 고정 알고리즘은 정적 임계값, 전년 대비 루프 비율, 사용자 정의 규칙 등 보다 일반적인 알고리즘이며 기계 학습에는 주로 동적 기준, 버 감지, 지표 예측, 다중 지표 연관 감지 등의 알고리즘이 있습니다.

고정 규칙 또는 기계 학습에는 해당 판단 규칙, 즉 일반적인 LT 가 있습니다. Gt; Gt; = 및 and/or 의 조합판단 등.

3, 경고 관리

1. 풍부한 경고

풍부한 경고는 후속 경고 이벤트 분석을 위한 준비로 처리, 분석 및 알림 방법을 결정하는 데 도움이 필요합니다.

풍부한 경고는 일반적으로 규칙을 통해 CMDB, 기술 자료, 작업 기록 등의 데이터 소스를 연계하여 경고 필드 및 관련 정보를 풍부하게 만듭니다. 수동으로 Tags 를 치는 것도 풍부한 방법이지만 실제 장면에서는 인건비가 높기 때문에 착지하기 어렵다.

2. 경고 컨버전스

경고 컨버전스에는 억제, 마스킹 및 집계

① 억제

는 동일한 문제를 억제하는 세 가지 아이디어가 있습니다 일반적인 억제 구성표는 흔들림 방지 억제, 종속 억제, 시간 억제, 조립품 조건 억제, 고가용성 억제 등입니다.

② 차폐

유지 보수 기간 변경, 고정 주기 작업 등 예측 가능한 상황을 마스킹합니다.

③ 집계

집계는 유사하거나 동일한 경고를 병합하는 것입니다. 피드백이 동일한 현상이기 때문입니다. 예를 들어, 업무방문량이 증가하면 업무를 호스팅하는 호스트의 CPU, 메모리, 디스크 IO, 네트워크 IO 등의 성능이 급등하여 이러한 성능 지표를 하나로 모아 경보의 분석 처리를 용이하게 합니다.

3. 알림

① 알림 대상

몇 가지 일반적인 알림 채널을 통해 사람을 만질 수 있습니다.

이렇게 하면 아무도 화면을 쳐다보지 않을 때 위챗, 문자 메시지, 메일을 통해 직원에게 트리거할 수 있다.

② 후속 이벤트 처리를 위해 일반적으로 API 를 통해 타사 시스템에 푸시되는 시스템에 알림

사용자 지정 채널 확장 지원 (예: 기업에 자체 IM 시스템이 있어 직접 액세스할 수 있음)

가장 일반적이거나 수동 처리: 근무 중, 작업 지시, 고장 업그레이드 등.

경험 축적은 수동으로 처리된 장애를 기술 자료에 축적하여 후속 문제 해결에 대한 참조를 제공합니다.

자동 처리, 특정 경보의 고화된 처리 프로세스를 추출하여 특정 시나리오의 장애 자가 치유를 실현합니다. 예를 들어, 디스크 공간 경보시 쓸모없는 로그를 지우십시오.

지능형 분석은 주로 장애에 대한 상관 분석, 포지셔닝, 예측 등의 AI 알고리즘을 통해 장애 위치 및 처리의 효율성을 더욱 향상시킵니다.

1. 뷰 관리

뷰 관리도 부가 가치 기능이며, 주로 사람의 심리적 요구 사항을 충족하고, 마음속에 바탕을 두고, 많은 역할 (리더, 관리자, 당직자 등) 을 지향합니다.

대형 화면: 리더십을 위한 글로벌 개요 제공

토폴로지: 운영자 대상, 경고 상관 관계 및 영향 면 뷰 제공

대시보드: 운영자 대상, 맞춤형 관심 제공

상위 5 개 모듈은 모두 모니터링 시스템이 외부에 제공하는 서비스 기능이며, 모니터링 관리야말로 모니터링 시스템 자체를 위한 관리 및 제어이며, 실제 착지 프로세스의 기능 표현에 초점을 맞추고 있습니다. 주요 측면은 다음과 같습니다:

구성: 단순, 배치, 자동

적용 범위: 모니터링 수준 측정

척도 라이브러리: 모니터링 지표의 사양

자체 모니터링: 자체 안정성 보장

이러한 6 가지 기본 기능 모듈을 모니터링하기 위해 통합 모니터링 플랫폼을 다음과 같이 설계할 수 있습니다.

는 주로 3 계층, 액세스 계층, 기능 계층, 기능 계층으로 나뉩니다.

액세스 계층은 주로 다양한 데이터 액세스를 고려하며, 자체 에이전트 및 플러그인의 수집 액세스 외에 타사 모니터링 소스의 데이터 액세스를 지원해야 완벽한 통합 모니터링 플랫폼을 계산할 수 있습니다.

역량 계층은 데이터 수집 모듈, 데이터 엔클로저, 데이터 처리 모듈, 데이터 감지 모듈, AI 분석 모듈 등 모니터링의 기본 공통 기능을 주로 고려합니다.

기능 계층은 사용자 사용 장면에 근접해야 하며, 주로 관리, 전시 등 두 가지 기능이 있으며, 구축 과정에서 기능 장면을 지속적으로 풍부하게 할 수 있습니다.

또한 데이터 상관 관계를 고려하여 향후 데이터 분석을 위한 기반을 마련하고, 모니터링과 CMDB 도 긴밀하게 연계해야 하며, 모든 모니터링 대상은 CMDB 로 관리해야 하며, 구동 모니터링을 가이드로 구성하여 모니터링을 위한 자동 오프라인, 알림 자동 식별 책임자 등 시나리오를 구성할 수 있습니다

통합 모니터링 플랫폼이 기업에 더 잘 착륙할 수 있도록 해당 관리 시스템이 필요합니다. 그 중 가장 중요한 것은 지표 관리 시스템입니다.

지표 관리 시스템의 핵심 개념:

모니터링 지표 시스템은 CMDB 를 주축으로 모니터링 지표를 경맥으로 하여 전체 통합 모니터링 플랫폼의 데이터를 유기적으로 통합하는 것입니다.

지표를 통한 수명 주기 관리, 지표의 관리 사양 보완, 모니터링 플랫폼의 장기적이고 질서 있는 운영을 보장합니다.

엔터프라이즈 비즈니스 애플리케이션 관점에서 볼 때 일반적으로 엔터프라이즈 모니터링 대상은 6 계층으로 나뉘며

인프라 계층

하드웨어 디바이스 계층

< 과 같은 기업 상황에 따라 조정할 수 있습니다

上篇: 기업은행 신용카드 확인방법

下篇: 무시위안 버스에서 펑타이구 신파디 한롱남역 남쪽으로 가는 방법

운영 및 유지 보수 모니터링을 잘 수행하는 방법?

相关文章