시나브로

기록 2 본문

Cloud

기록 2

sa1347 2026. 3. 30. 21:49

기술적인 문제 개선 1

개선 사례 (기간) 웹 서비스 인증서 Nginx Pod 교체 및 서비스 안정성 확보 (2024.5)
기술 스택 Kubernetes v1.16.8, Openstack, mariadb
환경 구성 요소 멀티 Node 구성
control
-001, 002, 003 master node
compute-001, 002, 003, 004 각각 실행 중인 VM 수 : 10~15대
ceph-001, 002, 003, 004
각 노드별 cpu 및 mem 자원 할당됨


Pod 구성
admin portal
app-db, app-user-portal, app-ms-resource, app-api-gateway 등
common-proxy-nginx-xxxxxxxxx
calico-node-xxxxx 등
coredns-xxxxxxxxx 등
cloudpc-monitoring-grafana, cloudpc-monitoring-prometh-operator, cloudpc-monitoring-kube-state-metrics 등
dns-autoscaler-xxxxxxxxx 등
kube-controller-manager-xxxxxxxxx, kube-proxy-xxxxx, kube-apiserver-control-xxx 등
mng-ms
-batch, mng-ms-service 등
neutron-server-xxxxxxxxx, neutron-lb-agent-xxxxxxxxx, neutron-metadata-agent 등
nginx-proxy-compute-xxx
nodelocaldns
-xxxxx 등
nova-api, nova-db-sync, nova-bootstrap, nova-compute, nova-scheduler 등
placement-api-xxxxxxxxx, placement-db-init-xxxxxxxxx 등
plat-ms-syncm, plat-ms-adcheck 등
taco-train
-horizon, taco-train-rabbitmq 등
...

PVC 구성
app-db-0, 1, 2  mariadb-server-0, 1, 2
prometheus-cloudpc-monitoring-prometheus-0, 1, 2
cloudpc-logging-elasticsearch-data-0, 1
...

control 서버당 docker container 파일 개수 및 용량
control 서버당 zombie process 개수

도메인명
*.etri.re.kr

문제 상황(Issue) 인증서 만료로 인한 웹 서비스 접속 오류 예상
유효기간 관리 및 갱신 시점 누락 가능성 확인
서비스 순단 발생 예방 : 인증서 갱신 후 설정 반영을 위해 Pod을 재시작하는 과정에서 일시적인 서비스 연결 오류(Downtime) 발생 가능성 확인
해결 방법(Action) 인증서 파일(.crt .key)을 Nginx 이미지를 적용하는 과정에서 업로드 실패 발생
파일 내용 확인 결과(검증 과정에서), 불필요한 특수문자가 포함된 것을 확인하여 제거 후 재배포 진행했으나 인증서가 정상적으로 적용되지 않는 문제 발생
(작업 영향도가 낮고 리스크가 적은 작업으로 판단하여, 서비스 이용률이 낮은 점심시간 내에 수행)

→ 새로운 인증서 교체 및 Pod 재배포를 통해 정상 인증서 적용
개선 성과(Impact) 작업 중에 서비스 중단 시간 Zero(0) 달성하여, 중단 없이 안정성 확보
인증서 만료로 인한 서비스 장애 예방

 

 

기술적인 문제 개선 2

개선 사례 (기간) Kubernetes 클러스터 구축 및 모니터링 체계 최적화 (2026.02)
환경 VirtualBox 7.2.4 r170995
Ubuntu-22.04.5-live-server-amd64.iso
Master 1

worker 0, worker 1
기술 스택 Kubernetes v1.32.12, Docker, Prometheus, Grafana
문제 상황(Problem) Control Plane 초기화 실패 : kubeadm init 과정에서 API 서버 연결 지연되거나 타임아웃 발생
네트워크 미연결 현상 : Node와 Pod이 NotReady 상태로 머물며, CNI(네트워크 플러그인) 미구성으로 인해 Pod 간 통신 불가 상태
Runtime 불일치 : containerd 미설정으로 인해 Kubelet이 컨테이너 런타임을 정상적으로 인식하지 못하는 현상 발생
해결 방법(Solution) CNI(Calico/Flannel 등) 재구성 : 클러스터 가용(Pod CIDR)을 고려하여 네트워크 플러그인을 설치, 모든 노드의 통신 상태를 Ready로 전환
CRI(Containerd) 설정 정상화 : containerd 기본 설정을 생성, SystemdCgroup = true 설정을 통해 Kubelet과 커널 cgroup 드라이버를 일치시켜 일관성 유지
커널 및 시스템 환경 정비 : swapoff를 통한 메모리 스왑 비활성화로 스케줄러 예측 가능성 확보(swap 비활성화 적용), 노드 간 네트워크 경로 정상화
(추가)모니터링 아키텍처 구축:
Prometheus-Operator 기반의 모니터링 스택을 배포하여 클러스터 메트릭 수집 및 Grafana 대시보드 시각화
개선 성과(Result) 안정적인 스케줄링 및 서비스 운영 기반 구축
클러스터 정상화 확보 :
모든 노드가 정상적으로 클러스터에 조인(Join)되는 안정적인 인프라 환경 구축

데이터 기반 운영 환경 조성 : Prometheus + Grafana 연동을 통한 클러스터 모니터링 및 운영 가시성 확보
트러블슈팅 역량 확보 : API 서버 통신 및 CNI 구성 원리를 파악하여 향후 네트워크 장애 발생 시 신속한 대응 기반 마련
관련 URL https://sa1347.tistory.com/48

 

 

* 기여한 프로젝트

프로젝트명 (기간) KT 클라우드 서비스 기능 항목 비교진단 (2022.02 ~ 2022.05)
환경 KT Cloud, AWS, NCP
기술 스택 KT Cloud - Watch, Sycros
AWS         - Cloudwatch
NCP         - Web Service Monitoring, Resource Manager
담당 업무 및 수행 내용 KT Cloud의 서비스 개선을 위해 전체 서비스 중 니터링(Watch, Sycros) 기능을 AWS, NCP와의 비교·분석
 일부 버그와 개선 필요한 기능들을 정리하여 전달 수행
개선 사항 메트릭 시각화, 알람 설정, 로그 조회 기능 등 에서 사용자 편의성 및 기능 차이 도출
성과 주요 모니터링 기능 간 차이를 정리하여 서비스 품질 향상 기반 마련
사용자 관점의 기능 개선 포인트를 정의하여 내부 검토 및 활용 가능한 자료로 정리

 

 

 

 

'Cloud' 카테고리의 다른 글

기록  (0) 2026.03.31
용어  (0) 2025.11.23
정리  (0) 2025.11.21