Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | |||
| 5 | 6 | 7 | 8 | 9 | 10 | 11 |
| 12 | 13 | 14 | 15 | 16 | 17 | 18 |
| 19 | 20 | 21 | 22 | 23 | 24 | 25 |
| 26 | 27 | 28 | 29 | 30 |
Tags
- 청내공만기
- 청년내일채움공제
- 몸이고되고머리가힘들다
- 은우쌤
- 너무어려워...
- 어렵다
- 만기오긴오냐
- 정신력승리함
- 화이팅
- 해낼수있어
- 청내공화이팅
- aws책은읽다말았는데
- 청년내일채움공제 끝
- 자동화구현만세
- 윽짜증
- 청내공
- 나름신중하게할거다하고있음
- IaC코드자동화
- 합격률15.18%
- Provider AWS
- 해내자
- 무탈히가길
- 존버존버
- 2025년 1회차
- 저것도꾸준히읽어야지ㅠㅠ
- 이놈의기사또해내야돼
- 정신력승리
- 테라폼만세
- 청내공만기오긴오냐
- 청내공해내자
Archives
- Today
- Total
시나브로
기록 2 본문
* 기술적인 문제 개선 1
| 개선 사례 (기간) | 웹 서비스 인증서 Nginx Pod 교체 및 서비스 안정성 확보 (2024.5) |
| 기술 스택 | Kubernetes v1.16.8, Openstack, mariadb |
| 환경 구성 요소 | 멀티 Node 구성 control-001, 002, 003 master node compute-001, 002, 003, 004 각각 실행 중인 VM 수 : 10~15대 ceph-001, 002, 003, 004 각 노드별 cpu 및 mem 자원 할당됨 Pod 구성 admin portal app-db, app-user-portal, app-ms-resource, app-api-gateway 등 common-proxy-nginx-xxxxxxxxx calico-node-xxxxx 등 coredns-xxxxxxxxx 등 cloudpc-monitoring-grafana, cloudpc-monitoring-prometh-operator, cloudpc-monitoring-kube-state-metrics 등 dns-autoscaler-xxxxxxxxx 등 kube-controller-manager-xxxxxxxxx, kube-proxy-xxxxx, kube-apiserver-control-xxx 등 mng-ms-batch, mng-ms-service 등 neutron-server-xxxxxxxxx, neutron-lb-agent-xxxxxxxxx, neutron-metadata-agent 등 nginx-proxy-compute-xxx 등 nodelocaldns-xxxxx 등 nova-api, nova-db-sync, nova-bootstrap, nova-compute, nova-scheduler 등 placement-api-xxxxxxxxx, placement-db-init-xxxxxxxxx 등 plat-ms-syncm, plat-ms-adcheck 등 taco-train-horizon, taco-train-rabbitmq 등 ... PVC 구성 app-db-0, 1, 2 mariadb-server-0, 1, 2 prometheus-cloudpc-monitoring-prometheus-0, 1, 2 cloudpc-logging-elasticsearch-data-0, 1 ... control 서버당 docker container 파일 개수 및 용량 control 서버당 zombie process 개수 도메인명 *.etri.re.kr |
| 문제 상황(Issue) | 인증서 만료로 인한 웹 서비스 접속 오류 예상 유효기간 관리 및 갱신 시점 누락 가능성 확인 서비스 순단 발생 예방 : 인증서 갱신 후 설정 반영을 위해 Pod을 재시작하는 과정에서 일시적인 서비스 연결 오류(Downtime) 발생 가능성 확인 |
| 해결 방법(Action) | 인증서 파일(.crt .key)을 Nginx 이미지를 적용하는 과정에서 업로드 실패 발생 파일 내용 확인 결과(검증 과정에서), 불필요한 특수문자가 포함된 것을 확인하여 제거 후 재배포 진행했으나 인증서가 정상적으로 적용되지 않는 문제 발생 (작업 영향도가 낮고 리스크가 적은 작업으로 판단하여, 서비스 이용률이 낮은 점심시간 내에 수행) → 새로운 인증서 교체 및 Pod 재배포를 통해 정상 인증서 적용 |
| 개선 성과(Impact) | 작업 중에 서비스 중단 시간 Zero(0) 달성하여, 중단 없이 안정성 확보 인증서 만료로 인한 서비스 장애 예방 |
* 기술적인 문제 개선 2
| 개선 사례 (기간) | Kubernetes 클러스터 구축 및 모니터링 체계 최적화 (2026.02) |
| 환경 | VirtualBox 7.2.4 r170995 Ubuntu-22.04.5-live-server-amd64.iso Master 1 worker 0, worker 1 |
| 기술 스택 | Kubernetes v1.32.12, Docker, Prometheus, Grafana |
| 문제 상황(Problem) | Control Plane 초기화 실패 : kubeadm init 과정에서 API 서버 연결 지연되거나 타임아웃 발생 네트워크 미연결 현상 : Node와 Pod이 NotReady 상태로 머물며, CNI(네트워크 플러그인) 미구성으로 인해 Pod 간 통신 불가 상태 Runtime 불일치 : containerd 미설정으로 인해 Kubelet이 컨테이너 런타임을 정상적으로 인식하지 못하는 현상 발생 |
| 해결 방법(Solution) | CNI(Calico/Flannel 등) 재구성 : 클러스터 가용(Pod CIDR)을 고려하여 네트워크 플러그인을 설치, 모든 노드의 통신 상태를 Ready로 전환 CRI(Containerd) 설정 정상화 : containerd 기본 설정을 생성, SystemdCgroup = true 설정을 통해 Kubelet과 커널 cgroup 드라이버를 일치시켜 일관성 유지 커널 및 시스템 환경 정비 : swapoff를 통한 메모리 스왑 비활성화로 스케줄러 예측 가능성 확보(swap 비활성화 적용), 노드 간 네트워크 경로 정상화 (추가)모니터링 아키텍처 구축: Prometheus-Operator 기반의 모니터링 스택을 배포하여 클러스터 메트릭 수집 및 Grafana 대시보드 시각화 |
| 개선 성과(Result) | 안정적인 스케줄링 및 서비스 운영 기반 구축 클러스터 정상화 확보 : 모든 노드가 정상적으로 클러스터에 조인(Join)되는 안정적인 인프라 환경 구축 데이터 기반 운영 환경 조성 : Prometheus + Grafana 연동을 통한 클러스터 모니터링 및 운영 가시성 확보 트러블슈팅 역량 확보 : API 서버 통신 및 CNI 구성 원리를 파악하여 향후 네트워크 장애 발생 시 신속한 대응 기반 마련 |
| 관련 URL | https://sa1347.tistory.com/48 |
* 기여한 프로젝트
| 프로젝트명 (기간) | KT 클라우드 서비스 기능 항목 비교진단 (2022.02 ~ 2022.05) |
| 환경 | KT Cloud, AWS, NCP |
| 기술 스택 | KT Cloud - Watch, Sycros AWS - Cloudwatch NCP - Web Service Monitoring, Resource Manager |
| 담당 업무 및 수행 내용 | KT Cloud의 서비스 개선을 위해 전체 서비스 중 모니터링(Watch, Sycros) 기능을 AWS, NCP와의 비교·분석 → 일부 버그와 개선이 필요한 기능들을 정리하여 전달 수행 |
| 개선 사항 | 메트릭 시각화, 알람 설정, 로그 조회 기능 등 에서 사용자 편의성 및 기능 차이 도출 |
| 성과 | 주요 모니터링 기능 간 차이를 정리하여 서비스 품질 향상 기반 마련 사용자 관점의 기능 개선 포인트를 정의하여 내부 검토 및 활용 가능한 자료로 정리 |