
LY Corporation의 사내 클라우드 플랫폼인 Flava는 향후 2~3년 내 실현 가능한 전략 과제를 제시하고 있습니다. 플랫폼 통합을 의미하는 Flavaization, 강력하면서도 사용성 높은 보안 체계 구축, 그리고 AI와의 융합을 통한 인텔리전트 클라우드로의 진화가 핵심입니다. 이 글에서는 각 전략의 구체적인 내용과 함께, 실행 과정에서 발생할 수 있는 과제와 개선 방향을 심층 분석합니다.
Flavaization: 개발자 경험 향상을 위한 플랫폼 통합 전략
Flava는 현재 인프라, DB, 컨테이너를 중심으로 구성돼 있지만, 서비스 개발에 필요한 다양한 플랫폼들이 사내 여러 곳에 분산 운영되고 있습니다. 개발자 입장에서는 각 플랫폼별로 권한 관리, 로깅과 모니터링, 미터링과 빌링, API 및 CLI, UI, 승인, 멀티 리전과 AZ(availability zone) 등의 기능을 모두 따로 이해하고 사용법을 익혀야 하는 불편함이 존재합니다. 이는 개발 생산성을 저하시키고 학습 곡선을 가파르게 만드는 주요 원인입니다.
이러한 문제를 해결하기 위해 Flava는 '플라바이제이션(Flavaization)'이라는 전략을 추진하고 있습니다. 플라바이제이션은 서비스 개발에 필요한 모든 플랫폼을 하나의 통합된 클라우드 형태로 제공하는 것을 목표로 합니다. 최근 Flava에 대한 사내 인식이 높아지면서 플라바이제이션을 원하는 부서들의 움직임이 활발해지고 있으며, 향후 1~2년 내에 이를 완수할 수 있을 것으로 기대하고 있습니다.
| 통합 대상 기능 | 현재 상태 | 목표 상태 |
|---|---|---|
| 권한 관리 | 플랫폼별 독립 운영 | 통합 IAM/SSO |
| 로깅·모니터링 | 각 플랫폼 개별 시스템 | 통합 Audit Log |
| 미터링·빌링 | 분산된 과금 체계 | 통합 Metering/Billing |
| API/CLI/UI | 플랫폼별 상이한 인터페이스 | 표준화된 API/CLI |
그러나 비평적 관점에서 보면, 플라바이제이션의 우선순위와 성공지표가 명확하지 않다는 점이 과제로 남아 있습니다. 통합 대상이 방대하므로 어떤 순서로, 어떤 범위까지를 '완수'로 정의할 것인지에 대한 구체적인 로드맵이 필요합니다. 예를 들어 공통 IAM, Audit Log, Billing API를 우선 통합하고, 이후 단계적으로 확장하는 방식이 현실적일 것입니다. 또한 온보딩 시간을 현재 3일에서 3시간으로 단축하는 등의 구체적인 KPI 설정이 실행력을 높이는 데 도움이 될 것입니다.
사용 가능한 보안(Usable Security): 강력함과 편의성의 균형
Flava의 강점 중 하나는 사내 보안 거버넌스를 철저히 준수하고 이를 기술적으로 구현했다는 점입니다. 아키텍처 설계 및 상품 기획 단계에서부터 CISO(chief information security officer) 부서와 협의하며, 모든 상품이 사내 보안 평가를 거칩니다. 데이터 보안 등급에 따라 클라우드 리소스 환경을 기본(default), 기밀(secret), 최고 기밀(top secret)로 분리해 운영하고 있으며, 중요한 변경 작업에는 조직 내 보고와 전문 조직의 리뷰 및 승인을 받아야 하는 프로세스가 구축돼 있습니다.
이는 퍼블릭 클라우드와 비교했을 때 명확한 차별화 포인트입니다. 퍼블릭 클라우드를 사용하려면 개발 부서가 직접 CISO 부서와 상담하고 별도의 승인 프로세스를 만들어야 하지만, Flava는 이러한 보안 거버넌스가 클라우드 차원에서 기본 제공됩니다.
하지만 강력한 보안이 사용 편의성을 해치는 문제가 존재합니다. 예를 들어 Flava 보안 환경에서는 리소스를 수분 이내로 생성할 수 있지만, 생성된 서버에 접근하기 위해서는 VDI 계정 생성, 데이터 교환을 위한 Box 폴더 생성 등 약 10개의 워크플로를 거쳐야 하며, 이 모든 승인 과정에 2개월이 소요됩니다. 과거 물리적 환경 구성에 1~2개월이 걸렸던 것과 비교하면, 리소스 생성은 빨라졌지만 전체 프로세스는 여전히 비효율적입니다.
또한 VPC(virtual private cloud)의 ACL(access control list)을 이용한 접근 권한 통제가 강화되면서 데이터 통신의 지연 시간이 수 ms 늘어났습니다. 일반 애플리케이션에서는 문제가 되지 않지만, LINE 메신저 메시징처럼 빠른 네트워크 응답 시간이 요구되는 애플리케이션에서는 심각한 이슈가 될 수 있습니다. 이 지연 시간 문제를 해결하기 위해서는 측정 조건(지역/AZ, 패킷 크기, 경로, p99 기준)을 명확히 하고, VPC ACL의 처리 속도를 개선해야 합니다.
사용 가능한 보안(usable security)은 강력함과 편의성의 균형을 맞추는 것을 의미합니다. 보안이 강력하기만 하고 사용하기 불편하다면 사용자에게 외면받을 수밖에 없습니다. Flava는 '보안 자동화 + 최소 승인 + 사후 감사 강화'라는 원칙을 확립하고, 대표 워크플로를 Before/After로 제시하는 방식으로 개선 방향을 구체화해야 합니다. 예를 들어 승인 리드타임을 현재 60일에서 7일로 단축하는 목표를 설정하고, 자동화 가능한 워크플로부터 우선 개선하는 접근이 효과적일 것입니다.
AI 융합: AIOps 도구 제공과 인텔리전트 클라우드로의 진화
클라우드 분야에서도 AI는 피할 수 없는 핵심 기술이 되었습니다. Flava는 AI에 대해 세 가지 관점으로 접근하고 있습니다. 첫째는 AIOps(artificial intelligence for IT operations)를 위한 플랫폼 제공입니다. LY Corporation에서는 대부분의 조직에서 업무 효율화를 위해 AI를 도입하고 있으며, 이를 위해서는 MCP(model context protocol) 서버, 벡터 DB 플랫폼, Langfuse 같은 AI 관측 가능성(observability) 플랫폼, AI 모델 관리 플랫폼 등이 필요합니다.
AI 도구와 에이전트는 여러 데이터를 참조하기 때문에 사내 데이터 처리 규정과 보안 규정에 맞춰 개발되고 관리돼야 합니다. 따라서 기술 조직에서 사용하기 시작하는 AI 개발 플랫폼을 빠르게 센싱해 기술 표준과 회사 규정에 맞춰 공통 클라우드 플랫폼으로 제공하는 것이 중요합니다.
둘째는 AI를 위한 하위 레이어 기술 확보입니다. AI 서비스는 기존 서비스보다 더 많은 데이터를 처리하면서 동시에 극히 짧은 네트워크 지연 시간을 요구합니다. 이에 따라 고속 네트워크를 위한 DPU(data processing unit)와 스마트 NIC(network interface card) 기술, 초고속 NVMe(non-volatile memory express) 기반 스토리지, 스토리지 계층화 자동화 등의 기술이 중요해지고 있습니다.
네트워크와 스토리지는 소규모 인프라에서는 기술적 도전 영역이 크지 않지만, 수십만 대의 서버를 운영하는 클라우드 규모에서는 지연 시간, 안정성, 장애 내구성, 처리량, 변경 관리, 보안 등의 관점에서 확장 가능한 구현이 매우 어렵습니다. 다행히 Flava에는 클라우드 네트워크와 클라우드 스토리지를 다루는 엔지니어 팀이 갖춰져 있으며, LINE 앱과 Yahoo! JAPAN 관련 서비스에서 사용하는 대규모 인프라를 통해 해당 분야의 기술을 성숙시켜 왔습니다.
| AI 융합 영역 | 핵심 기술 | 기대 효과 |
|---|---|---|
| AIOps 도구 | MCP 서버, 벡터 DB, Langfuse | AI 개발 효율화 |
| 하위 레이어 | DPU, 스마트 NIC, NVMe | 고속 네트워크/스토리지 |
| 인텔리전트 클라우드 | 자연어 아키텍처 설계, 자동화 | 개발자 생산성 향상 |
셋째는 AI와 융합된 인텔리전트 클라우드입니다. 현재 클라우드에서는 웹 UI, API, CLI, Terraform 같은 IaC(infrastructure as code) 도구를 이용해 리소스를 관리하지만, AI 시대에는 사람과의 상호작용 방식이 변화할 것입니다. 예를 들어 자연어로 복잡한 시스템 요구 사항을 입력하면, 인텔리전트 클라우드가 해당 요건을 구현할 수 있는 기술 아키텍처를 제안하고 이를 실행해 구축하는 방식입니다.
수많은 리소스의 취약점 관리, 비용 최적화 방안 제안, 리소스 사용률 관리, 암호화되지 않은 개인 정보 탐지 등의 작업도 앞으로는 인텔리전트 클라우드가 담당하게 될 것입니다. 예를 들어 "매월 1일에는 DB와 로그, 오브젝트 스토리지에서 암호화되지 않은 개인 정보로 추정되는 데이터를 체크해줘"라고 요청하면 AI가 이를 자동으로 수행합니다.
하지만 이러한 비전이 현실화되려면 정책, 규정, 비용, 안정성, 보안(특히 데이터 등급 분리)까지 반영한 가드레일(승인, 변경관리, 검증, 롤백)이 필수적입니다. 단순히 "자연어로 아키텍처를 설계한다"는 마케팅적 표현보다는, "아키텍처 제안 → 정책 검증 → IaC 생성 → 샌드박스 검증 → 승인 → 프로덕션 적용"처럼 현실적인 파이프라인을 제시하는 것이 신뢰도를 높일 것입니다. 또한 개인정보 비암호화 탐지 같은 기능은 오탐과 정탐의 책임, 탐지 범위, 조치 자동화 수준(알림/티켓/자동암호화/격리) 등 운영 설계가 함께 제시돼야 실무에서 활용 가능합니다.
클라우드는 수많은 영역의 기술이 모인 집합체입니다. 하위 레이어의 기술을 깊이 이해하고 글로벌 첨단 기술을 도입하는 것부터, 서비스 개발에 필요한 플랫폼 도구를 UX 관점에서 기획하고 개발해 효율적인 비용으로 안정적으로 운영하는 것은 다양한 분야의 우수한 엔지니어들이 모여 있어야만 가능합니다. Flava는 플라바이제이션, 사용 가능한 보안, AI 융합이라는 세 축을 중심으로 2~3년 내 실현 가능한 미래를 그리고 있습니다. 다만 각 전략이 실효성을 갖추려면 구체적인 우선순위, 성공지표, 단계별 로드맵이 뒷받침돼야 하며, 특히 보안 편의성 개선과 AI 가드레일 설계가 핵심 과제로 남아 있습니다.
자주 묻는 질문 (FAQ)
Q. Flavaization이 완료되면 개발자에게 어떤 구체적인 변화가 생기나요?
A. Flavaization이 완료되면 개발자는 여러 플랫폼을 개별적으로 학습하고 관리할 필요 없이, 하나의 통합된 클라우드 인터페이스에서 권한 관리, 로깅, 모니터링, 빌링, API, CLI 등 모든 기능을 사용할 수 있습니다. 이는 온보딩 시간을 대폭 단축시키고, 개발 생산성을 높이며, 운영 복잡도를 낮추는 효과를 가져옵니다. 특히 신규 프로젝트 셋업 시간이 현재 3일에서 3시간 수준으로 단축될 것으로 예상됩니다.
Q. 사용 가능한 보안(usable security)을 구현하기 위한 핵심 원칙은 무엇인가요?
A. 사용 가능한 보안의 핵심 원칙은 '보안 자동화 + 최소 승인 + 사후 감사 강화'입니다. 자동화 가능한 보안 워크플로는 최대한 자동화하고, 사람의 승인이 필요한 경우는 최소화하되, 모든 작업은 사후 감사를 통해 추적 가능하도록 설계하는 것입니다. 예를 들어 VDI 계정 생성이나 Box 폴더 생성 같은 반복적인 워크플로를 자동화하고, 승인 리드타임을 현재 60일에서 7일로 단축하는 것이 구체적인 개선 방향입니다.
Q. 인텔리전트 클라우드가 실제 운영 환경에서 활용되려면 어떤 요소가 필요한가요?
A. 인텔리전트 클라우드가 실무에서 활용되려면 단순한 자연어 처리 기능을 넘어, 정책 검증, 보안 규정 준수, 비용 최적화, 변경 관리, 롤백 등의 가드레일이 필수적입니다. 구체적으로는 '아키텍처 제안 → 정책 검증 → IaC 생성 → 샌드박스 검증 → 승인 → 프로덕션 적용'과 같은 현실적인 파이프라인이 구축돼야 합니다. 또한 개인정보 비암호화 탐지 같은 기능은 오탐/정탐 처리, 탐지 범위 정의, 자동 조치(알림/티켓/암호화/격리) 수준 등의 운영 설계가 함께 마련돼야 합니다.
[출처]
LY Corporation 기술 블로그: https://techblog.lycorp.co.jp/ko/creating-the-cloud-of-the-future