데이터 엔지니어링 무엇인가
디지털 전환이 가속화되는 현대 비즈니스 환경에서 데이터 엔지니어링의 역할은 그 어느 때보다 중요해지고 있습니다. 비즈스프링은 데이터 전문 기업으로서 외부 데이터와 행동데이터, 광고데이터를 기반으로 한 종합적인 데이터 솔루션을 제공하고 있습니다. “견고한 데이터 엔지니어링” 책의 인사이트를 바탕으로 현대 데이터 엔지니어링의 환경과 수명 주기, 그리고 이에 대한 비즈스프링의 접근 방식을 공유하고자 합니다.
데이터 엔지니어링은 기업이 데이터를 활용하는 작업 (예를 들면 예측 분석, 기술 분석, 보고서 등)을 시작한 이후 정확한 개념보다는 추상적인 형태로 존재해 왔으며, 2010년대 데이터 과학의 부상과 함께 본격적으로 주목 받기 시작했습니다. 과거에는 데이터 엔지니어가 맵리듀스를 포함하는 하둡 생태계와 같은 도구와 기술을 효과적으로 사용하는 능력과 소프트웨어 개발에 중점적을 두었다면, 현재는 보안, 데이터 관리, 데이터 옵스, 데이터 아키텍처, 오케스트레이션 및 일반 데이터 수명 주기 관리와 같은 가치 사슬의 상위 영역으로 역할이 점점 집중되고 있습니다.
특히 데이터 엔지니어링 수명 주기는 원시 데이터 (Raw Data)의 요소를 분석가, 데이터 과학자, ML 엔지니어 등이 사용할 수 있는 유용한 데이터의 사용할 수 있는 단계를 말합니다.
보이지 않은 요소 (Undercurrent)에 대해서
데이터 엔지니어링은 Raw-Data를 저장하는 것부터 시작되는데, “데이터를 변환한 후 분석가, 데이터 과학자, ML 엔지니어 등에게 데이터를 제공한다”는 라는 것이 큰 맥락입니다. 일반적으로 저장, 수집, 변환 단계의 순서가 뒤바뀔 수 있으며, 여기서 기반이 되는 것이 드러나지 않는 요소(undercurrent) 입니다. 추가적으로 보안, 데이터 관리, 데이터 옵스, 아키텍처, 오케스트레이션 및 소프트 엔지니어링 등이 포함됩니다. 종합하면 데이터 엔지니어링의 수명 주기는 데이터 엔지니어가 제어하는 단계에 초점을 맞춥니다.
“데이터 엔지니어링의 첫 번째 유형은 SQL 중심이다. 데이터의 작업 및 기본 저장소는 관계형 데이터 베이스에 있다. 모든 데이터 처리는 SQL 또는 SQL 기반 언어로 수행된다. 때때로 이러한 데이터 처리는 ETL 도구를 사용해 수행된다.
데이터 엔지니어링의 두 번째 유형은 빅데이터 중심이다. 데이터 작업 및 기본 스토리지는 하둡(Hadoop), 카산드라(Cassandra), HBase와 같은 빅데이터 기술에 기반한다. 모든 데이터 처리는 맵리듀스(MapReduce), 스파크(Spark), 플링크(Flink)와 같은 빅데이터 프레임워크에서 수행된다. SQL이 사용되는 동안 기본 처리는 자바, 스칼라, 파이썬과 같은 프로그래밍 언어로 이뤄진다.”
– 제시 앤더슨 Jesse Anderson
데이터 엔지니어링의 핵심은 원시 데이터(Raw Data)를 분석가, 데이터 과학자, ML 엔지니어 등이 효과적으로 활용할 수 있는 형태로 변환하는 것입니다. 이는 단순한 데이터 처리를 넘어, 전체적인 데이터 수명 주기 관리를 포함합니다. 제시 앤더슨의 분류에 따르면, 데이터 엔지니어링은 SQL 중심의 전통적 접근과 빅데이터 중심의 현대적 접근으로 나눌 수 있습니다.
위의 그래프는 모니카 로가티(Monica Rogati, 2017)가 해당 계층 구조를 발표하면서, AI와 머신러닝(ML)이 데이터 이동 및 저장, 수집, 인프라와 같은 펀더멘털 구조에서 근접하고 있음을 언급한 바 있습니다. 많은 데이터 과학자가 ML 모델을 구축하고 튜닝하기를 원하지만, 위의 계층 구조에서 확인할 수 있듯, 데이터 수집, 데이터 정리, 데이터 처리에 전체 시간의 2/3를 소비하는 것으로 확인되며 분석과 ML에 할애하는 시간은 극히 일부분으로 불과하다는 사실을 볼 수 있습니다.
데이터 엔지니어가 이러한 계층 구조의 하위 단계를 진행할 때, 추가적으로 데이터 과학자가 데이터 기반의 의사결정을 할 수 있는 결과를 만들어 줄수 있음을 볼 수 있습니다. 이러한 통찰을 바탕으로 비즈스프링은 고객사의 데이터 활용을 극대화하기 위한 종합적인 솔루션을 제공하고 있습니다.
데이터 엔지니어링 아키텍처는 데이터 엔지니어링 수명 주기를 핵심 부분을 구성하는 시스템과 프레임 워크입니다. AWS 프레임 워크(Well-Architected)와 구글 클라우드의 클라우드 네이티브 아키텍처를 반영하여 데이터 엔지니어링 아키텍처를 를 확장하거나 축소를 하는 것이 일반적입니다.
데이터 저장과 관리 단계에서는 데이터 레이크와 데이터 웨어하우스를 적절히 설계하고, 효율적인 스토리지 계층화 전략을 수립해야 합니다. 데이터 백업과 복구 계획도 필수적이며, 효과적인 데이터 모델링을 통해 성능을 최적화하는 것도 중요합니다. 스키마 설계와 최적화, 데이터 파티셔닝과 인덱싱 전략, 그리고 지속적인 성능 튜닝이 포함하고 있습니다.
데이터 관리의 경우 견고한 *메타 데이터에 의해 강화되는데, 카탈로그 작성은 데이터 과학자 분석가 및 ML엔지니어가 데이터를 검색할 수 있도록 지원하며 , 본 책에서는 스토리지 시스템을 구축할 때는 메타 데이터를 투자하라고 명시하고 있습니다. 데이터 사전을 이러한 다른 도구와 통합함으로써 사용자는 지식을 확실하게 공유하고 기록할 수 있기 때문입니다. 관리적 측면에서는 데이터 카탈로그 및 메타 데이터 관리와 객체 저장소의 데이터 버전 관리 및 개인정보 보호를 위해 사람, 프로세스, 기술을 관련하여 고려해야 함을 언급하고 있습니다.
관리 영역에서 데이터 보안은 특히 중요한 고려 사항이며, 이는 사람, 프로세스, 기술적 측면에서 총체적인 접근이 필요하다고 말하고 있습니다. 보안 교육과 인식 제고, 명확한 접근 권한 관리, 보안 정책 수립과 정기적인 감사, 그리고 암호화와 접근 제어 등 기술적 보호조치는 점점 더 중요해지고 있습니다. 특히 개인정보보호법과 GDPR 등 데이터 관련 규제가 강화되는 추세에서 이러한 보안 조치의 중요성은 매우 크다고 볼 수 있습니다. 이러한 보안 트렌드에 맞게 데이터 관리 정책을 변경하는 것은 매우 중요한 시사점을 제안합니다.
*메타 데이터 : 데이터에 대한 데이터, 효율적인 asset 관리에 중요
미래의 Data는 어떻게 될 것인가
미래의 데이터 엔지니어링은 AI/ML과의 통합, 실시간 처리 능력의 강화, 자동화의 확대 등의 방향으로 발전할 것으로 예상됩니다. 이에 대비하여 조직은 데이터 문화 조성, 지속적인 기술 투자, 인재 육성 및 확보, 체계적인 거버넌스 구축 등을 통해 데이터 활용 능력을 강화해야 하며, 데이터 엔지니어링은 단순한 기술 지원 역할을 넘어 비즈니스 혁신의 동력이 될 수 있음을 시사하고 있습니다. 이를 위해서는 기술적 전문성과 함께 비즈니스 통찰력, 그리고 조직 변화 관리 능력이 요구되며, 데이터 기반 의사결정을 지원하고, 비즈니스 경쟁력을 강화하며, 운영 효율성을 향상시키는 것이 데이터 엔지니어링의 궁극적인 목표라 할 수 있겠습니다.
결론적으로, 데이터 엔지니어링은 조직의 디지털 전환과 혁신을 이끄는 핵심 동력입니다. 앞으로도 데이터의 중요성은 계속해서 증가할 것이며, 이에 따라 데이터 엔지니어링의 역할과 가치도 더욱 커질 것입니다. 조직은 이러한 변화에 선제적으로 대응하여, 데이터를 통한 가치 창출의 기회를 적극적으로 모색해야 할 것입니다.
기본적으로 데이터 엔지니어링은 데이터 엔지니어가 데이터를 가져와 저장하고, 데이터 과학자나 분석가 등이 사용할 수 있도록 준비한다는 전체적인 데이터 엔지니어링의 흐름의 맥락을 추론할 수 있습니다.
비즈스프링에서는 고객, 상품, 캠페인을 결합한 Funnel 설계와 수집/적재, 다양한 데이터의 가공/통합 및 분석 리포팅을 수행해 왔습니다. 뿐만 아니라 데이터 소스-적재 파이프라인 설계를 통해 AI 적용을 위한 금융/건강 데이터 결합 데이터 세트를 완성한 이력이 있습니다. 현재는 OLAP기반으로 엑셀에서 Low 레벨 데이터를 연동하고 분석 가능한 데이터 서빙 및 환경을 제공하고 있습니다.
비즈스프링은 데이터 엔지니어링의 변화의 흐름 속에서 고객사들과 함께 혁신을 선도하고 있습니다. 데이터의 가치를 극대화할 수 있는 견고한 데이터 엔지니어링 솔루션을 제공하기 위해 끊임없이 노력하고 있으며, 이를 통해 고객사들의 디지털 혁신을 성공적으로 지원하고 있습니다. 앞으로도 비즈스프링은 데이터 엔지니어링 분야의 최신 트렌드와 모범 사례를 연구하고 적용하여, 고객사들에게 더 큰 가치를 제공할 수 있도록 노력하겠습니다. 감사합니다.
- Ref. 견고한 데이터 엔지니어링(Fundamentals of Data Engineering) – 데이터 파이프라인 설계와 핵심 원칙 O’Relly