Cloud Dataprep은 Trifacta에서 운영하는 통합 파트너 서비스로 Google Cloud Platform에서 제공하는 지능형 데이터 준비 웹 애플리케이션입니다.
간단한 드래그 앤 드롭 브라우저 환경에서 데이터를 시각적으로 탐색 및 정리하고 분석이 가능하도록 여러 데이터 세트를 준비하는데 활용되고 데이터 분석가와 데이터 과학자가 복잡한 코드를 작성하는 대신 사용자 친화적인 인터페이스에서 간단한 워크플로를 사용하여 데이터 세트를 시각적으로 탐색, 정리 및 변환하는 데 매우 유용합니다.
“분석을 위해 데이터를 시각적으로 탐색, 정리, 준비하는
지능형 클라우드 데이터 서비스”
출처 : Trifacta
주요 기능
일반적으로 Dataprep은 다음과 같은 기능을 제공합니다.
- 데이터 통합 : 클라우드 스토리지, 데이터베이스, 온프레미스 데이터를 포함한 다양한 데이터 소스에 연결하여 다양한 위치에서 데이터를 가져오고 통합할 수 있습니다.
- 데이터 변환 : 코딩 없이 데이터 변환 레시피를 설계할 수 있는 시각적 인터페이스를 제공합니다. 다양한 데이터 정리, 정규화 및 강화 작업을 수행할 수 있습니다.
- 데이터 품질 : 데이터의 누락된 값, 중복, 이상값과 같은 문제를 식별하기 위한 데이터 품질 평가 및 프로파일링 기능이 포함되어 있습니다.
- 협업 : 팀은 데이터 준비 프로젝트에 대해 협업하여 데이터 준비 레시피를 공유하고 재사용할 수 있습니다.
- GCP와 통합 : BigQuery, Cloud Storage, Dataflow와 같은 다른 GCP 서비스와 통합되어 엔드 투 엔드 데이터 파이프라인을 만들 수 있습니다.
- 확장성 : 서버리스 서비스이므로 인프라 관리에 대해 걱정할 필요가 없으며 필요에 따라 대규모 데이터 세트와 규모를 처리할 수 있습니다.
- 데이터 시각화 : 데이터와 변환의 영향을 이해하는 데 도움이 되는 데이터 시각화 기능을 제공합니다.
아래의 4가지 과정을 통해 Dataprep을 사용하여 원하는 데이터의 결과를 추출하는 방법을 알아보겠습니다.
Dataprep 연결
- GCP에 계정에 연결하여 Dataprep 선택합니다.
- Trifacta와의 계정 정보 공유를 위해 체크박스를 선택하고 AGREE AND CONTINUE 클릭합니다.
- Trifacta가 프로젝트 데이터에 액세스하도록 ALLOW 클릭합니다.
- 기본 저장소 위치 생성은 기본적으로 GCS를 사용합니다.
Flow 생성 및 Dataset 가져오기
Dataprep 사용하기 위해 동의 절차와 저장소 위치를 생성하고 나면 Dataprep이 실행되고 Console 화면 확인됩니다.
- 데이터세트에 액세스하고 조작하기 위한 컨테이너 개체인 Flow를 생성합니다.
- Untitled Flow를 클릭하여 Flow 이름 및 설명을 수정합니다.
- 데이터 연결을 클릭하여 로컬 파일을 업로드하거나 BigQuery, Google Storage 버킷에서 여러 데이터세트를 가져올 수 있습니다.
- BigQuery 선택시 사용할 데이터셋 및 테이블을 선택하고 가져오기를 클릭하여 Flow에 추가합니다.
데이터셋 및 테이블 예시 (출처: BizSpring)
Recipe 변환 적용하기
데이터 연결까지 완료되면 원하는 데이터 변경을 위해 receipe 변환을 적용합니다.
- Edit receipe를 클릭하면 초기 무작위 샘플을 로드하여 저장된 컬럼과 데이터를 확인할 수 있습니다.
데이터 예시 (출처: BizSpring)
데이터 변환을 적용하기 위해 간단하게 사용할 수 있는 몇가지 예시에 대해 살펴보겠습니다.
1) 사용하지 않는 열 삭제
- 컬럼 선택 후 드롭다운 메뉴에서 Delete 선택
데이터 예시 (출처: BizSpring)
2) Null 값 필터링
- 그래프에서 회색 부분은 Null 값을 의미하고 클릭하면 해당 행이 빨간색으로 표시
- 우측에서 데이터를 어떤 방식으로 정리할지 확인하여 선택 가능
데이터 예시 (출처: BizSpring)
3) 컬럼 merge
- 열의 데이터를 합치는 경우 merge할 컬럼 선택하고 구분자 입력, 새로운 컬럼명 입력
- preview에서 확인
데이터 예시 (출처: BizSpring)
4) Group by 하여 Sum 값 구하기
- Group by 할 컬럼 선택
- sum, avg, min, max 등 선택
- type을 컬럼으로 생성할지 테이블로 생성할지 선택
데이터 예시 (출처: BizSpring)
Dataflow 작업 실행
- 현재까지 작업한 변환 레시피를 적용한 후 결과를 생성하기 위해서 데이터 흐름 작업(Run)을 실행합니다.
- 결과 위치는 기본적으로 Cloud Storage 버킷으로 설정되고 BigQuery로 직접 가져올 수도 있습니다.
- Cloud Storage를 선택하고 Update를 클릭합니다.
- 결과값을 CSV 파일로 생성하기 위해 Create-CSV를 선택하고 Run을 클릭합니다.
- 실행이 완료되면 Output data에서 결과 데이터를 확인할 수 있습니다.
- CSV 파일이 저장된 Cloud Storage 위치로 이동하여 파일을 확인합니다.
데이터 예시 (출처: BizSpring)
이상으로, Cloud Dataprep를 간략하게 소개하고 이를 사용하기 위한 단계, 적용할 수 있는 잠재적 변환의 몇 가지 예시에 대해 알아보았습니다. Dataprep을 사용하면 다른 복잡한 ETL 변환을 수행하기 전에 데이터셋을 미리 정리하고 준비하여 데이터를 분석하는데 유용할 것이라고 생각됩니다.
감사합니다.
문의 02-6919-5516 | ad@bizspring.co.kr