FastAPI와 BigQuery 공개데이터로 REST API 만들기
Google Cloud의 BigQuery는 대규모 데이터를 SQL 기반으로 분석할 수 있는 서비스로 FastAPI는 Python 기반의 고성능 웹 프레임워크로 RESTful API 구현에 적합합니다. Google의 공개 데이터셋인 FastAPI를 통해 외부에서 호출 가능한 API 형태로 변환하여, BigQuery 데이터를 서비스 백엔드 수준에서 다루는 과정을 살펴보겠습니다.
Google Cloud의 BigQuery는 대규모 데이터를 SQL 기반으로 분석할 수 있는 서비스로 FastAPI는 Python 기반의 고성능 웹 프레임워크로 RESTful API 구현에 적합합니다. Google의 공개 데이터셋인 FastAPI를 통해 외부에서 호출 가능한 API 형태로 변환하여, BigQuery 데이터를 서비스 백엔드 수준에서 다루는 과정을 살펴보겠습니다.
최근에는 BigQuery ML이 Google Cloud Vertex AI와도 연계되어, 단순 실습용을 넘어 다양한 ML 워크로드를 다룰 수 있는 플랫폼으로 발전했습니다. 이번 포스트에서는 Google이 공개한 샘플 데이터셋을 활용해 모델 생성 → 평가 → 예측까지, 전 과정을 SQL만으로 어떻게 실행할 수 있는지 직접 살펴보겠습니다.
매일같이 쏟아지는 방대한 데이터 속에서 어떻게 의미 있는 신호를 찾아내고 계신가요?
이번 콘텐츠에서는 구글 BigQuery와 공개 데이터 세트를 활용하여, 수십억 건의 로그가 쌓인 테라바이트(TB)급 데이터를 SQL 쿼리로 분석하고, 그 과정에 담긴 효율적인 대용량 데이터 처리 전략까지 함께 알아보도록 하겠습니다.
Google BigQuery를 사용하면서 MYSQL과 같은 관계형 데이터베이스 시스템(RDBMS)을 사용했을때와 다르게 쿼리 작성등을 편하게 하다보니 무분별하게 사용하다 요금 폭탄을 맞거나 하는 경우가 있어 어떠한 방식으로 동작하는지 사용시에 발생하는 요금이 얼마나 되는지를 알아보는 시간을 갖도록 하겠습니다.
이번 포스팅에서는 행 데이터를 열로 변환하는 방법에 대해 알아보도록 하겠습니다. 데이터 작업을 하다 보면 추출한 데이터를 열로 붙여서 만들어야 하는 작업이 있을 수 있는데요, 이와 같은 유사한 작업을 진행하시는 분들에게 도움이 될 것 같아 변환하는 방법을 공유하고자 합니다.
ETL은 데이터를 추출(E), 변환(T), 적재(L) 순으로 데이터를 처리하는 프로세스입니다. ELT는 데이터를 추출(E), 로드(L) 및 변환(T)을 하는 프로세스를 의미하며, 위에 언급한 ETL의 T와 L의 위치가 바뀐 개념으로 생각하시면 됩니다.
빅쿼리에서 정제 테이블을 생성하는데 정제 테이블에서 바로 조회하지 않고 엘라스틱서치 서버에 데이터를 옮겨서 사용하는 이유에 대해서 질문을 가지실 수 있습니다. 엘라스틱서치에 데이터를 저장하는 가장 큰 이유는 “비용”과 “검색 속도”가 있습니다.
RFM 분석기법을 활용해 고객 데이터를 추출하면 우리가 집중해야하는 타겟 그룹을 추출할 수 있습니다. 최근성/빈도/금액 데이터를 활용하여 잠재 고객을 그룹화하는 RFM 분석기법을 바탕으로, 성과 데이터/대상기간 동안 RFM 데이터 등 다양한 데이터를 생성할 수 있는 쿼리문을 알아봅시다.
데이터 엔지니어링이란 사용자의 데이터(주문, 매출, 회원가입 등)를 수집하여 원하는 형태의 데이터로 가공하고 사용할 수 있도록 제공하는 서비스입니다. GA360을 활용한 데이터 엔지니어링에 대한 사례를 알아봅시다. GA 데이터는 히트, 세션, 사용자 세 가지 구조로 되어 있습니다.
1편에서 구조체와 배열에 대해 알아보았습니다. 빅쿼리는 하나의 컬럼 안에 배열구조의 또 다른 테이블을 확인할 수 있습니다. 2편에서는 난이도가 있는 쿼리문을 중심으로 이야기를 해보겠습니다. 쿼리문에 대해서 알고 있다면 필요한 시점에 필요한 데이터를 빠르게 확보할 수 있을 것입니다.