버즈빌의 데이터 엔지니어링팀은 데이터가 생산되는 레이어부터 데이터가 소비되는 레이어까지를 아우르는 데이터 플랫폼과 워크플로우의 설계 및 운영을 담당하는 조직입니다. 현재 1,800만 MAU, 30여개의 마이크로 서비스로부터 흘러들어오는 TBs/day 볼륨의 데이터가 scalable하게 적재적소에 활용 될 수 있는 데이터 플랫폼을 만들어가고 있습니다.
데이터의 원천으로부터 데이터 레이크(S3, Athena)까지 흘려보내는 ELT 워크플로우들은 Airflow를 통해 관리하고 있으며, AWS EKS 클러스터 위에서 약 1300개의 DAG를 운영하고 있습니다. Airflow를 고도화하여 YAML 명세 기반 워크플로우 관리를 포함한 다양한 시도를 통해 분석가나 서버/ML 개발자가 직접 워크플로우를 등록하는 self-serving 플랫폼을 지향하고 있습니다.
전반적인 데이터 인프라를 AWS와 Kubernetes 상에서 Terraform과 Helm으로 관리하고 있으며, 주요 스택으로는 S3, Athena, Kafka, DataHub, Fluentbit, Loki, Redash 등을 활용하고 있습니다
🔎 버즈빌, 최고의 리그에서 최고의 선수가 탄생하는 이유
팀에 조인하셔서, 아래의 과업들을 같이 풀어나가면 좋겠습니다.
데이터 플랫폼 단순화를 위해 데이터 웨어하우스로 사용하던 Redshift를 제거하고 S3/Athena 기반 데이터 레이크로 플랫폼을 통합했습니다. 현재 Hive 포맷 테이블들을 Iceberg로 전환하는 작업을 진행 중이며, ACID 트랜잭션, 레코드 수준 변경 등 유연한 기능들을 데이터 플랫폼 전반에 확대해 나가고 있습니다. 데이터 플랫폼상에서의 비효율을 포착하고 최적화하는 일을 같이 진행해 보고 싶습니다.
DataHub을 데이터 카탈로그로 사용 중입니다. 테이블/컬럼 수준의 설명, 태그, 오너십 등 카탈로깅 작업은 대부분 수작업에 의존하고 있어 관리 부담이 높은 상황입니다. LLM을 활용하여 테이블·컬럼 설명 작성, 태그 및 오너십 추천 등 카탈로깅 작업을 자동화하는 파이프라인을 함께 설계하고 구축해 나가고자 합니다.
현재 운영계의 데이터는 대부분 배치로만 분석계에 반영되고 있어, 실시간 분석 및 의사결정에 한계가 있습니다. CDC를 활용해 운영계 DB의 변경 사항을 실시간으로 캡쳐하고, 이를 데이터 레이크까지 반영하는 파이프라인을 함께 설계하고 구축해 나가고자 합니다. 단순한 구축을 넘어 안정적이고 정합성 높은 파이프라인을 만드는 것을 목표로 합니다.
현재 서비스 및 인프라 로그는 Loki에서 최근 데이터를 조회하고, 장기 보관 데이터는 Fluentbit을 통해 S3에 적재하여 Athena로 분석하는 구조로 운영하고 있습니다. 일부 구간에서 데이터 유실 가능성이 있어, 수집부터 적재까지 전 구간에 걸쳐 안정적으로 동작하는 로그 아키텍처로 개선하는 작업을 함께 해나가고자 합니다.
🔎 데이터 엔지니어의 Airflow 데이터 파이프라인 CI 테스트 개선기
🔎 Self Serving Data Platform 구축하기 (feat. Airflow)
성장을 위한 개발 문화와 훌륭한 동료 버즈빌은 회사와 팀, 개인 모두의 성장을 적극적으로 지원합니다. 좋은 문화와 훌륭한 동료 덕분에 빠른 성장을 경험할 수 있습니다.
1. 본 고지는 ‘채용절차의 공정화에 관한 법률’ 제11조를 따르며, 최종합격자를 제외한 구직자는 채용여부 확정일 이후 14일 이내 채용서류의 반환을 청구할 수 있습니다.
2. 다만, 홈페이지 혹은 전자우편 등 전자서류로 제출된 경우 및 구직자가 버즈빌의 요구 없이 자발적으로 제출한 경우의 서류는 반환 청구 대상에서 제외되며, 천재지변 혹은 버즈빌 측 책임이 없는 사유로 채용서류가 멸실된 경우에는 반환이 되지 않습니다.
3. 모든 채용 서류는 상기 법률에 따라 최종 합격자 발표 후 180일간 보관되며 그 이후에는 파기되므로 해당 기간이 경과된 후에는 반환이 불가능합니다.
4. 채용서류의 반환 청구는 [email protected] 이메일로 신청하여 주시기 바라며, 반환 청구 이후 14일 이내 지정한 주소지로 등기 우편을 통해 송부해 드릴 예정입니다. 이때, 소요되는 비용은 신청인이 부담할 수 있습니다.
버즈빌의 데이터 엔지니어링팀은 데이터가 생산되는 레이어부터 데이터가 소비되는 레이어까지를 아우르는 데이터 플랫폼과 워크플로우의 설계 및 운영을 담당하는 조직입니다. 현재 1,800만 MAU, 30여개의 마이크로 서비스로부터 흘러들어오는 TBs/day 볼륨의 데이터가 scalable하게 적재적소에 활용 될 수 있는 데이터 플랫폼을 만들어가고 있습니다.
데이터의 원천으로부터 데이터 레이크(S3, Athena)까지 흘려보내는 ELT 워크플로우들은 Airflow를 통해 관리하고 있으며, AWS EKS 클러스터 위에서 약 1300개의 DAG를 운영하고 있습니다. Airflow를 고도화하여 YAML 명세 기반 워크플로우 관리를 포함한 다양한 시도를 통해 분석가나 서버/ML 개발자가 직접 워크플로우를 등록하는 self-serving 플랫폼을 지향하고 있습니다.
전반적인 데이터 인프라를 AWS와 Kubernetes 상에서 Terraform과 Helm으로 관리하고 있으며, 주요 스택으로는 S3, Athena, Kafka, DataHub, Fluentbit, Loki, Redash 등을 활용하고 있습니다
🔎 버즈빌, 최고의 리그에서 최고의 선수가 탄생하는 이유
팀에 조인하셔서, 아래의 과업들을 같이 풀어나가면 좋겠습니다.
데이터 플랫폼 단순화를 위해 데이터 웨어하우스로 사용하던 Redshift를 제거하고 S3/Athena 기반 데이터 레이크로 플랫폼을 통합했습니다. 현재 Hive 포맷 테이블들을 Iceberg로 전환하는 작업을 진행 중이며, ACID 트랜잭션, 레코드 수준 변경 등 유연한 기능들을 데이터 플랫폼 전반에 확대해 나가고 있습니다. 데이터 플랫폼상에서의 비효율을 포착하고 최적화하는 일을 같이 진행해 보고 싶습니다.
DataHub을 데이터 카탈로그로 사용 중입니다. 테이블/컬럼 수준의 설명, 태그, 오너십 등 카탈로깅 작업은 대부분 수작업에 의존하고 있어 관리 부담이 높은 상황입니다. LLM을 활용하여 테이블·컬럼 설명 작성, 태그 및 오너십 추천 등 카탈로깅 작업을 자동화하는 파이프라인을 함께 설계하고 구축해 나가고자 합니다.
현재 운영계의 데이터는 대부분 배치로만 분석계에 반영되고 있어, 실시간 분석 및 의사결정에 한계가 있습니다. CDC를 활용해 운영계 DB의 변경 사항을 실시간으로 캡쳐하고, 이를 데이터 레이크까지 반영하는 파이프라인을 함께 설계하고 구축해 나가고자 합니다. 단순한 구축을 넘어 안정적이고 정합성 높은 파이프라인을 만드는 것을 목표로 합니다.
현재 서비스 및 인프라 로그는 Loki에서 최근 데이터를 조회하고, 장기 보관 데이터는 Fluentbit을 통해 S3에 적재하여 Athena로 분석하는 구조로 운영하고 있습니다. 일부 구간에서 데이터 유실 가능성이 있어, 수집부터 적재까지 전 구간에 걸쳐 안정적으로 동작하는 로그 아키텍처로 개선하는 작업을 함께 해나가고자 합니다.
🔎 데이터 엔지니어의 Airflow 데이터 파이프라인 CI 테스트 개선기
🔎 Self Serving Data Platform 구축하기 (feat. Airflow)
성장을 위한 개발 문화와 훌륭한 동료 버즈빌은 회사와 팀, 개인 모두의 성장을 적극적으로 지원합니다. 좋은 문화와 훌륭한 동료 덕분에 빠른 성장을 경험할 수 있습니다.
1. 본 고지는 ‘채용절차의 공정화에 관한 법률’ 제11조를 따르며, 최종합격자를 제외한 구직자는 채용여부 확정일 이후 14일 이내 채용서류의 반환을 청구할 수 있습니다.
2. 다만, 홈페이지 혹은 전자우편 등 전자서류로 제출된 경우 및 구직자가 버즈빌의 요구 없이 자발적으로 제출한 경우의 서류는 반환 청구 대상에서 제외되며, 천재지변 혹은 버즈빌 측 책임이 없는 사유로 채용서류가 멸실된 경우에는 반환이 되지 않습니다.
3. 모든 채용 서류는 상기 법률에 따라 최종 합격자 발표 후 180일간 보관되며 그 이후에는 파기되므로 해당 기간이 경과된 후에는 반환이 불가능합니다.
4. 채용서류의 반환 청구는 [email protected] 이메일로 신청하여 주시기 바라며, 반환 청구 이후 14일 이내 지정한 주소지로 등기 우편을 통해 송부해 드릴 예정입니다. 이때, 소요되는 비용은 신청인이 부담할 수 있습니다.