버즈빌의 데이터 엔지니어링팀은 데이터가 생산되는 레이어부터 데이터가 소비되는 레이어까지를 아우르는 데이터 플랫폼과 워크플로우의 설계 및 운영을 담당하는 조직입니다. 현재 1,500만 MAU, 30여개의 마이크로 서비스로부터 흘러들어오는 TBs/day 볼륨의 데이터가 scalable하게 적재적소에 활용 될 수 있는 데이터 플랫폼을 만들어가고 있습니다.
데이터의 원천으로부터 데이터 레이크(S3, Athena)까지 흘려보내는 ELT 워크플로우들은 Airflow를 통해 관리하고 있으며, AWS EKS 클러스터 위에서 약 800개의 DAG를 운영하고 있습니다. Airflow를 고도화하여 YAML 명세 기반 워크플로우 관리를 포함한 다양한 시도를 통해 분석가나 서버/ML 개발자가 직접 워크플로우를 등록하는 self-serving 플랫폼을 지향하고 있습니다. S3, Athena, Kafka, Fluentbit, Loki를 포함한 전반적인 데이터 인프라는 AWS와 Kubernetes 상에서 Terraform과 Helm을 통해 관리하고 있으며, Airflow는 Argo-CD를 통해 Docker 기반으로 배포를 하고 있습니다.
팀에 조인하셔서, 아래의 과업들을 같이 풀어나가면 좋겠습니다.
거의 모든 데이터 파이프라인이 배치 워크플로우으로 운영되고 있어, 실시간으로 데이터를 보고싶은 니즈를 충족시켜주지 못하는 상황이고, unified logging system이 없어 유지보수하는데 많은 시간을 쏟고 있습니다. 현재 Confluent Kafka로 기존의 데이터 스트리밍 인프라를 이전하고 있으며, 함께 unified logging system을 만들어 가고자 합니다.
Amundsen이라는 데이터 카탈로그 툴을 도입했으나 사용성이 낮아 이를 교체하는 작업을 계획하고 있습니다. 데이터 파이프라인의 히스토리를 체계적으로 관리하고 데이터 메타데이터를 쉽게 확인할 수 있는 방법을 함께 고민하고자 합니다.
2024년 2분기부터 데이터 퀄리티의 체계적인 관리 및 보장을 위해 여러 initiative를 시도하고 있습니다. 데이터 생산자와 소비자가 SLO와 expectation을 맞춰 볼 수 있는 교각을 만드는 일을 함께 해주셨으면 좋겠습니다.
2024년 2분기에 데이터 플랫폼 단순화를 위해 데이터 웨어하우스로 사용하던 Redshift를 제거하고 S3/Athena인 데이터 레이크로 데이터 플랫폼을 통합하는 작업을 진행했습니다. 그 과정에서 Iceberg 테이블 포맷을 도입하여 ACID 트랜잭션이나 업데이트 작업등 유연한 기능들을 제공하고 있습니다. 데이터 플랫폼 상에서의 비효율을 포착하고 최적화하는 일을 같이 진행해보고 싶습니다.
🔎 데이터 엔지니어의 Airflow 데이터 파이프라인 CI 테스트 개선기
🔎 Self Serving Data Platform 구축하기 (feat. Airflow)
성장을 위한 개발 문화와 훌륭한 동료 버즈빌은 회사와 팀, 개인 모두의 성장을 적극적으로 지원합니다. 좋은 문화와 훌륭한 동료 덕분에 빠른 성장을 경험할 수 있습니다.
※ 온라인 코딩테스트 : 해커랭크 플랫폼을 통한 알고리즘 코딩 테스트
1. 본 고지는 ‘채용절차의 공정화에 관한 법률’ 제11조를 따르며, 최종합격자를 제외한 구직자는 채용여부 확정일 이후 14일 이내 채용서류의 반환을 청구할 수 있습니다.
2. 다만, 홈페이지 혹은 전자우편 등 전자서류로 제출된 경우 및 구직자가 버즈빌의 요구 없이 자발적으로 제출한 경우의 서류는 반환 청구 대상에서 제외되며, 천재지변 혹은 버즈빌 측 책임이 없는 사유로 채용서류가 멸실된 경우에는 반환이 되지 않습니다.
3. 모든 채용 서류는 상기 법률에 따라 최종 합격자 발표 후 180일간 보관되며 그 이후에는 파기되므로 해당 기간이 경과된 후에는 반환이 불가능합니다.
4. 채용서류의 반환 청구는 [email protected] 이메일로 신청하여 주시기 바라며, 반환 청구 이후 14일 이내 지정한 주소지로 등기 우편을 통해 송부해 드릴 예정입니다. 이때, 소요되는 비용은 신청인이 부담할 수 있습니다.
버즈빌의 데이터 엔지니어링팀은 데이터가 생산되는 레이어부터 데이터가 소비되는 레이어까지를 아우르는 데이터 플랫폼과 워크플로우의 설계 및 운영을 담당하는 조직입니다. 현재 1,500만 MAU, 30여개의 마이크로 서비스로부터 흘러들어오는 TBs/day 볼륨의 데이터가 scalable하게 적재적소에 활용 될 수 있는 데이터 플랫폼을 만들어가고 있습니다.
데이터의 원천으로부터 데이터 레이크(S3, Athena)까지 흘려보내는 ELT 워크플로우들은 Airflow를 통해 관리하고 있으며, AWS EKS 클러스터 위에서 약 800개의 DAG를 운영하고 있습니다. Airflow를 고도화하여 YAML 명세 기반 워크플로우 관리를 포함한 다양한 시도를 통해 분석가나 서버/ML 개발자가 직접 워크플로우를 등록하는 self-serving 플랫폼을 지향하고 있습니다. S3, Athena, Kafka, Fluentbit, Loki를 포함한 전반적인 데이터 인프라는 AWS와 Kubernetes 상에서 Terraform과 Helm을 통해 관리하고 있으며, Airflow는 Argo-CD를 통해 Docker 기반으로 배포를 하고 있습니다.
팀에 조인하셔서, 아래의 과업들을 같이 풀어나가면 좋겠습니다.
거의 모든 데이터 파이프라인이 배치 워크플로우으로 운영되고 있어, 실시간으로 데이터를 보고싶은 니즈를 충족시켜주지 못하는 상황이고, unified logging system이 없어 유지보수하는데 많은 시간을 쏟고 있습니다. 현재 Confluent Kafka로 기존의 데이터 스트리밍 인프라를 이전하고 있으며, 함께 unified logging system을 만들어 가고자 합니다.
Amundsen이라는 데이터 카탈로그 툴을 도입했으나 사용성이 낮아 이를 교체하는 작업을 계획하고 있습니다. 데이터 파이프라인의 히스토리를 체계적으로 관리하고 데이터 메타데이터를 쉽게 확인할 수 있는 방법을 함께 고민하고자 합니다.
2024년 2분기부터 데이터 퀄리티의 체계적인 관리 및 보장을 위해 여러 initiative를 시도하고 있습니다. 데이터 생산자와 소비자가 SLO와 expectation을 맞춰 볼 수 있는 교각을 만드는 일을 함께 해주셨으면 좋겠습니다.
2024년 2분기에 데이터 플랫폼 단순화를 위해 데이터 웨어하우스로 사용하던 Redshift를 제거하고 S3/Athena인 데이터 레이크로 데이터 플랫폼을 통합하는 작업을 진행했습니다. 그 과정에서 Iceberg 테이블 포맷을 도입하여 ACID 트랜잭션이나 업데이트 작업등 유연한 기능들을 제공하고 있습니다. 데이터 플랫폼 상에서의 비효율을 포착하고 최적화하는 일을 같이 진행해보고 싶습니다.
🔎 데이터 엔지니어의 Airflow 데이터 파이프라인 CI 테스트 개선기
🔎 Self Serving Data Platform 구축하기 (feat. Airflow)
성장을 위한 개발 문화와 훌륭한 동료 버즈빌은 회사와 팀, 개인 모두의 성장을 적극적으로 지원합니다. 좋은 문화와 훌륭한 동료 덕분에 빠른 성장을 경험할 수 있습니다.
※ 온라인 코딩테스트 : 해커랭크 플랫폼을 통한 알고리즘 코딩 테스트
1. 본 고지는 ‘채용절차의 공정화에 관한 법률’ 제11조를 따르며, 최종합격자를 제외한 구직자는 채용여부 확정일 이후 14일 이내 채용서류의 반환을 청구할 수 있습니다.
2. 다만, 홈페이지 혹은 전자우편 등 전자서류로 제출된 경우 및 구직자가 버즈빌의 요구 없이 자발적으로 제출한 경우의 서류는 반환 청구 대상에서 제외되며, 천재지변 혹은 버즈빌 측 책임이 없는 사유로 채용서류가 멸실된 경우에는 반환이 되지 않습니다.
3. 모든 채용 서류는 상기 법률에 따라 최종 합격자 발표 후 180일간 보관되며 그 이후에는 파기되므로 해당 기간이 경과된 후에는 반환이 불가능합니다.
4. 채용서류의 반환 청구는 [email protected] 이메일로 신청하여 주시기 바라며, 반환 청구 이후 14일 이내 지정한 주소지로 등기 우편을 통해 송부해 드릴 예정입니다. 이때, 소요되는 비용은 신청인이 부담할 수 있습니다.