hyperconnect career

인터뷰x하커야 Data Engineering

2022.02.07

Hi! Data Engineers!

오늘 인터뷰x하커야에서는 안정적이고 다양한 데이터 공급을 통해 데이터 기반 비즈니스 회사를 만들어 나가고 있는 데이터 엔지니어 Jake과 Pep을 소개합니다.

  • 본 인터뷰는 안전을 위해 비대면으로 진행되었으며 방역방침을 준수하여 제작했습니다

Hi! Hyperconnectors!

(Jake) 안녕하세요. 저는 Data Engineering 팀리더 Jake라고 합니다.
(Pep) 안녕하세요. 2020년부터 Data Engineering 팀에서 근무하고 있는 Pep이라고 합니다.


Q.현재 하고 있는 일?
(Pep) 저는 주로 Azar에서 발생하는 로그들을 담당하여 파이프라인을 개발 및 유지 보수 하고 있습니다. 최근에는 Azar Live라는 서비스를 담당해서 Azar 상에서 방송을 하면서 발생하는 로그들을 수집하여 적재하는 작업을 진행하였습니다.
(Jake) 저는 데이터 중심의 환경을 만들기 위한 노력을 하고 있습니다. 데이터 엔지니어링팀 내외부적인 환경에 대해서 관심을 가질 뿐만 아니라, 전사적인 데이터 니즈를 선제적으로 파악하는 역할을 하고 있어요.


Q.하이퍼커넥트 Data Engineering 팀이 하는 일?
(Jake) Data Engineering 팀은 기본적으로 사내에서 발생되는 모든 데이터에 대해서 수집/처리하며, 데이터 사용자의 요구사항에 부합하는 적시성과 안정성을 기반으로 데이터를 원하는 방식으로 제공합니다. 회사 내의 거의 모든 팀들과 밀접하게 협업하고, 데이터 파이프라인을 관리하며 데이터 생성부터 소비까지 모든 프로세스에 대해서 항상 개선점을 찾아서 발전시키고 있습니다. 특히 올해는 글로벌 스탠다드를 강화하기 위해서 GDPR, SOX, DLP 등의 프로젝트를 진행하고 있습니다.
(Pep) Data Engineering 팀은 하이퍼커넥트의 서비스에서 발생되고 있는 로그들을 사용하기 편리한 상태로 전달해 드리는 팀입니다. 데이터 파이프라인을 간단히 설명드리면 Kafka, S3에 있는 데이터를 Spark를 이용하여 정제한 뒤 BigQuery에 저장합니다. 그 이후 Airflow를 이용하여 사용하기 편한 형태로 재가공한 뒤, 다시 BigQuery에 저장하고 있습니다.
최근에는 dataflow를 활용하여 실시간으로 데이터를 수집하는 파이프라인을 개발하였습니다. 실시간 처리가 배치 처리에 비해 구현 및 운영 난이도는 높지만 그만큼 활용도 측면에서 이득이 많기 때문에 기대하고 있는 업무 중 하나 입니다.


Q. Data Engineering 팀의 장점?
(Jake) 서비스 하는 제품과 인프라 환경이 다양하기 때문에 엔지니어링 관점에서 업무를 할 수밖에 없는 게 가장 큰 장점이라고 생각합니다. 단순한 데이터 애플리케이션 설정 변경부터 신규 설치 및 인스턴스 증설, 분산 데이터 처리 환경 운영, 인프라 및 데이터 모니터링까지 다양한 업무를 자동화된 환경에서 일해볼 수 있고, 또한 지속적으로 범위를 확장 시킬 수 있습니다.
(Pep) 아마 많은 데이터 엔지니어분들이 대용량 데이터를 다루고 싶어 하실 텐데요. 하이퍼커넥트는 글로벌 전역에서 데이터가 유입되고 있어 데이터 규모가 굉장히 큰 편입니다. 1일 20테라바이트 이상의 방대한 데이터를 바탕으로 다양한 고민과 시도를 해볼 수 있어 재미있어요.


Q. 팀에서 가장 중요하게 생각하는 것?
(Jake) 업무의 단계마다 최선의 방법인지 습관적으로 고민하고 구현하는 게 가장 중요하다고 생각합니다. Data Engineering 팀이 회사 전체의 데이터 시스템에 미치는 영향이 지대한데 적당한 수준의 업무 개선을 목표로 하는 것이 아니라 Data Self-Service Platform, Data Mesh, Bigquery Omni 등 Game Changer 역할을 할 수 있는 방법을 찾아 적용하는 것이 중요한 것 같습니다.
(Pep) 확장성을 중요하게 생각하고 있습니다. 하이퍼커넥트 프로덕트들이 점점 성장하면서 저희 팀이 처리하는 로그의 용량과 종류가 빠르게 증가하고 있습니다. 확장성 있게 파이프라인을 설계하고 구현하면 팀 전반적으로 시간을 아낄 수 있고, 그만큼 깊이 있는 엔지니어링 업무에 더 집중할 수 있는 것 같습니다.


Q. 하이퍼커넥트는 Azar, Hakuna Live, Slide 등 프로덕트가 다양한데, 멀티 프로덕트의 데이터를 다루면서 특별히 흥미로운 것이 있는지?
(Pep) 하나의 회사를 다니고 있지만 데이터적으로 보면 여러 회사를 다니고 있는 듯한 생각이 드는 게 흥미로웠습니다. 단일 프로덕트만 다룰 경우 회사를 이직하기 전까지는 한 가지 도메인만 다루고 익히지만, 하이퍼커넥트는 사내에 다양한 프로덕트가 있기 때문에 도메인 역시 다양하게 경험할 수 있어 좋았습니다.
(Jake) 제품마다 특성이 서로 상이하지만, 사고를 전환하여 생각해 보면 공통된 데이터의 영역도 많아서 어떻게 하면 같은 프로그램 혹은 방식으로 여러 제품을 처리할 수 있을지 고민해 보는 게 흥미로운 것 같습니다.
(Pep) 네 맞습니다. 최근 Azar Live 의 데이터 파이프라인을 개발할 때 Hakuna Live 방송 관련 데이터 파이프라인을 참고했는데요. 다른 프로덕트지만 확장성 있게 로직이 구성되어 있어 다른 프로덕트에서도 활용할 수 있어 좋았습니다.


Q. 글로벌 프로덕트 데이터의 특별한 점?
(Pep) 글로벌 데이터를 다루는 부분은 다른 회사에서는 쉽게 경험할 수 없는 부분 중 하나입니다. 시간대, 언어, 데이터 저장 정책 등 다양한 부분을 고민해 보면서 커리어 측면에서도 큰 자산이 되는 것 같습니다.
(Jake) 글로벌 데이터를 처리할 때 크게 두 가지 관점에서 생각해 보면 좋을 것 같습니다. 하나는 데이터를 통합하는 데 있어서 각 국가별로 다양한 환경을 어떻게 유연하게 수집하여 사용자에게 제공할지에 대한 부분이고, 다른 관점은 데이터를 수집/통합하는 과정에서 특정 국가의 이상 징후를 빠르게 캐치업 하여 안정적인 데이터 제공을 위한 여러 솔루션을 반영해야 하는 것입니다. 또한 국가마다 다양한 개인정보 보호법(GDPR, SOX, Data Lifecycle Policy)과 같은 법률적 제반 사항을 적용해 보는 것이 글로벌 데이터를 다루는 특징인 것 같습니다.


Q. 전 세계 수억명의 유저들의 데이터를 다루면서, 재미있는 점?
(Pep) 저는 지역별로 특정 이벤트와 맞물려 데이터가 유의미하게 변동할 때가 흥미로웠습니다. 알제리 트래픽이 0으로 집계되어 저희 시스템에 문제가 생긴 줄 알고 전 팀원이 비상사태였던 날이 있었어요. 그런데 알고 보니 알제리 수능날이더라고요. 알제리에서는 수능일에 국가에서 인터넷을 차단한다는 것을 뉴스를 통해서 뒤늦게 알게 되었는데, 이런 국가적 이벤트를 데이터를 통해 간접적으로 겪었던 재미있는 에피소드들이 많이 있습니다.
(Jake) 맞습니다. 중동 지역의 경우 라마단이나 챔피언스리스 같이 특별한 일이 있으면 데이터 패턴이 바뀌더라고요. 국가별 사용량 모니터링을 통해서 각 국가의 굵직한 사회적 이슈들을 간접적으로 겪어볼 수 있다는 게 재미있는 포인트인 것 같습니다. 수치 변동이 급격할 때, 그 원인이 생각보다 너무 다양할 때도 있는데요. 지금은 데이터 이상 징후들을 전사 데이터 채널에 공유하고, 집단지성을 활용해 보고 있습니다.


"데이터 엔지니어로서 글로벌 대용량 데이터를 다룰 수 있다는 건 아주 두근거리는 일이에요"

Q.하이퍼커넥트에 합류하기까지?
(Jake) 회사 생활을 인도에서 시작해서 국내와는 조금 동떨어진 문화 속에서 시작하게 되었습니다. 6년 정도 인도의 글로벌 IT 회사에 다니면서 굉장히 복잡하고 다양한 업무 문화나 프로세스를 경험할 수 있었는데, 그래서인지 오히려 본질적인 업무에 대해 이해하는 시야가 생기더라고요. 한국에 돌아와서는 SCM 솔루션과 PI 컨설팅 업무를 했습니다. 업무의 도메인이 기본적으로 시스템 상의 데이터를 모아서 비즈니스로 연결 짓는 것이다 보니, 자연스럽게 빅데이터 분야에 관심이 갔고, 규모가 큰 이커머스 회사를 거쳐서 하이퍼커넥트로 오게 되었습니다.
(Pep) 처음 커리어는 게임회사에서 빅데이터 관련 직무로 시작하였습니다. 게임 로그를 쌓기 위해 EFK 스택을 다뤘고, 더 많은 데이터를 빠르게 처리하기 위해서 Hadoop Ecosystem을 구축하여 데이터 플랫폼을 운영하는 게 주업무였어요. 그 외에도 간단한 데이터 분석이나 로그 분석 툴 개발을 위한 웹 개발까지 담당했었습니다. 그러던 도중 더 많은 데이터와 글로벌 데이터를 다루고 싶다는 욕심이 생겨 하이퍼커넥트로 이직하게 되었습니다.


Q.하이퍼커넥트를 선택한 결정적 이유?
(Jake) 하이퍼커넥트를 선택한 가장 결정적인 이유는 국내 스타트업 기업이 소셜 디스커버리 분야에서 세계를 석권하였고, 아직도 무섭게 성장하고 있기 때문입니다. 전통적인 토종 기업들이 특정 제품이나 영역에 대해서 1등을 하는 모습은 종종 보았지만, 하이퍼커넥트는 한국 스타트업 업계를 완전히 새롭게 바라볼 수 있는 베스트 프랙티스라고 생각했습니다. 지금에서야 그게 K-POP이나 K-드라마 같은 것이구나 하는 생각이 드네요.
(Pep) 데이터 엔지니어로서 글로벌 대용량 데이터를 다룰 수 있다는 건 아주 두근거리는 일이었고, 입사 후에 다시 봐도 잘 선택한 것 같습니다. 지원 당시에는 하이퍼커넥트는 Cloud Native로 모든 것이 구축되어 있어서 On-premise 환경의 커리어에 대해서는 약점으로 작용할 수 있지 않을지 고민이 되었는데, 입사 후 생각이 바뀌었습니다. 인프라 관리 요소는 클라우드의 도움을 받을 수 있고, 데이터 엔지니어는 더 높은 가치를 창출하는 것에 더 집중하면서 프로덕트를 발전시킬 수 있어서 더욱 만족도가 높은 것 같아요.


Pep X Jake

Q. 실제로 하이퍼커넥터가 되어 일해보니 어떤지?
(Pep) 예상했던 것보다 많은 것이 잘 되어 있었고 또 앞으로 할 게 많다고 느꼈습니다. 입사했을 때 기존에 잘 구축되어 있던 데이터 모델링과 파이프라인을 보고 운영하면서 많은 것을 배울 수 있었습니다. 또한 프로덕트가 성장하고 새로 출시되면서 발생하는 다양한 업무들이 있는데, 이를 해결해나가면서도 성장해 나가는 것을 느낄 수 있었습니다. 입사 당시 대비 가장 큰 변화는 아무래도 Match Group과 함께하게 된 것이라고 생각합니다. Match Group과의 협업을 통해 서로의 노하우를 공유하고, 보다 방대한 규모의 데이터를 다룰 수 있을 것으로 기대하고 있습니다.
(Jake) 하이퍼커넥트 이전의 IT 회사들은 비용 개선이나 효율성 증대를 통한 이윤 창출에 포커스를 맞춰서 일을 했었습니다. 정해진 일을 누구보다 빠르게, 모든 상황을 커버할 수 있는 항공 모함 같은 걸 잘 만드는게 핵심 역량이였어요. 반면에 하이퍼커넥트에서는 좀더 세분화되고 다양한 접근을 통하여 비즈니스와 IT가 함께 성장을 하는 경험을 할 수 있었습니다. 저는 이게 비즈니스와 완전히 결합된 IT 서비스라고 생각합니다.


Q.하이퍼커넥터로서 가장 보람되었던 순간?
(Pep) Azar Live의 파이프라인을 구축했을 때가 기억에 남습니다. 프로젝트의 가장 초기 단계부터 구축을 진행하였고, 구축한 이후에도 계속 꾸준히 성장하는 모습을 보이고 있어서 뿌듯하게 생각하고 있습니다.
(Jake) 입사 시점에 많은 데이터를 수백 대의 서버를 사용하여 처리하는 파이프라인이 있었는데, 여러 가지 이유로 지연이나 실패가 되면 누군가는 전담으로 데이터를 처리하여 복구해야만 하는 구조적인 어려움이 있었습니다. 데이터 처리 환경을 새롭게 도입하여 이관한 후에 쉽게 수정하고 운영할 수 있는 환경이 되어서 너무 보람찼습니다. 최근에는 대부분의 데이터를 실시간 처리로 변경하여 릴리즈 막바지 작업을 하고 있습니다.


Q.하이퍼커넥트에서 이루고 싶은 목표?
(Jake) 빅데이터 오케스트레이션을 글로벌하게 리딩 해보고 싶습니다. 빅데이터 영역은 너무나도 다양한 데이터 애플리케이션이 새롭게 생겨나고 도태되는데, 상황에 맞는 엣지 조합에 대해서 많은 베스트 프랙티스들을 만들어 보고 싶습니다.
(Pep) 저는 모든 팀들이 데이터 엔지니어의 도움 없이도 원하는 데이터를 사용할 수 있는 환경을 만드는 게 목표입니다. 그러기 위해서 기존의 데이터 파이프라인을 표준화하고, 관련 인프라 및 플랫폼 구축하는 노력을 하고 있습니다. 언젠가 더 이상 하이퍼커넥트에 데이터 엔지니어의 도움이 필요 없는(?) 상황이 올 수도 있겠네요!


Q. 팀에서 올해 계획하고 있는 것?
(Jake) 쾌적하고 효율적인 데이터 셀프서비스 환경을 만들려고 합니다. 적절한 기능 및 데이터 통합과 개인의 니즈에 충족하는 자유로운 분석 환경, 직관적이고 현실적인 Data Catalog를 통하여 모두가 데이터를 불편함 없이 사용할 수 있도록 하는 프로젝트를 진행하고 있습니다.
(Pep) 전사적인 관점에서 데이터를 쉽고 편리하게 활용할 수 있는 플랫폼들을 구상하고 있습니다. 테이블이나 스키마 정보를 한눈에 파악할 수 있는 데이터 리니지 툴도 조사 중에 있으며 데이터를 실버, 골드 영역으로 나누어 팀의 니즈에 맞추어 데이터를 사용할 수 있는 DW 구조를 만들고 있습니다.


"더 좋은 기술이나 프로세스는 자유롭게 이야기하고 지원해요"

Q.팀원들의 MBTI는? I 와 E?
(Pep) 부끄러움이 많아서 그런지 업무시간에는 대부분 조용히 일을 하셔서 I가 많은 것 같지만, 먼저 말을 걸면 그 순간부터 티타임이 되어서 수다쟁이가 되거나 놀 때만큼은 놀랍도록 E가 되는 팀입니다.


Q. 자랑하고 싶은 팀의 문화?
(Pep) 레거시만 따르기보다는, 원하는 것을 제안하면 받아들여지는 분위기가 좋은 것 같습니다. 더 좋은 기술이나 프로세스가 있다면 자유롭게 이야기하고 팀에서도 적극적으로 지원해 주는 편입니다. 변화를 거부하지 않는 팀 분위기 덕분에 팀 역량도 더 향상되는 것 같아요.
(Jake) 저희 팀은 팀원들 간에 신뢰가 높고 솔직하게 공유하는 분위기입니다. 팀원들 간에 믿음이 두텁고 서로의 발전을 함께 응원하고 있어서, 개인의 성장 목표와 회사의 목표를 잘 조화시킬 수 있는 팀입니다.


Q. 함께 일하고 싶은 동료?
(Jake) 저희 팀에는 굉장히 능동적인 성향의 분들이 모여 있습니다. 업무 중에 명확하지 않은 부분이 있다면 새로이 정의하거나, 예상되는 리스크를 빠르게 공유하는 식으로 업무를 진행하고 있어요. 더불어 새로운 기술을 탐구하는 걸 좋아하는데, 이런 성향의 분이 합류하신다면 같이 즐겁게 시너지를 낼 수 있을 것 같습니다.
(Pep) 한 가지 일을 하더라도 깊게 고민하고 의견을 공유해 주실 수 있는 분이 오시면 좋을 것 같습니다. 데이터 엔지니어 업무 특성상 한 번 구축해 놓으면 많은 분들이 계속 꾸준히 사용하게 되는데, 이 과정에서 잘 고민하여 구축하면 향후에 운영 리소스나 업무 부하 관리 측면에서 굉장한 메리트를 만들어낼 수 있습니다. 저희 팀과 함께 고민해 보시고 싶은 분들은 모두 환영입니다.


Q. 예비 하이퍼커넥터에게 알려주고 싶은 Tip?
(Pep) 저희가 지금 사용하고 있는 기술들은 원하는 것을 구현하기 위한 수단일 뿐이라고 생각합니다. 기술이 조금 다르더라도 그동안 고민하셨던 데이터 아키텍처, 데이터 모델링, 업무 프로세스 등 다양한  이야기를 나누다 보면 재미있는 면접이 될 것 같습니다.


지금 하이퍼커넥트는 Data Engineering 채용 중!
글로벌 데이터 엔지니어로서의 새로운 경험, 하이퍼커넥트에서 시작해보세요!


인터뷰x하커야는 계속됩니다 🔜


🔗 채용 보기 (링크)
💌 채용 문의 (career@hpcnt.com)