코로나19 공공데이터 내재화 및 신규 검색 파이프라인 신속 구축

🏢 Project under 주식회사 후후앤컴퍼니: 후후 상호검색서비스 개발/운영

긴급한 비즈니스 요구사항에 대응하여, 이기종 공공데이터 포맷을 내부 검색 생태계로 신속하게 내재화하는 유연한 데이터 파이프라인 구축

By 유민호

💡 [후후 상호검색: 코로나19 공공데이터 내재화 및 신규 검색 파이프라인 신속 구축]

[한 줄 요약] 긴급한 비즈니스 요구사항에 대응하여, 이기종 공공데이터 포맷을 내부 검색 생태계로 빠르게 내재화하는 유연한 데이터 파이프라인을 구축한 프로젝트입니다.

📌 배경 및 문제 상황 (Problem)
- 긴급 기획 요구사항 인입: 국가적 재난(COVID-19) 상황으로 인해 선별진료소, 진단키트 재고 등 매일 바뀌는 정책과 사용자 니즈를 빠르게 검색 서비스에 반영해야 하는 초단기 릴리즈 과제가 발생.
- 신규 데이터 포맷 내재화의 한계: 정부 오픈 데이터(공공데이터 API)는 기존 후후의 코어 상호(POI) 데이터베이스와 스키마 및 포맷(JSON/XML 등)이 달라, 레거시 인덱싱 파이프라인에 그대로 수용할 수 없는 비호환성이 존재.

🛠️ 해결 과정 및 역할 (Action)

1. [이기종 공공데이터 포맷 변환 및 내재화 파이프라인 설계]

  • 데이터 매핑 및 정규화(Normalization): 외부 공공데이터의 비표준 응답 포맷을 내부 검색 엔진(Xten)의 규격에 맞게 변환하는 전용 ETL(추출-변환-적재) 파이프라인을 신규 개발. 위경도 좌표 변환, 영업시간 파싱 등 도메인에 특화된 데이터 정제 로직을 구현하여 내부 검색 품질 기준을 충족.
  • 독립적 검색 컬렉션 구축: 기존 코어 상호 인덱스 스키마를 변경하지 않고, 코로나 관련 데이터만 격리하여 저장/조회할 수 있는 신규 검색 컬렉션을 설계하여 데이터 간 간섭을 최소화.

2. [기획 요구사항 신속 대응을 위한 결합도 완화 (Agile Architecture)]

  • 파이프라인 분리 및 Hot-Deploy: 코로나 전용 데이터 수집 및 인덱싱 모듈을 메인 상호검색 서비스와 논리적으로 분리. 이를 통해 정기 배포 일정(Release Cycle)을 기다리지 않고, 기획팀의 새로운 요구사항(예: 진단키트 취급 약국 추가 등)이 인입될 때마다 독립적으로 배포할 수 있도록 함.
  • 설정 기반(Configuration-driven) 확장성: 수집할 공공데이터의 엔드포인트나 매핑 룰이 변경되더라도 코드를 재빌드하지 않고 설정값 변경만으로 파이프라인이 동작하도록 추상화.

📈 업무 성과 (Result)
  • 빠른 타임 투 마켓(Time-to-Market): 독립 파이프라인을 통해, 기획 요구사항 확정 후 짧은 기간 내에 공공데이터 연동 및 검색 서비스를 오픈하며 긴급 요구에 대응.
  • 이기종 데이터 확장성 및 플랫폼 기반 마련: 코로나 공공데이터 연동 경험을 바탕으로, 이후 외부 비표준 데이터가 유입되더라도 내부 검색 생태계로 내재화할 수 있는 데이터 통합 구조를 확보.
  • 비즈니스 민첩성 확보: 메인 시스템의 안정성을 해치지 않으면서도 수시로 변하는 정책과 기획 요구사항을 검색 로직에 반영하는 애자일(Agile)한 운영 체계를 마련.