ETL 추출의 주요 데이터 소스 완벽 가이드: 관계형 DB부터 API까지

TL;DR: ETL 추출(Extraction) 단계에서 활용되는 주요 데이터 소스는 관계형 데이터베이스, 플랫 파일, API, NoSQL 데이터베이스, 클라우드 스토리지, 스트리밍 데이터 등으로 나뉘며, 각 소스의 특성을 이해하면 효율적인 데이터 파이프라인을 구축할 수 있습니다.

ETL 추출(Extraction)이란 무엇인가?

ETL은 Extract(추출), Transform(변환), Load(적재)의 약자로, 데이터 엔지니어링의 핵심 프로세스입니다. 그 중 추출(Extraction) 단계는 다양한 원천 시스템에서 원시 데이터를 수집하는 첫 번째 단계입니다. 이 단계에서 어떤 데이터 소스를 선택하느냐에 따라 전체 파이프라인의 성능과 안정성이 결정됩니다.

현대 기업 환경에서는 데이터가 수십 개의 서로 다른 시스템에 분산되어 있습니다. 고객 정보는 CRM에, 판매 데이터는 ERP에, 웹 트래픽 데이터는 로그 파일에 저장되어 있죠. ETL 추출 단계는 이 모든 데이터를 하나로 모으는 역할을 합니다.

1. 관계형 데이터베이스 (Relational Databases)

관계형 데이터베이스는 ETL 추출에서 가장 일반적으로 사용되는 데이터 소스입니다. MySQL, PostgreSQL, Oracle, Microsoft SQL Server 등이 대표적이며, 구조화된 테이블 형태로 데이터를 저장합니다.

관계형 DB 추출의 특징

• SQL 쿼리 기반 추출: 표준 SQL을 사용해 원하는 데이터를 정밀하게 추출할 수 있습니다.

• 증분 추출(Incremental Extraction): 타임스탬프나 변경 데이터 캡처(CDC)를 활용해 변경된 데이터만 추출합니다.

• 트랜잭션 일관성: ACID 특성 덕분에 데이터 무결성이 보장됩니다.

# Python으로 PostgreSQL에서 데이터 추출하는 예제
import psycopg2
import pandas as pd

conn = psycopg2.connect(
    host="localhost",
    database="sales_db",
    user="etl_user",
    password="secure_password"
)

# 증분 추출: 마지막 업데이트 이후 변경된 데이터만 추출
query = """
    SELECT customer_id, order_date, total_amount
    FROM orders
    WHERE updated_at > '2024-01-01'
    ORDER BY updated_at ASC
"""

df = pd.read_sql(query, conn)
print(f"추출된 레코드 수: {len(df)}")
conn.close()

실무에서는 대용량 테이블을 추출할 때 배치 처리(Batch Processing)를 활용해 메모리 부하를 줄이는 것이 중요합니다. 한 번에 모든 데이터를 가져오는 대신, LIMIT과 OFFSET을 사용해 청크 단위로 처리하세요.

2. 플랫 파일 (Flat Files)

플랫 파일은 CSV, TSV, JSON, XML, Excel 파일 등 파일 시스템에 저장된 데이터를 의미합니다. 레거시 시스템이나 외부 파트너와 데이터를 교환할 때 자주 사용됩니다.

주요 플랫 파일 형식

• CSV/TSV: 가장 보편적인 형식으로, 거의 모든 시스템에서 지원합니다.

• JSON: 중첩 구조를 지원하며 API 응답 데이터를 저장할 때 많이 사용됩니다.

• XML: 엔터프라이즈 시스템 간 데이터 교환에 주로 활용됩니다.

• Parquet/Avro: 빅데이터 환경에서 사용되는 컬럼 기반 파일 형식입니다.

플랫 파일 추출 시 주의할 점은 인코딩 문제입니다. 한국어 데이터를 다룰 때는 UTF-8과 EUC-KR 인코딩 차이로 인한 오류가 자주 발생합니다. 항상 파일의 인코딩을 먼저 확인하고 명시적으로 지정하는 습관을 들이세요.

3. API (Application Programming Interface)

현대 웹 서비스 환경에서 API는 가장 중요한 데이터 소스 중 하나입니다. REST API, GraphQL, SOAP 등 다양한 형태의 API에서 데이터를 추출할 수 있습니다.

REST API 추출의 핵심 고려사항

• 인증(Authentication): API Key, OAuth 2.0, JWT 토큰 등 다양한 인증 방식을 처리해야 합니다.

• Rate Limiting: API 호출 제한을 초과하지 않도록 요청 속도를 조절해야 합니다.

• 페이지네이션(Pagination): 대량의 데이터를 여러 페이지로 나누어 추출합니다.

• 에러 처리: 네트워크 오류나 서버 오류에 대한 재시도 로직이 필요합니다.

# REST API에서 데이터를 페이지네이션으로 추출하는 예제
import requests
import time

def extract_from_api(base_url, api_key, max_retries=3):
    all_data = []
    page = 1
    
    while True:
        headers = {"Authorization": f"Bearer {api_key}"}
        params = {"page": page, "per_page": 100}
        
        for attempt in range(max_retries):
            response = requests.get(base_url, headers=headers, params=params)
            
            if response.status_code == 200:
                data = response.json()
                if not data["results"]:
                    return all_data  # 마지막 페이지 도달
                all_data.extend(data["results"])
                page += 1
                time.sleep(0.5)  # Rate limit 준수
                break
            elif response.status_code == 429:  # Too Many Requests
                time.sleep(2 ** attempt)  # 지수 백오프
            else:
                raise Exception(f"API 오류: {response.status_code}")
    
    return all_data

Anakin.ai를 활용하면 API 데이터 추출 파이프라인을 코드 없이도 시각적으로 구성할 수 있습니다. 다양한 API 커넥터를 제공하여 비기술 사용자도 손쉽게 데이터를 수집하고 자동화된 워크플로우를 만들 수 있습니다.

4. NoSQL 데이터베이스 및 클라우드 스토리지

빅데이터 시대에는 비정형 및 반정형 데이터를 저장하는 NoSQL 데이터베이스와 클라우드 스토리지도 중요한 ETL 데이터 소스입니다.

NoSQL 데이터베이스 유형

• 문서형 (MongoDB, Couchbase): JSON 형태의 문서를 저장하며, 유연한 스키마가 특징입니다.

• 키-값 형 (Redis, DynamoDB): 빠른 읽기/쓰기 성능으로 캐시 데이터 추출에 적합합니다.

• 컬럼형 (Cassandra, HBase): 대용량 시계열 데이터 처리에 강점이 있습니다.

• 그래프형 (Neo4j): 소셜 네트워크나 추천 시스템 데이터 추출에 활용됩니다.

클라우드 스토리지

Amazon S3, Google Cloud Storage, Azure Blob Storage 등 클라우드 스토리지는 데이터 레이크(Data Lake)의 핵심입니다. 대용량 파일을 저비용으로 저장하고, Spark나 Athena 같은 도구로 직접 쿼리할 수 있습니다.

5. 스트리밍 데이터 및 기타 소스

실시간 데이터 처리 수요가 증가하면서 스트리밍 데이터 소스도 ETL에서 중요해졌습니다.

스트리밍 데이터 소스

• Apache Kafka: 대용량 실시간 메시지 스트리밍 플랫폼으로, IoT 센서 데이터나 클릭스트림 데이터 처리에 사용됩니다.

• AWS Kinesis: 클라우드 기반 실시간 데이터 스트리밍 서비스입니다.

• 웹 스크래핑: 공개 웹 사이트에서 데이터를 수집하는 방법으로, robots.txt와 이용약관을 반드시 확인해야 합니다.

• 이메일/메시지: 기업 내부 커뮤니케이션 데이터도 분석 대상이 될 수 있습니다.

스트리밍 ETL과 배치 ETL의 가장 큰 차이점은 데이터 처리 지연 시간(Latency)입니다. 실시간 대시보드나 이상 감지 시스템에는 스트리밍 방식이 적합하고, 일별 리포트나 데이터 웨어하우스 적재에는 배치 방식이 효율적입니다.

데이터 소스 선택 시 핵심 고려사항

ETL 프로젝트를 시작할 때 올바른 데이터 소스 전략을 수립하려면 다음 요소들을 반드시 검토해야 합니다.

• 데이터 볼륨: 일일 처리량이 GB인지 TB인지에 따라 도구 선택이 달라집니다.

• 데이터 신선도: 실시간 데이터가 필요한지, 일별 스냅샷으로 충분한지 결정합니다.

• 소스 시스템 가용성: 운영 DB에 직접 접근 시 성능 영향을 최소화해야 합니다.

• 보안 및 컴플라이언스: 개인정보보호법(GDPR, PIPA) 준수 여부를 확인합니다.

• 비용: API 호출 비용, 클라우드 스토리지 비용, 네트워크 전송 비용을 고려합니다.

자주 묻는 질문 (FAQ)

Q1. ETL 추출 시 운영 데이터베이스 성능에 영향을 주지 않으려면 어떻게 해야 하나요?

운영 DB에 직접 쿼리하는 대신 읽기 전용 복제본(Read Replica)을 사용하거나, 변경 데이터 캡처(CDC, Change Data Capture) 기술을 활용하세요. Debezium 같은 오픈소스 도구는 데이터베이스 로그를 기반으로 변경 사항만 추출하여 운영 시스템 부하를 최소화합니다. 또한 ETL 작업을 트래픽이 적은 새벽 시간대에 스케줄링하는 것도 좋은 방법입니다.

Q2. API와 직접 DB 접근 중 어느 방법이 더 좋은가요?

상황에 따라 다릅니다. API는 데이터 소유자가 제공하는 공식 인터페이스로 안정적이고 보안이 보장되지만, 속도 제한과 비용이 단점입니다. 직접 DB 접근은 더 빠르고 유연하지만 운영 시스템에 영향을 줄 수 있습니다. 외부 SaaS 서비스 데이터는 API를, 내부 시스템 데이터는 직접 DB 접근(또는 복제본)을 권장합니다.

Q3. 다양한 데이터 소스를 통합 관리하는 좋은 방법이 있나요?

데이터 카탈로그(Data Catalog) 도구를 활용해 모든 데이터 소스를 중앙에서 관리하세요. Apache Atlas, AWS Glue Data Catalog, Google Data Catalog 등이 대표적입니다. 또한 Anakin.ai 같은 AI 플랫폼을 활용하면 다양한 데이터 소스를 연결하고 자동화된 워크플로우를 구축하는 과정을 크게 단순화할 수 있습니다. 메타데이터를 체계적으로 관리하면 데이터 거버넌스와 품질 관리도 훨씬 수월해집니다.