작귀 ETL 파이프라인 만들기
·
Project
Fluentd + MongoDB 통합 뉴스 피드 구축(2)
·
Project
# 5. 추가 개선 사항# 5.1. 데이터 수집 주기와 배치 크기 기준은 어떻게 설정하면 좋을까? 이전에 사용했던  logstash 에서도 데이터 수 증가( 버퍼 크기)의 문제로 데이터가 누락 또는 지연되었던 경험이 있습니다.이 경우는 logstash 메모리 버퍼 증가로 해결하였지만, MongoDB 의 관점에서 해결할 수 있는 방법을 찾아 보았습니다. 1.인덱스 설계 몽고DB는 대용량 데이터 처리에 강점이 있습니다. 그럼에도 불구하고 더 많은 데이터가 들어온다고 가정하면 성능에 영향을 줄 수 있습니다.불필요 인덱스를 제거 하고, TTL Index를 사용해 오래된 데이터를 정리할 수 있습니다. 2.샤딩수평 확장: 데이터가 많이 쌓이면 단일 서버에서 처리할 수 있는 한계를 넘어서게 됩니다. 이를 해결하기 위..
Fluentd + MongoDB 통합 뉴스 피드 구축(1)
·
Project
실무에서 새로운 프로젝트에 참여 했을 때 JSON 형태로 데이터를 활용하자고 제안한 적이 있습니다.1. 개요이유 실무에서 새로운 프로젝트에 참여 했을 때 JSON 형태로 데이터를 활용하자고 제안한 적이 있습니다.이 방법으로 여러 데이터 타입을 유연하게 분석할 수 있었습니다. 기존의 RDB 형태로 데이터를 Type별/컬럼별로 분리하여 관리하면, 신규 Type 추가 시마다 테이블 스키마 변경 및 업데이트 과정이 필요했습니다. 이는 데이터 지연 및 관리 복잡성 증가로 이어질 수 있었습니다.반면, JSON 형식의 데이터를 그대로 클라우드 분석 플랫폼에 저장하고,이를 Function 기능을 통해 실시간으로 분석 및 조회하도록 개선하면서 다음과 같은 이점을 확인할 수 있었습니다: - 운영 효율성 증대: 원본 JSO..
정리 예정 목록
·
Project
[CDC 구축]실시간 대시보드 시각화를 위한 데이터 마트 아키텍처 설계하기스냅샷 데이터 활용 확대를 위한 아키텍처 설계하기  [마이그레이션]Mysql 에서 Mongodb로 데이터 마이그레이션 하기 [데이터 수집]Fluentd 로  MongoDB 활용하기 ADX PowerShell 연결