Get fresh updates from Hortonworks by email

Once a month, receive latest insights, trends, analytics, offering information and knowledge of the Big Data.

CTA

시작하기

클라우드

시작할 준비가 되셨습니까?

Sandbox 다운로드

어떤 도움이 필요하십니까?

닫기닫기 버튼
CTA

빠르고, 쉽고, 안전한 빅 데이터 통합

데이터 수집을 몇 개월에서 몇 분으로 혁신적으로 단축

클라우드 데이터 수집을 쉽고 빠르고 안전하게 수행하는 방법 알아보기

백서 다운로드

데이터 수집이란?

빅 데이터 수집이라는 개념은 데이터, 특히 구조화되지 않은 데이터를 원래 있던 위치에서 Hadoop 등의 저장 및 분석할 수 있는 시스템으로 이동하는 것과 관련이 있습니다.

데이터 수집은 소스 및 대상의 특성에 따라 지속적이거나 비동기식, 실시간이거나 일괄적, 또는 둘 다(lambda 아키텍처)를 포함하는 방식으로 수행될 수 있습니다. 많은 경우에, 소스 및 대상이 데이터 적용 시기, 형식 또는 프로토콜이 같을 수 없으며, 일부는 대상 시스템에서 사용할 수 있도록 유형을 변형 또는 변환해야 합니다.

IoT 장치의 수가 많아짐에 따라 데이터 소스의 볼륨 및 다양성이 모두 급격하게 확대되고 있으며, 현재 수용해야 할 소스의 경우도 실시간으로 확대되는 경우가 많습니다. 하지만 대상 시스템을 통해 사용할 수 있는 데이터를 추출하는 일은 시간 및 리소스 측면에서 매우 까다로운 문제입니다. 데이터 수집을 최대한 효율적으로 수행하면 데이터 준비 및 변환에 대한 일상적인 노고보다 빅 데이터 분석에 대한 리소스에 집중할 수 있습니다.

HDF 덕분에 간편해진 빅 데이터 수집

이전

어지럽고 복잡했으며, 올바른 데이터를 Hadoop에 이동하는 데 몇 주에서 몇 개월까지 시간이 소요되었음

이후

간편하고, 효율적이고, 쉬워짐

데이터 수집의 전형적인 문제점

복잡하고, 느리고, 비쌈

*

특정 용도에 맞게 설계되고 과도하게 설계된 도구로 인해 빅 데이터 수집이 복잡하고, 시간과 비용이 많이 소모됨

*

맞춤형 스크립트를 작성하고, 여러 제품을 함께 조합하여 현재 빅 데이터 수집 솔루션과 관련된 데이터를 획득하고 수집하는 데는 상당한 시간이 소요되며, 이로 인해 오늘날 비즈니스 환경에서 요구되는 바와 같이 정해진 시간에 의사 결정을 하지 못하게 함

*

기존 도구용 명령줄 인터페이스에서는 개발자에 대한 의존성이 생겨나고 데이터에 대한 액세스와 의사 결정이 제한됨

데이터 보안 및 신뢰성

*

데이터의 분산된 조각을 공유해야 하는 요건은 그룹 또는 역할 수준에서 액세스가 제한되는 현재 전송 계층 데이터 보안 기능과 호환되지 않음

*

규제 및 데이터 보안 규정을 준수하는 일은 어렵고, 복잡하며, 비용이 많이 소모됨

*

데이터 액세스 및 사용에 대한 확인은 어렵고 시간이 많이 소모되며, 데이터 소스의 위치, 사용 방법, 사용한 사용자, 사용 빈도를 확인하기 위해 다른 시스템 및 보고서를 서로 잇는 수동 프로세스에 연관되는 경우가 많음

IoT에 대한 데이터 수집의 문제점

*

데이터 소스에서 생성하고 있는 데이터 신호의 볼륨으로 전원, 컴퓨팅 및 대역폭에 대한 제한된 리소스의 균형을 맞추기가 어려움

*

안정적이지 않은 연결로 인해 통신 중지 및 데이터 손실 발생

*

전 세계에 배포된 센서 중 대부분이 보안상의 결핍이 있어 비즈니스 및 안전이 위험함

Hortonworks DataFlow를 통해 데이터 수집 최적화

빠르고, 쉽고, 안전함

*

오늘날의 수많은 빅 데이터 수집 문제를 해결하는 가장 빠른 방법

*

데이터 흐름의 실시간 상호 작용 지점 및 클릭 제어

*

늘어나는 빅 데이터 ROI를 위해 가속화된 데이터 수집 및 이동

*

실시간 운영 가시성, 피드백 및 제어

*

비즈니스 민첩성 및 대응력

*

스트리밍 데이터 소스로부터 수행되는 실시간 의사 결정

*

코딩 및 사용자 지정 스크립팅 접근 방식에 내재된 종속성과 지연 문제를 제거하여 이전에 볼 수 없었던 운영 효율성 달성

*

빅 데이터 인프라를 위한 시판용 흐름 기반 프로그래밍

*

지리적으로 분산된 다양한 대역폭 환경에서 안전하고 안정적이며 우선순위가 지정된 데이터 수집

*

데이터 규정 준수, 데이터 “평가”, 데이터 흐름 최적화 및 문제 해결에 대한 보존 체계를 활성화하는 완벽한 데이터 검증

Single, Flexible, Adaptive Bi-Directional Real-Time System

*

동적 소스 및 분산 소스로부터 데이터 소스를 알 수 없는 통합 수집

*

변동되는 대역폭 및 지연 시간 환경의 지역적으로 분산된 통신 링크에서 원격 분산 데이터 소스의 변동 조건에 적응

*

데이터를 전송하거나 놓거나 로컬에 저장하기 위한 완벽한 동적 실시간 데이터 우선순위 지정

*

데이터, 명령 및 컨텍스트 데이터의 양방향 이동

*

오늘날 엔터프라이즈 데이터 환경의 대규모 클러스터에서뿐 아니라 IoT를 구축하는 소규모 데이터 소스에서도 똑같이 실행되도록 뛰어나게 설계됨

*

데이터 (출처)에 대한 시각적 보존 체계에서 IoT의 데이터 검증 및 신뢰를 위해 실시간 이벤트 수준의 데이터 계보 제공

 
실시간 데이터 흐름을 통해 빅 데이터 ROI를 가속화하는 방법
IoT로부터의 안전한 데이터 흐름
실시간, 시각적 데이터 계보
안전한 데이터 액세스 및 제어
활성 데이터의 동적 우선순위 지정

Hortonworks Dataflow를 통한 데이터 수집의 이용 사례

이용 사례 1

Hadoop으로 가는 진입로

실시간으로 끌어서 놓는 인터페이스 방식을 통해 대개 데이터를 Hadoop으로 이동하는 데 필요한 시간을 몇 개월에서 몇 분으로 단축합니다. 실제 이용 사례를 읽어 보고 30초 만에 데이터를 HDFS에 이동하는 방법을 확인해 보세요.

 

예측 가능 동영상 | 블로그
지금 30초 라이브 데모 보기

이용 사례 2
미디어 이미지

로그 수집 / Splunk 최적화

로그 데이터는 캡처하기 복잡하고 대개 제한된 양으로 수집되며, 대규모로 운영화하기 어려울 수 있습니다. HDF를 사용하면 효율적으로 확장된 볼륨의 로그 데이터를 수집, 이동 및 액세스할 수 있고, 로그 분석 시스템을 통해 Splunk, SumoLogic, Graylog, LogStash 등과 같은 로그 분석 시스템과의 통합이 용이해집니다.

 

로그 분석 최적화 백서 지금 다운로드

이용 사례 3
미디어 이미지

IoT 수집

IoT 데이터의 분산적인 특징으로 인해, 실시간 IoT 데이터를 토대로 실시간 의사 결정 보장을 실현하는 것은 까다로운 난제입니다. HDF는 데이터 수집을 간소화하고 고도로 분산된 네트워크의 끝까지 인텔리전스를 적용하도록 도와줍니다.

 

A. IoT에 대한 에지 인텔리전스 자세히 알아보기
B. 소매업과 IoT 자세히 알아보기
C. Open Energi IoT 자세히 알아보기

이용 사례 4
미디어 이미지

데이터를 스트림 처리 엔진으로 전달

NiFi Kafka 및 Storm 블로그, 슬라이드, 웨비나 자세히 알아보기
Comcast NiFi into Spark(Hadoop Summit의 기조 연설) 동영상