Get fresh updates from Hortonworks by email

Once a month, receive latest insights, trends, analytics, offering information and knowledge of the Big Data.

CTA

시작하기

클라우드

시작할 준비가 되셨습니까?

Sandbox 다운로드

어떤 도움이 필요하십니까?

닫기닫기 버튼
CTA

빠르고, 쉽고, 안전한 빅 데이터 통합

데이터 수집을 몇 개월에서 몇 분으로 혁신적으로 단축

클라우드 데이터 수집을 쉽고 빠르고 안전하게 수행하는 방법 알아보기

백서 다운로드

데이터 수집이란?

Big data ingestion is about moving data - especially unstructured data - from where it is originated, into a system where it can be stored and analyzed such as Hadoop.

Data ingestion may be continuous or asynchronous, real-time or batched or both (lambda architecture) depending upon the characteristics of the source and the destination. In many scenarios, the source and the destination may not have the same data timing, format or protocol and will require some type of transformation or conversion to be usable by the destination system.

As the number of IoT devices grows, both volume and variance of data sources are expanding rapidly, sources which now need to be accommodated, and often in real time. Yet extracting the data such that it can be used by the destination system is a significant challenge in terms of time and resources. Making data ingestion as efficient as possible helps focus resources on big data streaming and analysis, rather than the mundane efforts of data preparation and transformation.

HDF 덕분에 간편해진 빅 데이터 수집

이전

어지럽고 복잡했으며, 올바른 데이터를 Hadoop에 이동하는 데 몇 주에서 몇 개월까지 시간이 소요되었음

이후

간편하고, 효율적이고, 쉬워짐

데이터 수집의 전형적인 문제점

복잡하고, 느리고, 비쌈

*

Purpose-built and over-engineered tools make big data ingestion complex, time consuming, and expensive

*

Writing customized scripts, and combining multiple products together to acquire and ingestion data associated with current big data ingest solutions takes too long and prevents on-time decision making required of today’s business environment

*

• Command line interfaces for existing streaming data processing tools create dependencies on developers and fetters access to data and decision making

데이터 보안 및 신뢰성

*

데이터의 분산된 조각을 공유해야 하는 요건은 그룹 또는 역할 수준에서 액세스가 제한되는 현재 전송 계층 데이터 보안 기능과 호환되지 않음

*

규제 및 데이터 보안 규정을 준수하는 일은 어렵고, 복잡하며, 비용이 많이 소모됨

*

데이터 액세스 및 사용에 대한 확인은 어렵고 시간이 많이 소모되며, 데이터 소스의 위치, 사용 방법, 사용한 사용자, 사용 빈도를 확인하기 위해 다른 시스템 및 보고서를 서로 잇는 수동 프로세스에 연관되는 경우가 많음

IoT에 대한 데이터 수집의 문제점

*

• Difficult to balancing limited resources of power, computing and bandwidth with the volume of data signals being generated from big data streaming sources

*

안정적이지 않은 연결로 인해 통신 중지 및 데이터 손실 발생

*

전 세계에 배포된 센서 중 대부분이 보안상의 결핍이 있어 비즈니스 및 안전이 위험함

Hortonworks DataFlow를 통해 데이터 수집 최적화

빠르고, 쉽고, 안전함

*

오늘날의 수많은 빅 데이터 수집 문제를 해결하는 가장 빠른 방법

*

데이터 흐름의 실시간 상호 작용 지점 및 클릭 제어

*

늘어나는 빅 데이터 ROI를 위해 가속화된 데이터 수집 및 이동

*

실시간 운영 가시성, 피드백 및 제어

*

비즈니스 민첩성 및 대응력

*

Real-time decision making from big data streaming sources

*

코딩 및 사용자 지정 스크립팅 접근 방식에 내재된 종속성과 지연 문제를 제거하여 이전에 볼 수 없었던 운영 효율성 달성

*

빅 데이터 인프라를 위한 시판용 흐름 기반 프로그래밍

*

지리적으로 분산된 다양한 대역폭 환경에서 안전하고 안정적이며 우선순위가 지정된 데이터 수집

*

데이터 규정 준수, 데이터 “평가”, 데이터 흐름 최적화 및 문제 해결에 대한 보존 체계를 활성화하는 완벽한 데이터 검증

유연한 적응형 단일 양방향 실시간 시스템

*

동적 소스 및 분산 소스로부터 데이터 소스를 알 수 없는 통합 수집

*

Adaptive to fluctuating conditions of remote, distributed data sources over geographically disperse communication links in varying bandwidth and latency environments

*

데이터를 전송하거나 놓거나 로컬에 저장하기 위한 완벽한 동적 실시간 데이터 우선순위 지정

*

데이터, 명령 및 컨텍스트 데이터의 양방향 이동

*

오늘날 엔터프라이즈 데이터 환경의 대규모 클러스터에서뿐 아니라 IoT를 구축하는 소규모 데이터 소스에서도 똑같이 실행되도록 뛰어나게 설계됨

*

데이터 (출처)에 대한 시각적 보존 체계에서 IoT의 데이터 검증 및 신뢰를 위해 실시간 이벤트 수준의 데이터 계보 제공

 
실시간 데이터 흐름을 통해 빅 데이터 ROI를 가속화하는 방법
IoT로부터의 안전한 데이터 흐름
실시간, 시각적 데이터 계보
안전한 데이터 액세스 및 제어
활성 데이터의 동적 우선순위 지정

Hortonworks Dataflow를 통한 데이터 수집의 이용 사례

이용 사례 1

Hadoop으로 가는 진입로

실시간으로 끌어서 놓는 인터페이스 방식을 통해 대개 데이터를 Hadoop으로 이동하는 데 필요한 시간을 몇 개월에서 몇 분으로 단축합니다. 실제 이용 사례를 읽어 보고 30초 만에 데이터를 HDFS에 이동하는 방법을 확인해 보세요.

 

예측 가능 동영상 | 블로그
지금 30초 라이브 데모 보기

이용 사례 2
미디어 이미지

로그 수집 / Splunk 최적화

로그 데이터는 캡처하기 복잡하고 대개 제한된 양으로 수집되며, 대규모로 운영화하기 어려울 수 있습니다. HDF를 사용하면 효율적으로 확장된 볼륨의 로그 데이터를 수집, 이동 및 액세스할 수 있고, 로그 분석 시스템을 통해 Splunk, SumoLogic, Graylog, LogStash 등과 같은 로그 분석 시스템과의 통합이 용이해집니다.

 

로그 분석 최적화 백서 지금 다운로드

이용 사례 3
미디어 이미지

IoT 수집

Realizing the promise of real-time decision making enabled by real-time IoT big data streaming is a challenge due to the distributed and disparate nature of IoT data. HDF simplifies data collection and helps push intelligence to at the very edge of highly distributed networks.

 

A. IoT에 대한 에지 인텔리전스 자세히 알아보기
B. 소매업과 IoT 자세히 알아보기
C. Open Energi IoT 자세히 알아보기

이용 사례 4
미디어 이미지

데이터를 스트림 처리 엔진으로 전달

Big data ingestion leads to processing that delivers business intelligence. HDF enables streaming data processing for your organization to support real-time enterprise use cases with two of the most popular open-source solutions Apache Storm and Spark Streaming.

NiFi Kafka 및 Storm 블로그, 슬라이드, 웨비나 자세히 알아보기
Comcast NiFi into Spark(Hadoop Summit의 기조 연설) 동영상