CLOUDERA DATA PLATFORM. Структура Hadoop. | Logstream - автоматизация процессов обработки документов

Logstream – автоматизация процессов обработки документов

CLOUDERA
DATA PLATFORM

Рынок распределенных вычислений и больших данных, если верить статистике, растет на 18-19% в год. Значит, вопрос выбора программного обеспечения для этих целей остается актуальным.

Зачем нужны распределенные вычисления в обычном бизнесе? Тут все просто и сложно одновременно. Просто — потому что в большинстве случаев мы выполняем относительно несложные расчеты на единицу информации. Сложно — потому что такой информации много. Очень много. Как следствие, приходится обрабатывать терабайты данных в 1000 потоков. Таким образом сценарии использования довольно универсальны: расчеты могут применяться везде, где требуется учесть большое количество метрик на еще большем массиве данных.

Одним из самых известных и обсуждаемых проектов в области распределенных вычислений является Hadoop — разрабатываемый фондом Apache Software Foundation свободно распространяемый набор из утилит, библиотек и программных платформ для разработки и выполнения программ распределенных вычислений.

01

Структура Hadoop

01

Common

набор компонентов и интерфейсов для распределенных файловых систем

01

Map Reduce

модель распределенных вычислений, предназначенная для работы с большим объемом данных

02

HDFS

распределенная файловая система, работающая на больших кластерах типовых машин

Сегодня Hadoop представляет собой сложную систему, состоящую из большого числа компонентов. Установить и настроить такую систему самостоятельно — весьма непростая задача. Поэтому многие компании сегодня предлагают готовый набор компонентов (дистрибутив) Hadoop, включающие инструменты развертывания, администрирования и мониторинга.

02

Что такое Cloudera Hadoop?

Cloudera Data Platform (CDP) – гибридная облачная платформа корпоративных данных. Она основана на технологиях CDH (Cloudera Data Hub) и HDP (Hortonworks Data Platform) и реализует целостную интегрированную платформу данных — от периферийных систем до искусственного интеллекта, помогая заказчикам ускорить сложную обработку данных и упорядочить активы данных. Cloudera управляет и защищает жизненный цикл данных во всех основных общедоступных облаках и частном облаке, беспрепятственно соединяя локальные среды с общедоступными облаками для создания гибридного облака. Удовлетворяет все существующие и будущие потребности в аналитике.

Благодаря возможностям Cloudera Data Platform (CDP) ИТ-службы компаний могут обеспечить скорость и гибкость, необходимые бизнесу:

  • Контролировать расходы на облако с помощью автоматического масштабирования, приостановки и возобновления;
  • Оптимизировать рабочие нагрузки на основе аналитики и машинного обучения;
  • Просматривать происхождение данных в любых облачных и временных кластерах;
  • Использовать единую панель для гибридных и множественных облаков;
  • Масштабирование до больших массивов данных и тысяч различных пользователей.

Частью архитектуры Cloudera Data Platform (CDP) является SDX Shared Data Experience — Общий Опыт Работы с Данными. Независимо от уровней вычислений и хранения, SDX предоставляет интегрированный набор технологий безопасности и управления, основанных на метаданных, и обеспечивает связь для всей аналитики. SDX снижает риски и операционные расходы за счет предоставления согласованного контекста данных для всех развертываний.

03

Заинтересовало решение Cloudera Hadoop?

Мы являемся официальным партнером Cloudera. Если Вас заинтересовали возможности Cloudera – предлагаем провести онлайн-встречу, на которой мы детально расскажем о системе и продемонстрируем ее функциональность, а также ответим на интересующие Вас вопросы.

Оставьте заявку или напишите на почту по адресу cloudera@logstream.ru, чтобы мы оперативно связались с вами.