Data Engineering

С КАКВИ ПРОБЛЕМИ СЕ СБЛЪСКВАТ КОМПАНИИТЕ?

Компаниите използват Корпоративни хранилища (Data Warehouses, DWH) и Езера от данни (Data Lakes) за събиране и натрупване на голямо количество информация. Проблемът възниква, когато предприятията се опитват да комбинират неструктурирани и конфликтни данни от различни източници. Данните се губят, дублират се, появяват се логически конфликти. Това води до намаляване на качеството на данните и аналитичните отчети въз основа на тях.

КАКВО Е DATA ENGINEERING?

Data Engineering – програмиране за събиране, съхранение, обработка, извличане и визуализация на данни.

Data Engineering помага за изграждането на стабилни ETL и ELT процеси за добив и подготовка на данни за аналитични системи, алгоритми за машинно обучение, Data Science..

Качествените данни стават достъпни в необходимата форма за служителите на компанията.

КАКВИ ПРЕДИМСТВА ПОЛУЧАВАТ КОМПАНИИТЕ?

  1. Прозрачност на процесите на събиране на данни от външни и вътрешни източници, тяхното съхранение, обработка и прехвърляне в корпоративните системи.
  2. Актуални подготвени данни, за аналитични системи, алгоритми за машинно обучение и Data Science.
  3. Точни аналитични модели, например, за прогнозиране на изтичане на клиенти, измами и др.

КАКВИ УСЛУГИ ПРЕДЛАГАМЕ НА ПРЕДПРИЯТИЯ?

1/ Внедряване на методи за интегриране на данни

Разработваме и внедряваме процеси на извличане, трансформация и зареждане на данни (ETL и ELT процеси), методи за контрол на качеството и маскиране на данни (DQM), проектираме процеси за разпределени изчисления.

2/ Внедряване на системи за анализ и визуализация на данни

Внедряваме системи за анализ, които могат да обработват текущи данни: да генерират отчети и да правят прогнози. Ако е необходимо, създаваме предписващ анализ за тестване на хипотези и получаване на вероятни сценарии за развитие ситуация.

3/ Разработка на DWH, Data Lake

Разработваме Data Warehouse и Data Lake на базата на решенията на класическите СУБД, СУБД MPP (Multi Parallel Processing) и Big Data (distributed computing). Решенията могат да обработват големи обеми информация и потоци от данни в реално време.

4/ Миграция на системи към облак

Мигрираме от on-premise към облака както в рамките на един, така и на различни вендори.

ЕКСПЕРТИЗА НА DATA ENGINEERING В ОБЛАЧНИ СЕРВИЗИ

Разгръщаме и настройваме инфраструктурата на решения в облака

Kinesis: Firehose, Data Streams, Data Analytics, RDS, Redshift, DynamoDB, S3, Data Pipeline, AWS Glue
Event Hubs, Stream Analytics, Datalake, CosmosDB, Synapse Analytics, Data Factory
Pub/Sub, Dataflow, BigQuery, Datastore
Kubernetes Service, Object Storage, DB2, SQL Query, Elasticsearch, Event Streams, Apache Airflow

DATA ENGINEERING В ХИЕРАРХИЯТА НА НУЖДИТЕ ЗА УПРАВЛЕНИЕ НА ДАННИ

КЛЮЧОВИ РАЗЛИКИ НА ETL И ELT ПРОЦЕСИ

TL- процесът работи с данни, чиято структура се определя предварително при моделиране на DWH. Преобразуването на данни се извършва в зоната на подготовка и в целевите системи попада обработената информация, която отговаря на стандарти като, GDPR, HIPAA и т.н.

С ELT процеси в Data Lake или целеви системи различни данни се зареждат и обработват след зареждане. Този подход осигурява повече гъвкавост и опростява съхранение, когато се появят нови формати на данни.

ETL процес

Extract

Данните се извличат от външни и вътрешни източници: ERP, CRM, местни документи, интернет, облачни системи, IoT сензори и други източници за online streaming и др. След това те се прехвърлят за преобразуване.

 

Transform

Данните се изчистват, филтрират, групират и агрегират. Суровите данни се преобразуват в набор, готов за анализ. Процедурата изисква разбиране на бизнес задачите и наличието на основни знания в областта.

 

Load

Обработените структурирани данни се зареждат в DWH или целеви системи. Полученият набор от данни се използва от крайните потребители или като входящ поток към друг ETL процес.

ELT процес

Extract

Данните се извличат от външни и вътрешни източници: ERP, CRM, местни документи, интернет, облачни системи, IoT сензори и други източници за online streaming и др.

 

Load

Необработените данни се качват в Data Lake или целеви системи. След това данните се преобразуват.

 

Transform

Данните се изчистват, филтрират, групират и агрегират. ELT процесът може да обработва само онази част от данните, която е необходима за конкретна задача.

Контакти IBA Group