Перейти до вмісту

Big Data

Матеріал з K2 ERP Wiki

Але тут особливо важливі:

ELT часто використовують у cloud data warehouses і data lakes, де storage дешевший, а обчислення можна масштабувати. Ingestion Layer

конкурентні переваги:

Цікавий момент: lakehouse з’явився як відповідь на проблему: data lakes гнучкі, але хаотичні; warehouses зручні, але не завжди достатньо гнучкі для всіх типів даних. Причина простіша: цифровий світ почав залишати сліди всюди. * Data lake без governance здатна стати data swamp.

Потрібно контролювати:

Pipeline здатна бути:

Data Lakehouse

Apache Spark — потужний engine для distributed data processing, який широко застосовується для в Big Data. Можливі проблеми:

Data catalog здатна містити:

Приклад data quality checks

- Transactions

Lineage оптимізує:

Компоненти Hadoop-екосистеми можуть включати: Data Sources

Практична роль: pipeline перетворює “сирі події” на інформаційні дані, яким можна довіряти в звітах, моделях і рішеннях. Apache Kafka — distributed event streaming platform, яку часто використовують у Big Data й real-time architectures. Приклади джерел Big Data:

Проста аналогія: Kafka — це як дуже швидка й надійна стрічка подій, до якої різні системи можуть писати й з якої можуть читати. Metadata — інформаційні дані про інформаційні дані.

Data Catalog

Приклади:

Data lake — сховище для великих обсягів raw і semi-processed даних у різних форматах.

  • domain ownership;
  • data as a product;
  • self-serve data platform;
  • federated governance;
  • product thinking for datasets. * business intelligence;
  • fraud detection;
  • recommendation systems;
  • predictive analytics;
  • machine learning;
  • customer segmentation;
  • risk analysis;
  • real-time monitoring;
  • anomaly detection;
  • personalization;
  • logistics optimization;
  • advertising analytics;
  • healthcare analytics;
  • financial modeling;
  • security analytics;
  • scientific research.== MLOps і Big Data ==

Задачі:

Основна ідея: Big Data — це спосіб перетворити величезні потоки й масиви даних на корисні рішення для бізнесу, прогнози, аналітику або автоматизацію. {| class="wikitable" Проста аналогія: Big Data — це не одна велика таблиця, а складський облік із коробками різних форм, які ще треба правильно підписати й розкласти. Lakehouse намагається дати:

Обмеження Big Data

  • надмірний збір даних;
  • re-identification;
  • витоки;
  • неправильний доступ;
  • зберігання довше, ніж потрібно;
  • використання даних без зрозумілої мети;
  • sensitive logs;
  • data sharing без контролю;
  • training data leakage.== Data Security ==
- Curated data lake
  • мільярди подій clickstream;
  • терабайти logs;
  • петабайти відео;
  • мільйони транзакцій;
  • великі datasets для AI;
  • історія продукту sensor data за роки;
  • архіви медичних зображень;
  • інформаційні дані телеком-мереж. Analytics / ML / BI

Data engineers працюють із:

Практична роль: Spark став популярним, бо дав швидшу й зручнішу модель обробки великих даних, ніж класичний MapReduce.

Приклади великих обсягів:

  • ingestion;
  • ETL;
  • ELT;
  • data lakes;
  • data warehouses;
  • batch processing;
  • stream processing;
  • orchestration;
  • data quality;
  • schemas;
  • transformations;
  • monitoring;
  • governance;
  • cloud storage;
  • distributed processing. Практична роль: Big Data analytics оптимізує перейти від “здається” до “інформаційні дані показують”. Distributed computing — обчислення, розподілені між багатьма машинами.

Big Data важлива для MLOps через: хмарна інфраструктура дає:

Практична роль: IoT Big Data оптимізує бачити фізичний світ через цифрові сигнали. Недоліки: Проблеми data quality: Cybersecurity використовує Big Data для аналізу:

Приклад Big Data architecture

</syntaxhighlight>

  • smart factories;
  • connected cars;
  • smart meters;
  • wearable devices;
  • logistics sensors;
  • smart agriculture;
  • industrial monitoring;
  • environmental sensors;
  • smart homes. MapReduce був дуже важливим для Big Data, але для багатьох сучасних задач його замінили швидші й зручніші engines, як приклад Apache Spark. Governance містить:

Data Pipeline

Real-Time Analytics

Основні конкурентні переваги Big Data:

Business Intelligence або BI — інструменти й процеси для звітності, dashboards і бізнес-аналітики.

BI використовує Big Data для: Data quality — якість даних для використання. Це мистецтво перетворити масштабні інформаційні дані на корисне знання, рішення для бізнесу або дію. Machine learning часто використовує Big Data для навчання моделей. - Logs критично: governance не має душити роботу з даними, але має не давати Big Data перетворитися на некероване сховище всього. Тип даних Медичні організації аналізують великі datasets для досліджень, планування ресурсів і виявлення ризиків. Перевірити, що немає дублікатів transaction_id

Як інформаційні дані використовуються в BI або ML?

критично: real-time analytics дорожча й складніша.== Data Lineage ==

  • fraud detection під час платежу;
  • live analytics dashboard;
  • real-time alerts;
  • recommendation updates;
  • IoT monitoring;
  • security event detection;
  • clickstream analysis;
  • logistics tracking. * Map — обробити частини даних;
  • Reduce — зібрати й агрегувати результати. Перевага: Big Data дає можливість бачити закономірності, які непомітні в малих вибірках або ручних звітах. Якщо інформаційні дані перекошені або брудні, модель здатна масштабувати ці помилки. Data Mesh — організаційний і архітектурний підхід, де доменні команди відповідають за data products.
  • web analytics;
  • mobile apps;
  • social networks;
  • e-commerce;
  • banking transactions;
  • IoT sensors;
  • server logs;
  • clickstream data;
  • video platforms;
  • telecom networks;
  • medical records;
  • satellite imagery;
  • industrial equipment;
  • supply chain systems;
  • smart cities;
  • search engines;
  • recommendation systems;
  • cybersecurity logs;
  • AI training datasets.

Маркетинг використовує Big Data для:

критично: Data Mesh — це не без зусиль новий інструмент. Це ситуація, коли інформаційні дані стають настільки великими, швидкими, складними або різноманітними, що потрібні спеціальні архітектури, інструменти й процеси. критично: batch processing чудовий для багатьох задач. Raw storage

Проблеми distributed computing:

Batch Processing

  • дублікати;
  • пропущені значення;
  • неправильні формати;
  • застарілі записи;
  • помилки sensors;
  • bot traffic;
  • inconsistent IDs;
  • неточні timestamps;
  • biased datasets;
  • noise;
  • data drift;
  • human input errors. Big Data часто містить персональні або чутливі інформаційні дані.== Data Quality ==

Приклади: Чи маємо право збирати ці інформаційні дані? Приклад Проста ідея: HDFS розбиває великі файли на частини й зберігає їх на багатьох машинах із реплікацією. SEO-опис

  • medical imaging analysis;
  • patient records analytics;
  • epidemiology;
  • drug discovery;
  • hospital operations;
  • personalized medicine;
  • risk prediction;
  • clinical research;
  • public health monitoring.== Big Data у бізнесі ==
- Quality checks

У healthcare Big Data здатна використовуватися для:

  • event streaming;
  • log aggregation;
  • real-time analytics;
  • microservices communication;
  • data pipelines;
  • clickstream ingestion;
  • IoT data;
  • fraud detection;
  • event sourcing у частині сценаріїв. Big Data оптимізує AI через:
критично: NoSQL не означає “краще за SQL”.
- APIs

конкурентні переваги:

  • інформаційні дані не поміщаються на одну машину;
  • обробка на одному сервері надто повільна;
  • потрібна fault tolerance;
  • потрібно паралелити workloads;
  • дешевше масштабувати горизонтально;
  • інформаційні дані розподілені географічно. * version control;
  • automated tests;
  • pipeline monitoring;
  • data quality checks;
  • CI/CD for data;
  • reproducibility;
  • orchestration;
  • observability;
  • incident response;
  • collaboration between data teams. Data Mesh корисний у великих організаціях, де централізована data team стає bottleneck.

</syntaxhighlight>

  • accuracy;
  • completeness;
  • consistency;
  • timeliness;
  • uniqueness;
  • validity;
  • freshness;
  • reliability. * audience segmentation;
  • campaign performance;
  • attribution modeling;
  • personalization;
  • churn prediction;
  • customer lifetime value;
  • A/B testing;
  • recommendation engines;
  • ad targeting;
  • sentiment analysis.== Big Data в IoT ==

Приклади:

Приклади сценаріїв використання

це підхід до зберігання, обробки, аналізу й використання дуже великих, швидких або різнорідних наборів даних, які важко ефективно для бізнесу опрацьовувати традиційними інструментами виступає ключовою рисою Big Data або великі інформаційні дані. * Найкраща data platform часто непомітна: люди без зусиль отримують правильні інформаційні дані вчасно. Приклад ідеї: ! Проста аналогія: batch processing — це прочитати газету вранці, а stream processing — слухати live-ефір. Spark підтримує:

Healthcare analytics

Serving Layer

  • fraud detection;
  • live dashboards;
  • online advertising;
  • monitoring;
  • dynamic pricing;
  • personalized recommendations;
  • risk scoring;
  • supply chain tracking;
  • gaming analytics;
  • cybersecurity. Приклади:

Перевірити, що user_id не порожній

Data engineering — дисципліна, яка створює pipelines, storage, processing і infrastructure для роботи з даними. критично: unstructured data часто містять багато цінності, але їх складніше шукати, індексувати, аналізувати й захищати. * Практики machine learning, MLOps, DataOps, BI, analytics, real-time processing і cloud cost management. Big Data застосовують, коли потрібно там, де даних занадто багато або вони надходять занадто оперативно для простих інструментів.

NoSQL

  • training datasets;
  • embeddings;
  • user behavior signals;
  • feedback data;
  • evaluation datasets;
  • logs;
  • real-world interactions;
  • multimodal data;
  • synthetic data у частині сценаріїв. * Hadoop був одним із головних символів першої хвилі Big Data.

MLOps містить:

Volume — обсяг даних. Чим більше даних, тим більша відповідальність. * owner;

  • SLA або expectations;
  • documentation;
  • schema;
  • quality checks;
  • access policy;
  • lineage;
  • support process;
  • business meaning. конкурентні переваги:
- Lineage

Проста думка: Big Data важливі не тому, що даних багато, а тому, що з них можна отримати value.SEO title: Big Data — великі дані, аналітика, data lakes, Hadoop, Spark, streaming, AI і data engineering

SEO keywords: Big Data, великі дані, data engineering, data lake, data warehouse, data lakehouse, Hadoop, Apache Spark, Kafka, NoSQL, distributed computing, data analytics, machine learning, ETL, ELT, batch processing, stream processing, real-time analytics, data governance, data quality, data privacy, 5V Big Data

</noinclude>
 {{SEO
Шаблон для службового SEO-опису сторінки. 

}}


Критично: погані інформаційні дані у великому масштабі дають не кращу аналітику, а більшу впевненість у неправильному висновку. Практична роль: checklist оптимізує не перетворити Big Data-проєкт на дороге накопичення даних без користі.== Хороші практики Big Data ==

  • економія коштів;
  • кращі рішення для бізнесу;
  • швидше виявлення шахрайства;
  • персоналізація;
  • прогнозування попиту;
  • оптимізація логістики;
  • покращення продукту;
  • зменшення downtime;
  • нові бізнес-моделі;
  • кращий customer experience;
  • автоматизація процесів. Як перевіряємо data quality? * topics;
  • partitions;
  • producers;
  • consumers;
  • consumer groups;
  • offsets;
  • retention;
  • replication. Чи виступає як data catalog? Банківська платформа аналізує транзакції в реальному часі, щоб помічати підозрілі patterns і блокувати шахрайство.== Див. так само ==
  • raw events;
  • logs;
  • CSV;
  • JSON;
  • Parquet;
  • Avro;
  • images;
  • audio;
  • ML datasets;
  • clickstream;
  • IoT data;
  • archived data. * dataset names;
  • schemas;
  • owners;
  • descriptions;
  • lineage;
  • classifications;
  • quality metrics;
  • access policies;
  • tags;
  • business glossary;
  • sample data;
  • freshness information. Data catalog — інструмент або платформа для пошуку, опису й керування datasets. Big Data має обмеження.== Business Intelligence ==
  • scalable storage;
  • managed data warehouses;
  • managed Spark;
  • serverless query engines;
  • streaming platforms;
  • object storage;
  • autoscaling;
  • pay-as-you-go;
  • managed ML services;
  • global infrastructure. Популярні формати й технології:

Governance Layer

DataOps містить:

- Alerts

Ключові ідеї Hadoop:

- Kafka

Mobile events → Raw data lake → Cleaned events → User metrics table → BI dashboard Критично: у медицині погані інформаційні дані або неправильно інтерпретована аналітичні інструменти можуть вплинути не лише на бізнес-середовище, а й на життя людей. Критично: у security Big Data важлива швидкість: сигнал атаки здатна бути серед мільйонів нормальних подій.== Типові помилки початківців ==

Velocity важлива для:

Curated storage

Перевірити, що schema не змінилася без попередження

  • нічний перерахунок звітів;
  • щоденне оновлення версій data warehouse;
  • місячна фінансова аналітичні інструменти;
  • обробка історичних logs;
  • навчання ML-моделі;
  • генерація рекомендацій раз на добу. Найлюдяніший факт: Big Data — це не магія великих чисел. Головне правило: Big Data має бути не без зусиль великою, а зрозумілою, керованою, якісною й корисною. критично: без lineage складно зрозуміти, чому показник у dashboard раптом змінився. * Документація Hadoop, Apache Spark, Apache Kafka, NoSQL databases і cloud data platforms.

Яке бізнес-питання вирішуємо? * structured data;

  • semi-structured data;
  • unstructured data;
  • CSV;
  • JSON;
  • XML;
  • Parquet;
  • Avro;
  • images;
  • audio;
  • video;
  • text;
  • logs;
  • graph data;
  • geospatial data;
  • time-series data. ! критично: іноді правильна відповідь — не Big Data cluster, а чистіші інформаційні дані, краща модель метрик і одна добре спроєктована база.
  • schema;
  • source;
  • owner;
  • update time;
  • data type;
  • sensitivity;
  • quality;
  • lineage;
  • retention;
  • access rights;
  • business meaning. Помилка: думати, що більше даних автоматизовано означає кращі рішення для бізнесу.

Data governance — правила, процеси й відповідальність за інформаційні дані. {| class="wikitable"

Data Governance

Кроки:

  • великих файлів;
  • distributed storage;
  • fault tolerance;
  • batch processing;
  • data locality;
  • масштабування на багато вузлів.== Stream Processing ==

Metadata здатна описувати:

  • даних дуже багато;
  • інформаційні дані надходять оперативно;
  • виступає як різні формати даних;
  • потрібна distributed processing;
  • звичайна база або BI вже не справляється;
  • потрібна real-time аналітичні інструменти;
  • потрібне ML на великих datasets;
  • виступає як чітка бізнес-цінність;
  • потрібна обробка logs, events або IoT;
  • потрібна масштабована data platform. * затримка;
  • не підходить для real-time use cases;
  • великі jobs можуть довго працювати;
  • помилки можуть затримати всю партію.== Загальний SEO-опис ==

DataOps

Hadoop — ERP-платформа open source інструментів для distributed storage і distributed processing великих даних. Недоліки:

Рекомендовано:

Privacy-ризики:
даних: якщо він поганий забезпечується через '''Практична роль:''' data engineering — це водопровід; так само реалізовано аналітичні інструменти й AI отримують брудну або нерегулярну воду. Ingestion
</div>

'''Небезпека:''' Big Data без governance — це як бібліотека без каталогу, де книги постійно падають з полиць.<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
</div>
AI, у свою чергу, оптимізує Big Data через:
<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">

</div>
Big Data підходить, якщо:
<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
Cloud computing сильно змінив Big Data.
  • гнучке зберігання;
  • дешевий storage у cloud-сценаріях;
  • технічна підтримка різних форматів;
  • збереження raw data;
  • підходить для ML і exploration.== Data Lake ==

! Це найочевидніша характеристика Big Data. Без структури, якості й задачі це без зусиль дороге сховище.== Metadata ==

* line charts;
* bar charts;
* heatmaps;
* maps;
* scatter plots;
* dashboards;
* network graphs;
* time-series visualizations;
* anomaly charts.== Big Data у кібербезпеці ==

'''критично:''' красивий dashboard не гарантує правильні інформаційні дані.<div style="background:#f0eaff; border-left:6px solid #8e44ad; padding:12px; margin:12px 0;">

* зручний SQL access;
* стабільні звіти;
* оптимізація для analytics;
* governance;
* business-friendly модель;
* BI integration.== Big Data у медицині ==
Сучасний AI часто залежить від великих наборів даних. Кроки:

'''Найлюдяніший факт:''' Big Data — це не про те, щоб скласти гору даних. '''Практична порада:''' Big Data варто використовувати тоді, коли проблема справді в масштабі, швидкості або різноманітності даних, а не без зусиль тому, що це модний термін.== конкурентні переваги Big Data ==

</div>
'''Головна перевага:''' Big Data дає можливість приймати управлінські рішення для бізнесу не тільки за відчуттями, а на основі великої кількості реальних сигналів.</div>

Чи потрібен real-time, чи достатньо batch? '''Real-time analytics''' — аналіз даних майже одразу після їх появи. '''Data warehouse''' — структуроване сховище даних для аналітики, reporting і business intelligence. Reduce: об’єднати підрахунки з усіх файлів
 - Catalog
Data warehouse зазвичай містить:

Команда аналізує user events, funnels, retention і feature usage, щоб покращувати застосунок.== Data Warehouse ==

* privacy;
* consent;
* data quality;
* bias control;
* security;
* regulatory compliance;
* explainability;
* ethical review. Це спроба почути історію, яку розповідають мільйони маленьких подій. ! Які джерела даних потрібні? - ML models
Типи analytics:

Типовий pipeline:

'''критично:''' data quality checks мають ловити не тільки неправильні значення, а й дивну поведінку pipeline. Коли користувачу стає “занадто очевидно, що за ним стежать”, довіра падає. Big Data дає великі функції ERP, але має й великі ризики: погана якість даних, privacy-проблеми, security-ризики, висока вартість, складність governance і небезпека збирати інформаційні дані без мети.== Value ==
== ELT ==
'''Підказка:''' хороший Big Data-сценарій має не тільки джерело даних, а й конкретне рішення для бізнесу або дію, яку ці інформаційні дані покращують.== Data Engineering ==

== Veracity ==
'''Проста аналогія:''' ETL — це як помити, порізати й розкласти продукти перед тим, як покласти їх на полицю. Validation

Перевірити, що timestamp має правильний формат
'''Цікавий факт:''' Hadoop зробив популярною ідею: якщо інформаційні дані не поміщаються на одну машину, можна розподілити їх між багатьма й опрацьовувати паралельно.<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">

'''DataOps''' — практики, які застосовують ідеї DevOps до data pipelines. * high velocity;
* time-series structure;
* edge processing;
* noisy signals;
* device failures;
* network delays;
* real-time alerting.</div>
Окремо один запис здатна бути майже непомітним.== Apache Spark ==
'''Velocity''' — швидкість появи й обробки даних. '''критично:''' великий обсяг сам по собі не робить інформаційні дані корисними. Це про те, щоб у цій горі знайти відповідь, яка комусь допоможе. Хто має доступ?</div>
Spark застосовують для:

'''HDFS''' або '''Hadoop Distributed File System''' — розподілена файлова платформа Hadoop.
  • швидший старт;
  • менше hardware management;
  • масштабування;
  • integration з іншими сервісами;
  • storage separation від compute. * Найдорожча частина Big Data-проєкту часто не storage, а люди, які розуміють інформаційні дані. MapReduce — модель distributed processing, де обчислення діляться на два основні кроки:
  • має ясну мету;
  • не перевантажена;
  • показує контекст;
  • має правильні шкали;
  • не вводить в оману;
  • пояснює важливі зміни.=== IoT monitoring ===

Big Data здатна бути зайвим, якщо:

- SQL transformations

ETL означає Extract, Transform, Load. * Extract — отримати інформаційні дані з джерел;

  • Transform — очистити й перетворити;
  • Load — завантажити в цільове сховище. Помилки мережі, затримки й часткові збої стають частиною реальності. * recommendation systems;
  • fraud detection;
  • natural language processing;
  • computer vision;
  • forecasting;
  • customer segmentation;
  • anomaly detection;
  • ranking;
  • personalization;
  • predictive maintenance. Stream processing потребує:

бізнес-середовище використовує Big Data для:

  • KPI dashboards;
  • sales reports;
  • customer analytics;
  • financial reports;
  • operational monitoring;
  • marketing attribution;
  • product analytics;
  • executive reporting.
Data lineage показує, звідки інформаційні дані прийшли, як трансформувалися й куди потрапили.
  • anomaly detection;
  • intrusion detection;
  • threat hunting;
  • incident response;
  • fraud detection;
  • behavior analytics;
  • SIEM;
  • attack pattern discovery.
  • глибша аналітичні інструменти;
  • кращі прогнози;
  • real-time insights;
  • персоналізація;
  • fraud detection;
  • оптимізація бізнес-процесів;
  • технічна підтримка AI і ML;
  • виявлення patterns;
  • краще розуміння клієнтів;
  • автоматизація процесів рішень;
  • monitoring великих систем;
  • наукові відкриття;
  • конкурентна перевага;
  • масштабованість data processing. Але мільярди таких записів можуть показати тренди, ризики, шахрайство, попит, поведінку користувачів, стан обладнання або слабкі місця бізнесу. Ризики:

Value здатна бути:

Проста аналогія: metadata — це етикетка на коробці з даними. NoSQL — клас баз даних, які не обмежуються класичною relational table model. Big Data спирається на distributed computing, data lakes, data warehouses, stream processing, Hadoop, Spark, Kafka, NoSQL, cloud platforms і data engineering.
  • batch;
  • streaming;
  • real-time;
  • scheduled;
  • event-driven;
  • cloud-native;
  • hybrid. Клік на сайті, транзакція в банку, GPS-позиція, перегляд відео, сенсор на заводі, лайк у соцмережі, лог сервера, медичний запис, покупка в магазині — усе це інформаційні дані. Практична роль: velocity означає, що інформаційні дані потрібно не без зусиль зберігати, а встигати опрацьовувати, поки вони ще корисні. * починати із бізнес-питання;
  • не збирати зайві персональні інформаційні дані;
  • мати data governance;
  • створити data catalog;
  • контролювати data quality;
  • документувати datasets;
  • використовувати lineage;
  • розділяти raw, cleaned і curated data;
  • налаштувати access control;
  • шифрувати чутливі інформаційні дані;
  • моніторити pipelines;
  • тестувати transformations;
  • контролювати cloud costs;
  • мати retention policy;
  • думати про privacy з початку;
  • використовувати правильний формат файлів;
  • цифровізувати data pipelines. * У багатьох компаніях головна проблема не “немає даних”, а “ніхто не знає, яким даним довіряти”.
    * data minimization;
    * anonymization;
    * pseudonymization;
    * access control;
    * encryption;
    * retention limits;
    * audit logs;
    * consent management у відповідних сценаріях;
    * privacy reviews. * Spark став популярним через швидшій і зручнішій distributed processing моделі. Це зміна ownership і культури роботи з даними.<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
    
    * ownership;
    * access control;
    * data catalog;
    * data quality standards;
    * privacy rules;
    * retention policies;
    * compliance;
    * classification;
    * lineage;
    * stewardship;
    * audit;
    * security policies.== Big Data і AI ==
    Big Data часто потребує distributed computing, бо:
    Критерії:
    <div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
    '''Data product''' — dataset, pipeline, API або аналітичний ресурс, який має користувачів, якість, документацію, ownership і цінність. * Матеріали щодо data governance, data catalog, data lineage, data quality, privacy і security. Data lake здатна зберігати:
    </div>
    
    </div>
    
    '''Stream processing''' — обробка даних як безперервного потоку подій. Завод збирає sensor data з обладнання, щоб прогнозувати поломки й планувати maintenance. Значення
    
    == Data Product ==
    
    інформаційні дані можуть надходити:
    
    * дешеве масштабоване storage;
    * підтримку raw і curated data;
    * SQL analytics;
    * ACID transactions у частині форматів;
    * schema evolution;
    * governance;
    * ML-friendly access;
    * BI-friendly access. Ідеї Data Mesh:
    Storage Layer
    
    '''Variety''' — різноманітність даних.== Data Visualization ==
    
    <div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">
    HDFS призначена для:
    Чи виступає як lineage? '''Найлюдяніший сенс:''' візуалізація перетворює таблицю, яку ніхто не хоче читати, на історію, яку можна зрозуміти. Не все має бути real-time. Kafka функціонує з поняттями:
    <syntaxhighlight lang="text">
    Проблеми:
    
    Processing Layer
    
    <div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
    
    </div>
    
    * висока вартість;
    * складність інфраструктури;
    * data quality issues;
    * privacy risks;
    * security risks;
    * складність governance;
    * нестача спеціалістів;
    * vendor lock-in;
    * складне debugging;
    * biased data;
    * overcollection;
    * погані dashboards;
    * повільні pipelines;
    * непотрібне зберігання всього;
    * складність compliance. Big Data — це не без зусиль “багато файлів”. * Матеріали з data engineering, distributed systems і Big Data architecture. * event ingestion;
    * message broker;
    * windowing;
    * state management;
    * fault tolerance;
    * exactly-once або at-least-once semantics;
    * late events handling;
    * monitoring. '''критично:''' MapReduce історично важливий, але не кожен сучасний Big Data-проєкт використовує його напряму.<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">
    

Проста різниця: data lake зберігає багато “сирого матеріалу”, а data warehouse — підготовлені інформаційні дані для звітів і рішень.== Висновок ==

Variety

Map: порахувати слова в кожному файлі

Джерела

критично: у cloud Big Data швидко зберігати багато даних, але так само швидко отримати великий рахунок за storage, compute або data transfer. Де зберігаємо raw data? * Big Data і AI тісно пов’язані, але AI не виправляє автоматизовано погані інформаційні дані. ETL добре підходить, коли інформаційні дані потрібно підготувати перед завантаженням у warehouse. У Data security у Big Data передбачено захист storage, pipelines, access і processing. Big Data — це підхід до роботи з великими, швидкими й різноманітними даними, який дає можливість зберігати, опрацьовувати, аналізувати й використовувати їх для бізнесу, науки, AI, безпеки, медицини, фінансів, IoT і багатьох інших сфер.=== Recommendation system ===

Коли Big Data здатна бути невдалим вибором

  • logs;
  • network traffic;
  • authentication events;
  • endpoint telemetry;
  • cloud audit logs;
  • firewall events;
  • DNS queries;
  • vulnerability data;
  • user behavior;
  • threat intelligence.

Критично: Big Data не дає права збирати все “про всяк випадок”. * Практики data lake, data warehouse, data lakehouse, ETL, ELT, batch processing і stream processing.== Big Data у фінансах ==

  • горизонтальне масштабування;
  • гнучкі schema;
  • високу швидкість запису;
  • великі distributed datasets;
  • спеціалізовані workloads;
  • low-latency access.
  • encryption at rest;
  • encryption in transit;
  • IAM;
  • role-based access;
  • network isolation;
  • secrets management;
  • audit logs;
  • data masking;
  • tokenization;
  • secure ingestion;
  • vulnerability management;
  • backup;
  • incident response;
  • least privilege. Big Data часто пов’язують із distributed computing, data lakes, Hadoop, Apache Spark, Kafka, NoSQL, cloud storage, data engineering, machine learning, analytics і real-time processing.

Big Data застосовують для:

Як контролюємо cloud costs? Приклад: |- | Volume | Великий обсяг даних | Петабайти логів або транзакцій |- | Velocity | Висока швидкість надходження | Події з мобільного застосунку в реальному часі |- | Variety | Різноманітність форматів | Таблиці, JSON, зображення, відео, logs |- | Veracity | Якість і надійність даних | Помилки, дублікати, шум, неповні записи |- | Value | Корисність даних | Прогноз попиту або виявлення шахрайства |}

Kafka підходить для:

Цікаві факти про Big Data

Який очікуваний обсяг? Практична роль: Big Data оптимізує бізнесу швидше помічати сигнали, які раніше губилися в шумі. * автоматичну класифікацію;

  • anomaly detection;
  • entity extraction;
  • search;
  • summarization;
  • data cleaning;
  • pattern recognition;
  • natural language querying. - IoT sensors
- Spark

критично: data lake без каталогів, ownership і якості оперативно перетворюється на data swamp — болото даних.

Практична роль: DataOps оптимізує зробити data pipelines не ручним ремеслом, а керованим production-процесом. Це інший набір trade-offs для інших задач. Veracity — достовірність, якість і надійність даних. Data product має:

Big Data і Cloud

  • Big Data часто цінна не окремим записом, а patterns між мільйонами записів.
  • простіша модель;
  • ефективно для бізнесу для великих обсягів;
  • інтуїтивно для історичних даних;
  • легше тестувати й повторювати. ↓

Data lakehouse — архітектурний підхід, який поєднує ідеї data lake і data warehouse. Data sources

Практична роль: MLOps поєднує Big Data і ML так, щоб модель не без зусиль навчилася один раз, а жила в production. * cost surprises;

  • vendor lock-in;
  • неправильний IAM;
  • data egress costs;
  • privacy і region constraints;
  • governance complexity. - Mobile events
- Privacy policies

Хто owner dataset? * Більше даних здатна погіршити рішення для бізнесу, якщо інформаційні дані biased або low quality. Приклад

IoT створює величезні потоки sensor data.

Цікавий факт

  • training datasets;
  • feature stores;
  • model artifacts;
  • evaluation data;
  • monitoring data;
  • drift detection;
  • feedback loops;
  • batch inference;
  • streaming inference.== Apache Kafka ==
  • descriptive analytics — що сталося;
  • diagnostic analytics — чому сталося;
  • predictive analytics — що здатна статися;
  • prescriptive analytics — що варто зробити. Batch processing — обробка даних великими порціями за розкладом або подією. - Raw data lake
  • прогноз продажів;
  • аналіз поведінки користувачів;
  • churn prediction;
  • risk scoring;
  • fraud detection;
  • demand forecasting;
  • campaign optimization;
  • supply chain analytics.
  • dataset versioning;
  • model registry;
  • experiment tracking;
  • feature pipelines;
  • deployment;
  • monitoring;
  • retraining;
  • governance.

Big Data часто пояснюють через модель 5V.== 5V Big Data ==

!=== Product analytics ===

  • Spark SQL;
  • DataFrames;
  • structured streaming;
  • MLlib;
  • graph processing у частині сценаріїв;
  • інтеграцію з data lakes і cloud storage. * Delta Lake;
  • Apache Iceberg;
  • Apache Hudi;
  • Parquet;
  • object storage;
  • Spark engines;
  • cloud query engines. застосовується для для:
  • fraud detection;
  • real-time recommendations;
  • live dashboards;
  • alerting;
  • cybersecurity;
  • stock trading;
  • IoT monitoring;
  • logistics tracking.
    </div>
    Поширені помилки:
    
    ! '''Критично:''' distributed system не стає простішою лише тому, що її назвали “кластером”. через '''Цікавий факт:''' Big Data дала AI багато “палива”, а AI користувачі можуть людям не тонути в океані цих даних.</div>
    == Big Data у маркетингу ==
    
    == Data Mesh ==
     - Batch imports
    </div>
    
    Проблеми veracity:
    
    '''критично:''' у фінансах Big Data має бути не тільки швидкою, а й audit-friendly: потрібно пояснити, звідки взялися інформаційні дані й рішення для бізнесу.<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
     - Web events
    <div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
    
     - Access control
    
    <div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
    
    * customer insights;
    * персоналізації;
    * оптимізації цін;
    * керування inventory;
    * прогнозування попиту;
    * fraud detection;
    * аналізу churn;
    * автоматизації marketing;
    * risk management;
    * supply chain optimization;
    * product analytics;
    * operational efficiency. '''Практична роль:''' data catalog відповідає на просте, але болюче питання: “Де лежать потрібні інформаційні дані й чи можна їм довіряти?”
    
    * biased data;
    * noisy labels;
    * privacy leakage;
    * data drift;
    * unbalanced datasets;
    * expensive training;
    * weak feature quality;
    * training-serving skew.</div>
    == Machine Learning і Big Data ==
    == Коли варто використовувати Big Data ==
    
    Добрі практики:
    
    <div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">
    
    конкурентні переваги:
    
    * debug reports;
    * audit;
    * compliance;
    * impact analysis;
    * trust;
    * root cause analysis;
    * data quality;
    * migration planning. Big Data стало популярним не тому, що люди раптом почали “любити великі таблиці”.</div>
    Приклади:
    Big Data здатна включати:
    
    <div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">
    
    Платформа аналізує перегляди, кліки, покупки й оцінки користувачів, щоб рекомендувати фільми, товари, музику або статті. Перевірити, що інформаційні дані оновилися за останню годину
    
    Перевірити, що кількість подій не впала раптово до нуля
    
    <div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
    
    * Extract — отримати інформаційні дані;
    * Load — завантажити в сховище;
    * Transform — обробити вже всередині потужної data platform. Її варто використовувати там, де швидкість справді дає цінність. * network failures;
    * data partitioning;
    * coordination;
    * consistency;
    * latency;
    * retries;
    * partial failures;
    * resource management;
    * debugging complexity. * document databases;
    * key-value stores;
    * column-family stores;
    * graph databases;
    * time-series databases;
    * search engines.== Volume ==
    </div>
    == HDFS ==
    </div>
    Перевірити, що order_total >= 0
    == Structured, Semi-Structured і Unstructured Data ==
     - Stream processing
    == ETL ==
    
    '''ELT''' означає '''Extract, Load, Transform'''. NoSQL часто використовують у Big Data через:
    '''Практична роль:''' ELT дає можливість спочатку зберегти raw data, а потім робити різні трансформації під різні задачі.</div>
    
    * HDFS;
    * MapReduce;
    * YARN;
    * Hive;
    * Pig у старіших сценаріях;
    * HBase;
    * Sqoop у legacy-сценаріях;
    * Oozie у legacy-сценаріях.<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
     - Data warehouse
    === Fraud detection ===
    
    '''критично:''' ML-модель вчиться з даних.
    

Velocity

  • batch processing;
  • ETL;
  • analytics;
  • machine learning;
  • stream processing;
  • SQL queries;
  • data lake processing;
  • large-scale transformations.

Де зберігаємо curated data? Проста думка: data product — це не “таблиця десь у warehouse”, а інформаційні дані, якими інші можуть реально користуватися. Практична роль: security має бути вбудована в data platform, а не додана після того, як усі вже отримали доступ до всього.

  • дублікати;
  • missing values;
  • неправильні типи;
  • різні формати дат;
  • inconsistent IDs;
  • late-arriving data;
  • bot traffic;
  • schema drift;
  • broken pipelines;
  • manual input errors. Ознака
  • інформаційні дані поміщаються в одну нормальну relational database;
  • достатньо простого BI;
  • немає чіткої задачі;
  • команда не має data engineering skills;
  • бюджет малий;
  • інформаційні дані поганої якості;
  • privacy-ризики не продумані;
  • інформаційні дані збираються “про всяк випадок”;
  • простий SQL warehouse вирішує проблему;
  • потрібна не кількість, а краще формулювання метрик. * зберігати інформаційні дані на багатьох машинах;
  • опрацьовувати інформаційні дані ближче до місця зберігання;
  • масштабуватися горизонтально;
  • використовувати commodity hardware у класичній моделі;
  • працювати з великими batch workloads.

IoT Big Data часто має:

Головна думка: Big Data — це не “чим більше, тим краще”.

Фінансові організації використовують Big Data для:

Приклад checklist для Big Data-проєкту

Value — користь, яку можна отримати з даних. * Kafka часто застосовується для як “нервова платформа” real-time data architecture. - BI dashboards

MLOps — практики для керування machine learning lifecycle. Найкращий Big Data-проєкт — це не той, де найбільше терабайтів, а той, де інформаційні дані якісні, захищені, зрозумілі й реально створюють value. |- | Structured data | Чітка таблична структура | SQL-таблиці, транзакції |- | Semi-structured data | виступає як структура, але гнучка | JSON logs, XML, events |- | Unstructured data | Немає простої табличної схеми | Фото, відео, текст, аудіо |}

Data visualization оптимізує бачити patterns у даних.== Data Privacy ==

Тематичні мітки

  • збирати всі інформаційні дані без мети;
  • не мати data owner;
  • не перевіряти data quality;
  • будувати data lake без catalog;
  • плутати data lake з data warehouse;
  • робити real-time там, де достатньо batch;
  • ігнорувати privacy;
  • давати всім доступ до всього;
  • не рахувати cloud costs;
  • не документувати schemas;
  • не мати lineage;
  • не моніторити pipelines;
  • вважати dashboard правдою без перевірки;
  • навчати ML на брудних даних;
  • створювати data swamp замість data lake. ↓

Hadoop

критично: персоналізація має не переходити межу приватності. Добра візуалізація:

Data pipeline — послідовність кроків, через які інформаційні дані проходять від джерела до використання. Без етикетки доведеться відкривати все вручну. Яка retention policy? Hadoop став одним із символів ранньої хвилі Big Data. BI залежить від якості pipelines, definitions і governance.

<syntaxhighlight lang="text"> Головне правило: Big Data-проєкт має починатися не з “давайте зберемо все”, а з питання “яку цінність ми хочемо отримати?”

Transformation

  • щосекунди;
  • мільйонами подій на хвилину;
  • як streaming events;
  • з IoT devices;
  • з payment systems;
  • з user activity;
  • з monitoring systems;
  • з security systems. Big Data корисні для:

MapReduce

Big Data Analytics

  • fraud detection;
  • risk scoring;
  • credit analysis;
  • anti-money laundering;
  • transaction monitoring;
  • market analysis;
  • customer segmentation;
  • algorithmic trading;
  • compliance reporting;
  • anomaly detection. Як зрозуміємо, що проєкт дав value?
- API collectors

Практична роль: така технічна архітектура показує, що Big Data — це не один інструмент, а цілий шлях даних від джерела до рішення для бізнесу. * очищені інформаційні дані;

  • structured schemas;
  • fact tables;
  • dimension tables;
  • aggregates;
  • історичні інформаційні дані;
  • business metrics;
  • curated datasets. Big Data analytics — аналіз великих даних для отримання висновків. Критично: Big Data без data quality — це не конкурентна перевага, а масштабований безлад.
  • ризик data swamp;
  • потрібна governance;
  • складність пошуку;
  • schema management;
  • access control;
  • data quality problems.== Distributed Computing ==

Але більше даних не завжди означає кращу модель. Типи NoSQL: