Big Data
Але тут особливо важливі:
ELT часто використовують у cloud data warehouses і data lakes, де storage дешевший, а обчислення можна масштабувати. Ingestion Layer
конкурентні переваги:
Цікавий момент: lakehouse з’явився як відповідь на проблему: data lakes гнучкі, але хаотичні; warehouses зручні, але не завжди достатньо гнучкі для всіх типів даних. Причина простіша: цифровий світ почав залишати сліди всюди. * Data lake без governance здатна стати data swamp.
Потрібно контролювати:
Pipeline здатна бути:
Data Lakehouse
Apache Spark — потужний engine для distributed data processing, який широко застосовується для в Big Data. Можливі проблеми:
↓
Data catalog здатна містити:
Приклад data quality checks
- Transactions
Lineage оптимізує:
Компоненти Hadoop-екосистеми можуть включати: Data Sources
Практична роль: pipeline перетворює “сирі події” на інформаційні дані, яким можна довіряти в звітах, моделях і рішеннях. Apache Kafka — distributed event streaming platform, яку часто використовують у Big Data й real-time architectures. Приклади джерел Big Data:
Проста аналогія: Kafka — це як дуже швидка й надійна стрічка подій, до якої різні системи можуть писати й з якої можуть читати. Metadata — інформаційні дані про інформаційні дані.Data Catalog
Приклади:
Data lake — сховище для великих обсягів raw і semi-processed даних у різних форматах.
- domain ownership;
- data as a product;
- self-serve data platform;
- federated governance;
- product thinking for datasets. * business intelligence;
- fraud detection;
- recommendation systems;
- predictive analytics;
- machine learning;
- customer segmentation;
- risk analysis;
- real-time monitoring;
- anomaly detection;
- personalization;
- logistics optimization;
- advertising analytics;
- healthcare analytics;
- financial modeling;
- security analytics;
- scientific research.== MLOps і Big Data ==
Задачі:
Основна ідея: Big Data — це спосіб перетворити величезні потоки й масиви даних на корисні рішення для бізнесу, прогнози, аналітику або автоматизацію. {| class="wikitable" Проста аналогія: Big Data — це не одна велика таблиця, а складський облік із коробками різних форм, які ще треба правильно підписати й розкласти. Lakehouse намагається дати:
Обмеження Big Data
- надмірний збір даних;
- re-identification;
- витоки;
- неправильний доступ;
- зберігання довше, ніж потрібно;
- використання даних без зрозумілої мети;
- sensitive logs;
- data sharing без контролю;
- training data leakage.== Data Security ==
- Curated data lake
- мільярди подій clickstream;
- терабайти logs;
- петабайти відео;
- мільйони транзакцій;
- великі datasets для AI;
- історія продукту sensor data за роки;
- архіви медичних зображень;
- інформаційні дані телеком-мереж. Analytics / ML / BI
Data engineers працюють із:
Практична роль: Spark став популярним, бо дав швидшу й зручнішу модель обробки великих даних, ніж класичний MapReduce.Приклади великих обсягів:
- ingestion;
- ETL;
- ELT;
- data lakes;
- data warehouses;
- batch processing;
- stream processing;
- orchestration;
- data quality;
- schemas;
- transformations;
- monitoring;
- governance;
- cloud storage;
- distributed processing. Практична роль: Big Data analytics оптимізує перейти від “здається” до “інформаційні дані показують”. Distributed computing — обчислення, розподілені між багатьма машинами.
Big Data важлива для MLOps через: хмарна інфраструктура дає:
Практична роль: IoT Big Data оптимізує бачити фізичний світ через цифрові сигнали. Недоліки: Проблеми data quality: Cybersecurity використовує Big Data для аналізу:
↓
Приклад Big Data architecture
</syntaxhighlight>
- smart factories;
- connected cars;
- smart meters;
- wearable devices;
- logistics sensors;
- smart agriculture;
- industrial monitoring;
- environmental sensors;
- smart homes. MapReduce був дуже важливим для Big Data, але для багатьох сучасних задач його замінили швидші й зручніші engines, як приклад Apache Spark. Governance містить:
Data Pipeline
Real-Time Analytics
Основні конкурентні переваги Big Data:
Business Intelligence або BI — інструменти й процеси для звітності, dashboards і бізнес-аналітики.BI використовує Big Data для: Data quality — якість даних для використання. Це мистецтво перетворити масштабні інформаційні дані на корисне знання, рішення для бізнесу або дію. Machine learning часто використовує Big Data для навчання моделей. - Logs критично: governance не має душити роботу з даними, але має не давати Big Data перетворитися на некероване сховище всього. Тип даних Медичні організації аналізують великі datasets для досліджень, планування ресурсів і виявлення ризиків. Перевірити, що немає дублікатів transaction_id
Як інформаційні дані використовуються в BI або ML?критично: real-time analytics дорожча й складніша.== Data Lineage ==
- fraud detection під час платежу;
- live analytics dashboard;
- real-time alerts;
- recommendation updates;
- IoT monitoring;
- security event detection;
- clickstream analysis;
- logistics tracking. * Map — обробити частини даних;
- Reduce — зібрати й агрегувати результати. Перевага: Big Data дає можливість бачити закономірності, які непомітні в малих вибірках або ручних звітах. Якщо інформаційні дані перекошені або брудні, модель здатна масштабувати ці помилки. Data Mesh — організаційний і архітектурний підхід, де доменні команди відповідають за data products.
- web analytics;
- mobile apps;
- social networks;
- e-commerce;
- banking transactions;
- IoT sensors;
- server logs;
- clickstream data;
- video platforms;
- telecom networks;
- medical records;
- satellite imagery;
- industrial equipment;
- supply chain systems;
- smart cities;
- search engines;
- recommendation systems;
- cybersecurity logs;
- AI training datasets.
Маркетинг використовує Big Data для:
критично: Data Mesh — це не без зусиль новий інструмент. Це ситуація, коли інформаційні дані стають настільки великими, швидкими, складними або різноманітними, що потрібні спеціальні архітектури, інструменти й процеси. критично: batch processing чудовий для багатьох задач. Raw storage
Проблеми distributed computing:
Batch Processing
- дублікати;
- пропущені значення;
- неправильні формати;
- застарілі записи;
- помилки sensors;
- bot traffic;
- inconsistent IDs;
- неточні timestamps;
- biased datasets;
- noise;
- data drift;
- human input errors. Big Data часто містить персональні або чутливі інформаційні дані.== Data Quality ==
Приклади: Чи маємо право збирати ці інформаційні дані? Приклад Проста ідея: HDFS розбиває великі файли на частини й зберігає їх на багатьох машинах із реплікацією. SEO-опис
- medical imaging analysis;
- patient records analytics;
- epidemiology;
- drug discovery;
- hospital operations;
- personalized medicine;
- risk prediction;
- clinical research;
- public health monitoring.== Big Data у бізнесі ==
- Quality checks
У healthcare Big Data здатна використовуватися для:
- event streaming;
- log aggregation;
- real-time analytics;
- microservices communication;
- data pipelines;
- clickstream ingestion;
- IoT data;
- fraud detection;
- event sourcing у частині сценаріїв. Big Data оптимізує AI через:
- APIs
конкурентні переваги:
- інформаційні дані не поміщаються на одну машину;
- обробка на одному сервері надто повільна;
- потрібна fault tolerance;
- потрібно паралелити workloads;
- дешевше масштабувати горизонтально;
- інформаційні дані розподілені географічно. * version control;
- automated tests;
- pipeline monitoring;
- data quality checks;
- CI/CD for data;
- reproducibility;
- orchestration;
- observability;
- incident response;
- collaboration between data teams. Data Mesh корисний у великих організаціях, де централізована data team стає bottleneck.
</syntaxhighlight>
- accuracy;
- completeness;
- consistency;
- timeliness;
- uniqueness;
- validity;
- freshness;
- reliability. * audience segmentation;
- campaign performance;
- attribution modeling;
- personalization;
- churn prediction;
- customer lifetime value;
- A/B testing;
- recommendation engines;
- ad targeting;
- sentiment analysis.== Big Data в IoT ==
Приклади:
Приклади сценаріїв використання
це підхід до зберігання, обробки, аналізу й використання дуже великих, швидких або різнорідних наборів даних, які важко ефективно для бізнесу опрацьовувати традиційними інструментами виступає ключовою рисою Big Data або великі інформаційні дані. * Найкраща data platform часто непомітна: люди без зусиль отримують правильні інформаційні дані вчасно. Приклад ідеї: ! Проста аналогія: batch processing — це прочитати газету вранці, а stream processing — слухати live-ефір. Spark підтримує:
Healthcare analytics
Serving Layer
- fraud detection;
- live dashboards;
- online advertising;
- monitoring;
- dynamic pricing;
- personalized recommendations;
- risk scoring;
- supply chain tracking;
- gaming analytics;
- cybersecurity. Приклади:
Перевірити, що user_id не порожній
Data engineering — дисципліна, яка створює pipelines, storage, processing і infrastructure для роботи з даними. критично: unstructured data часто містять багато цінності, але їх складніше шукати, індексувати, аналізувати й захищати. * Практики machine learning, MLOps, DataOps, BI, analytics, real-time processing і cloud cost management. Big Data застосовують, коли потрібно там, де даних занадто багато або вони надходять занадто оперативно для простих інструментів.NoSQL
- training datasets;
- embeddings;
- user behavior signals;
- feedback data;
- evaluation datasets;
- logs;
- real-world interactions;
- multimodal data;
- synthetic data у частині сценаріїв. * Hadoop був одним із головних символів першої хвилі Big Data.
MLOps містить:
Volume — обсяг даних. Чим більше даних, тим більша відповідальність. * owner;
- SLA або expectations;
- documentation;
- schema;
- quality checks;
- access policy;
- lineage;
- support process;
- business meaning. конкурентні переваги:
- Lineage
Проста думка: Big Data важливі не тому, що даних багато, а тому, що з них можна отримати value.SEO title: Big Data — великі дані, аналітика, data lakes, Hadoop, Spark, streaming, AI і data engineering
SEO keywords: Big Data, великі дані, data engineering, data lake, data warehouse, data lakehouse, Hadoop, Apache Spark, Kafka, NoSQL, distributed computing, data analytics, machine learning, ETL, ELT, batch processing, stream processing, real-time analytics, data governance, data quality, data privacy, 5V Big Data
</noinclude>
{{SEO
Шаблон для службового SEO-опису сторінки.
}}
Критично: погані інформаційні дані у великому масштабі дають не кращу аналітику, а більшу впевненість у неправильному висновку. Практична роль: checklist оптимізує не перетворити Big Data-проєкт на дороге накопичення даних без користі.== Хороші практики Big Data ==
- економія коштів;
- кращі рішення для бізнесу;
- швидше виявлення шахрайства;
- персоналізація;
- прогнозування попиту;
- оптимізація логістики;
- покращення продукту;
- зменшення downtime;
- нові бізнес-моделі;
- кращий customer experience;
- автоматизація процесів. Як перевіряємо data quality? * topics;
- partitions;
- producers;
- consumers;
- consumer groups;
- offsets;
- retention;
- replication. Чи виступає як data catalog? Банківська платформа аналізує транзакції в реальному часі, щоб помічати підозрілі patterns і блокувати шахрайство.== Див. так само ==
- raw events;
- logs;
- CSV;
- JSON;
- Parquet;
- Avro;
- images;
- audio;
- ML datasets;
- clickstream;
- IoT data;
- archived data. * dataset names;
- schemas;
- owners;
- descriptions;
- lineage;
- classifications;
- quality metrics;
- access policies;
- tags;
- business glossary;
- sample data;
- freshness information. Data catalog — інструмент або платформа для пошуку, опису й керування datasets. Big Data має обмеження.== Business Intelligence ==
- scalable storage;
- managed data warehouses;
- managed Spark;
- serverless query engines;
- streaming platforms;
- object storage;
- autoscaling;
- pay-as-you-go;
- managed ML services;
- global infrastructure. Популярні формати й технології:
Governance Layer
↓
DataOps містить:
- Alerts
Ключові ідеї Hadoop:
- Kafka
Mobile events → Raw data lake → Cleaned events → User metrics table → BI dashboard Критично: у медицині погані інформаційні дані або неправильно інтерпретована аналітичні інструменти можуть вплинути не лише на бізнес-середовище, а й на життя людей. Критично: у security Big Data важлива швидкість: сигнал атаки здатна бути серед мільйонів нормальних подій.== Типові помилки початківців ==
Velocity важлива для:
Curated storage
Перевірити, що schema не змінилася без попередження
- нічний перерахунок звітів;
- щоденне оновлення версій data warehouse;
- місячна фінансова аналітичні інструменти;
- обробка історичних logs;
- навчання ML-моделі;
- генерація рекомендацій раз на добу. Найлюдяніший факт: Big Data — це не магія великих чисел. Головне правило: Big Data має бути не без зусиль великою, а зрозумілою, керованою, якісною й корисною. критично: без lineage складно зрозуміти, чому показник у dashboard раптом змінився. * Документація Hadoop, Apache Spark, Apache Kafka, NoSQL databases і cloud data platforms.
Яке бізнес-питання вирішуємо? * structured data;
- semi-structured data;
- unstructured data;
- CSV;
- JSON;
- XML;
- Parquet;
- Avro;
- images;
- audio;
- video;
- text;
- logs;
- graph data;
- geospatial data;
- time-series data. ! критично: іноді правильна відповідь — не Big Data cluster, а чистіші інформаційні дані, краща модель метрик і одна добре спроєктована база.
- schema;
- source;
- owner;
- update time;
- data type;
- sensitivity;
- quality;
- lineage;
- retention;
- access rights;
- business meaning. Помилка: думати, що більше даних автоматизовано означає кращі рішення для бізнесу.
Data governance — правила, процеси й відповідальність за інформаційні дані. {| class="wikitable"
Data Governance
Кроки:
- великих файлів;
- distributed storage;
- fault tolerance;
- batch processing;
- data locality;
- масштабування на багато вузлів.== Stream Processing ==
Metadata здатна описувати:
- даних дуже багато;
- інформаційні дані надходять оперативно;
- виступає як різні формати даних;
- потрібна distributed processing;
- звичайна база або BI вже не справляється;
- потрібна real-time аналітичні інструменти;
- потрібне ML на великих datasets;
- виступає як чітка бізнес-цінність;
- потрібна обробка logs, events або IoT;
- потрібна масштабована data platform. * затримка;
- не підходить для real-time use cases;
- великі jobs можуть довго працювати;
- помилки можуть затримати всю партію.== Загальний SEO-опис ==
DataOps
Hadoop — ERP-платформа open source інструментів для distributed storage і distributed processing великих даних. Недоліки:
Рекомендовано:
Privacy-ризики:
даних: якщо він поганий забезпечується через '''Практична роль:''' data engineering — це водопровід; так само реалізовано аналітичні інструменти й AI отримують брудну або нерегулярну воду. Ingestion
</div>
'''Небезпека:''' Big Data без governance — це як бібліотека без каталогу, де книги постійно падають з полиць.<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;">
</div>
AI, у свою чергу, оптимізує Big Data через:
<div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;">
</div>
Big Data підходить, якщо:
<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;">
Cloud computing сильно змінив Big Data.
- гнучке зберігання;
- дешевий storage у cloud-сценаріях;
- технічна підтримка різних форматів;
- збереження raw data;
- підходить для ML і exploration.== Data Lake ==
! Це найочевидніша характеристика Big Data. Без структури, якості й задачі це без зусиль дороге сховище.== Metadata ==
* line charts;
* bar charts;
* heatmaps;
* maps;
* scatter plots;
* dashboards;
* network graphs;
* time-series visualizations;
* anomaly charts.== Big Data у кібербезпеці ==
'''критично:''' красивий dashboard не гарантує правильні інформаційні дані.<div style="background:#f0eaff; border-left:6px solid #8e44ad; padding:12px; margin:12px 0;">
* зручний SQL access;
* стабільні звіти;
* оптимізація для analytics;
* governance;
* business-friendly модель;
* BI integration.== Big Data у медицині ==
Сучасний AI часто залежить від великих наборів даних. Кроки:
'''Найлюдяніший факт:''' Big Data — це не про те, щоб скласти гору даних. '''Практична порада:''' Big Data варто використовувати тоді, коли проблема справді в масштабі, швидкості або різноманітності даних, а не без зусиль тому, що це модний термін.== конкурентні переваги Big Data ==
</div>
'''Головна перевага:''' Big Data дає можливість приймати управлінські рішення для бізнесу не тільки за відчуттями, а на основі великої кількості реальних сигналів.</div>
Чи потрібен real-time, чи достатньо batch? '''Real-time analytics''' — аналіз даних майже одразу після їх появи. '''Data warehouse''' — структуроване сховище даних для аналітики, reporting і business intelligence. Reduce: об’єднати підрахунки з усіх файлів
- Catalog
Data warehouse зазвичай містить:
Команда аналізує user events, funnels, retention і feature usage, щоб покращувати застосунок.== Data Warehouse ==
* privacy;
* consent;
* data quality;
* bias control;
* security;
* regulatory compliance;
* explainability;
* ethical review. Це спроба почути історію, яку розповідають мільйони маленьких подій. ! Які джерела даних потрібні? - ML models
Типи analytics:
Типовий pipeline:
'''критично:''' data quality checks мають ловити не тільки неправильні значення, а й дивну поведінку pipeline. Коли користувачу стає “занадто очевидно, що за ним стежать”, довіра падає. Big Data дає великі функції ERP, але має й великі ризики: погана якість даних, privacy-проблеми, security-ризики, висока вартість, складність governance і небезпека збирати інформаційні дані без мети.== Value ==
== ELT ==
'''Підказка:''' хороший Big Data-сценарій має не тільки джерело даних, а й конкретне рішення для бізнесу або дію, яку ці інформаційні дані покращують.== Data Engineering ==
== Veracity ==
'''Проста аналогія:''' ETL — це як помити, порізати й розкласти продукти перед тим, як покласти їх на полицю. Validation
Перевірити, що timestamp має правильний формат
'''Цікавий факт:''' Hadoop зробив популярною ідею: якщо інформаційні дані не поміщаються на одну машину, можна розподілити їх між багатьма й опрацьовувати паралельно.<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">
'''DataOps''' — практики, які застосовують ідеї DevOps до data pipelines. * high velocity;
* time-series structure;
* edge processing;
* noisy signals;
* device failures;
* network delays;
* real-time alerting.</div>
Окремо один запис здатна бути майже непомітним.== Apache Spark ==
'''Velocity''' — швидкість появи й обробки даних. '''критично:''' великий обсяг сам по собі не робить інформаційні дані корисними. Це про те, щоб у цій горі знайти відповідь, яка комусь допоможе. Хто має доступ?</div>
Spark застосовують для:
'''HDFS''' або '''Hadoop Distributed File System''' — розподілена файлова платформа Hadoop.
- швидший старт;
- менше hardware management;
- масштабування;
- integration з іншими сервісами;
- storage separation від compute. * Найдорожча частина Big Data-проєкту часто не storage, а люди, які розуміють інформаційні дані. MapReduce — модель distributed processing, де обчислення діляться на два основні кроки:
- має ясну мету;
- не перевантажена;
- показує контекст;
- має правильні шкали;
- не вводить в оману;
- пояснює важливі зміни.=== IoT monitoring ===
Big Data здатна бути зайвим, якщо:
- SQL transformations
ETL означає Extract, Transform, Load. * Extract — отримати інформаційні дані з джерел;
- Transform — очистити й перетворити;
- Load — завантажити в цільове сховище. Помилки мережі, затримки й часткові збої стають частиною реальності. * recommendation systems;
- fraud detection;
- natural language processing;
- computer vision;
- forecasting;
- customer segmentation;
- anomaly detection;
- ranking;
- personalization;
- predictive maintenance. Stream processing потребує:
бізнес-середовище використовує Big Data для:
- KPI dashboards;
- sales reports;
- customer analytics;
- financial reports;
- operational monitoring;
- marketing attribution;
- product analytics;
- executive reporting.
- anomaly detection;
- intrusion detection;
- threat hunting;
- incident response;
- fraud detection;
- behavior analytics;
- SIEM;
- attack pattern discovery.
- глибша аналітичні інструменти;
- кращі прогнози;
- real-time insights;
- персоналізація;
- fraud detection;
- оптимізація бізнес-процесів;
- технічна підтримка AI і ML;
- виявлення patterns;
- краще розуміння клієнтів;
- автоматизація процесів рішень;
- monitoring великих систем;
- наукові відкриття;
- конкурентна перевага;
- масштабованість data processing. Але мільярди таких записів можуть показати тренди, ризики, шахрайство, попит, поведінку користувачів, стан обладнання або слабкі місця бізнесу. Ризики:
Value здатна бути:
Проста аналогія: metadata — це етикетка на коробці з даними. NoSQL — клас баз даних, які не обмежуються класичною relational table model. Big Data спирається на distributed computing, data lakes, data warehouses, stream processing, Hadoop, Spark, Kafka, NoSQL, cloud platforms і data engineering.- batch;
- streaming;
- real-time;
- scheduled;
- event-driven;
- cloud-native;
- hybrid. Клік на сайті, транзакція в банку, GPS-позиція, перегляд відео, сенсор на заводі, лайк у соцмережі, лог сервера, медичний запис, покупка в магазині — усе це інформаційні дані. Практична роль: velocity означає, що інформаційні дані потрібно не без зусиль зберігати, а встигати опрацьовувати, поки вони ще корисні. * починати із бізнес-питання;
- не збирати зайві персональні інформаційні дані;
- мати data governance;
- створити data catalog;
- контролювати data quality;
- документувати datasets;
- використовувати lineage;
- розділяти raw, cleaned і curated data;
- налаштувати access control;
- шифрувати чутливі інформаційні дані;
- моніторити pipelines;
- тестувати transformations;
- контролювати cloud costs;
- мати retention policy;
- думати про privacy з початку;
- використовувати правильний формат файлів;
- цифровізувати data pipelines. * У багатьох компаніях головна проблема не “немає даних”, а “ніхто не знає, яким даним довіряти”.
* data minimization; * anonymization; * pseudonymization; * access control; * encryption; * retention limits; * audit logs; * consent management у відповідних сценаріях; * privacy reviews. * Spark став популярним через швидшій і зручнішій distributed processing моделі. Це зміна ownership і культури роботи з даними.<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;"> * ownership; * access control; * data catalog; * data quality standards; * privacy rules; * retention policies; * compliance; * classification; * lineage; * stewardship; * audit; * security policies.== Big Data і AI == Big Data часто потребує distributed computing, бо: Критерії: <div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;"> '''Data product''' — dataset, pipeline, API або аналітичний ресурс, який має користувачів, якість, документацію, ownership і цінність. * Матеріали щодо data governance, data catalog, data lineage, data quality, privacy і security. Data lake здатна зберігати: </div> </div> '''Stream processing''' — обробка даних як безперервного потоку подій. Завод збирає sensor data з обладнання, щоб прогнозувати поломки й планувати maintenance. Значення == Data Product == інформаційні дані можуть надходити: * дешеве масштабоване storage; * підтримку raw і curated data; * SQL analytics; * ACID transactions у частині форматів; * schema evolution; * governance; * ML-friendly access; * BI-friendly access. Ідеї Data Mesh: Storage Layer '''Variety''' — різноманітність даних.== Data Visualization == <div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;"> HDFS призначена для: Чи виступає як lineage? '''Найлюдяніший сенс:''' візуалізація перетворює таблицю, яку ніхто не хоче читати, на історію, яку можна зрозуміти. Не все має бути real-time. Kafka функціонує з поняттями: <syntaxhighlight lang="text"> Проблеми: Processing Layer <div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;"> </div> * висока вартість; * складність інфраструктури; * data quality issues; * privacy risks; * security risks; * складність governance; * нестача спеціалістів; * vendor lock-in; * складне debugging; * biased data; * overcollection; * погані dashboards; * повільні pipelines; * непотрібне зберігання всього; * складність compliance. Big Data — це не без зусиль “багато файлів”. * Матеріали з data engineering, distributed systems і Big Data architecture. * event ingestion; * message broker; * windowing; * state management; * fault tolerance; * exactly-once або at-least-once semantics; * late events handling; * monitoring. '''критично:''' MapReduce історично важливий, але не кожен сучасний Big Data-проєкт використовує його напряму.<div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;">
Проста різниця: data lake зберігає багато “сирого матеріалу”, а data warehouse — підготовлені інформаційні дані для звітів і рішень.== Висновок ==
Variety
Map: порахувати слова в кожному файлі
Джерела
критично: у cloud Big Data швидко зберігати багато даних, але так само швидко отримати великий рахунок за storage, compute або data transfer. Де зберігаємо raw data? * Big Data і AI тісно пов’язані, але AI не виправляє автоматизовано погані інформаційні дані. ETL добре підходить, коли інформаційні дані потрібно підготувати перед завантаженням у warehouse. У Data security у Big Data передбачено захист storage, pipelines, access і processing. Big Data — це підхід до роботи з великими, швидкими й різноманітними даними, який дає можливість зберігати, опрацьовувати, аналізувати й використовувати їх для бізнесу, науки, AI, безпеки, медицини, фінансів, IoT і багатьох інших сфер.=== Recommendation system ===
Коли Big Data здатна бути невдалим вибором
- logs;
- network traffic;
- authentication events;
- endpoint telemetry;
- cloud audit logs;
- firewall events;
- DNS queries;
- vulnerability data;
- user behavior;
- threat intelligence.
Критично: Big Data не дає права збирати все “про всяк випадок”. * Практики data lake, data warehouse, data lakehouse, ETL, ELT, batch processing і stream processing.== Big Data у фінансах ==
- горизонтальне масштабування;
- гнучкі schema;
- високу швидкість запису;
- великі distributed datasets;
- спеціалізовані workloads;
- low-latency access.
- encryption at rest;
- encryption in transit;
- IAM;
- role-based access;
- network isolation;
- secrets management;
- audit logs;
- data masking;
- tokenization;
- secure ingestion;
- vulnerability management;
- backup;
- incident response;
- least privilege. Big Data часто пов’язують із distributed computing, data lakes, Hadoop, Apache Spark, Kafka, NoSQL, cloud storage, data engineering, machine learning, analytics і real-time processing.
Big Data застосовують для:
Як контролюємо cloud costs? Приклад: |- | Volume | Великий обсяг даних | Петабайти логів або транзакцій |- | Velocity | Висока швидкість надходження | Події з мобільного застосунку в реальному часі |- | Variety | Різноманітність форматів | Таблиці, JSON, зображення, відео, logs |- | Veracity | Якість і надійність даних | Помилки, дублікати, шум, неповні записи |- | Value | Корисність даних | Прогноз попиту або виявлення шахрайства |}
Kafka підходить для:
Цікаві факти про Big Data
Який очікуваний обсяг? Практична роль: Big Data оптимізує бізнесу швидше помічати сигнали, які раніше губилися в шумі. * автоматичну класифікацію;
- anomaly detection;
- entity extraction;
- search;
- summarization;
- data cleaning;
- pattern recognition;
- natural language querying. - IoT sensors
- Spark
критично: data lake без каталогів, ownership і якості оперативно перетворюється на data swamp — болото даних.
Практична роль: DataOps оптимізує зробити data pipelines не ручним ремеслом, а керованим production-процесом. Це інший набір trade-offs для інших задач. Veracity — достовірність, якість і надійність даних. Data product має:
Big Data і Cloud
- Big Data часто цінна не окремим записом, а patterns між мільйонами записів.
- простіша модель;
- ефективно для бізнесу для великих обсягів;
- інтуїтивно для історичних даних;
- легше тестувати й повторювати. ↓
Data lakehouse — архітектурний підхід, який поєднує ідеї data lake і data warehouse. Data sources
Практична роль: MLOps поєднує Big Data і ML так, щоб модель не без зусиль навчилася один раз, а жила в production. * cost surprises;
- vendor lock-in;
- неправильний IAM;
- data egress costs;
- privacy і region constraints;
- governance complexity. - Mobile events
- Privacy policies
Хто owner dataset? * Більше даних здатна погіршити рішення для бізнесу, якщо інформаційні дані biased або low quality. Приклад
IoT створює величезні потоки sensor data.
Цікавий факт
- training datasets;
- feature stores;
- model artifacts;
- evaluation data;
- monitoring data;
- drift detection;
- feedback loops;
- batch inference;
- streaming inference.== Apache Kafka ==
- descriptive analytics — що сталося;
- diagnostic analytics — чому сталося;
- predictive analytics — що здатна статися;
- prescriptive analytics — що варто зробити. Batch processing — обробка даних великими порціями за розкладом або подією. - Raw data lake
- прогноз продажів;
- аналіз поведінки користувачів;
- churn prediction;
- risk scoring;
- fraud detection;
- demand forecasting;
- campaign optimization;
- supply chain analytics.
- dataset versioning;
- model registry;
- experiment tracking;
- feature pipelines;
- deployment;
- monitoring;
- retraining;
- governance.
Big Data часто пояснюють через модель 5V.== 5V Big Data ==
!=== Product analytics ===
- Spark SQL;
- DataFrames;
- structured streaming;
- MLlib;
- graph processing у частині сценаріїв;
- інтеграцію з data lakes і cloud storage. * Delta Lake;
- Apache Iceberg;
- Apache Hudi;
- Parquet;
- object storage;
- Spark engines;
- cloud query engines. застосовується для для:
- fraud detection;
- real-time recommendations;
- live dashboards;
- alerting;
- cybersecurity;
- stock trading;
- IoT monitoring;
- logistics tracking.
</div> Поширені помилки: ! '''Критично:''' distributed system не стає простішою лише тому, що її назвали “кластером”. через '''Цікавий факт:''' Big Data дала AI багато “палива”, а AI користувачі можуть людям не тонути в океані цих даних.</div> == Big Data у маркетингу == == Data Mesh == - Batch imports </div> Проблеми veracity: '''критично:''' у фінансах Big Data має бути не тільки швидкою, а й audit-friendly: потрібно пояснити, звідки взялися інформаційні дані й рішення для бізнесу.<div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;"> - Web events <div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;"> - Access control <div style="background:#eafaf1; border-left:6px solid #2ecc71; padding:12px; margin:12px 0;"> * customer insights; * персоналізації; * оптимізації цін; * керування inventory; * прогнозування попиту; * fraud detection; * аналізу churn; * автоматизації marketing; * risk management; * supply chain optimization; * product analytics; * operational efficiency. '''Практична роль:''' data catalog відповідає на просте, але болюче питання: “Де лежать потрібні інформаційні дані й чи можна їм довіряти?” * biased data; * noisy labels; * privacy leakage; * data drift; * unbalanced datasets; * expensive training; * weak feature quality; * training-serving skew.</div> == Machine Learning і Big Data == == Коли варто використовувати Big Data == Добрі практики: <div style="background:#e7f3ff; border-left:6px solid #2b7cff; padding:12px; margin:12px 0;"> конкурентні переваги: * debug reports; * audit; * compliance; * impact analysis; * trust; * root cause analysis; * data quality; * migration planning. Big Data стало популярним не тому, що люди раптом почали “любити великі таблиці”.</div> Приклади: Big Data здатна включати: <div style="background:#fdecea; border-left:6px solid #e74c3c; padding:12px; margin:12px 0;"> Платформа аналізує перегляди, кліки, покупки й оцінки користувачів, щоб рекомендувати фільми, товари, музику або статті. Перевірити, що інформаційні дані оновилися за останню годину Перевірити, що кількість подій не впала раптово до нуля <div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;"> * Extract — отримати інформаційні дані; * Load — завантажити в сховище; * Transform — обробити вже всередині потужної data platform. Її варто використовувати там, де швидкість справді дає цінність. * network failures; * data partitioning; * coordination; * consistency; * latency; * retries; * partial failures; * resource management; * debugging complexity. * document databases; * key-value stores; * column-family stores; * graph databases; * time-series databases; * search engines.== Volume == </div> == HDFS == </div> Перевірити, що order_total >= 0 == Structured, Semi-Structured і Unstructured Data == - Stream processing == ETL == '''ELT''' означає '''Extract, Load, Transform'''. NoSQL часто використовують у Big Data через: '''Практична роль:''' ELT дає можливість спочатку зберегти raw data, а потім робити різні трансформації під різні задачі.</div> * HDFS; * MapReduce; * YARN; * Hive; * Pig у старіших сценаріях; * HBase; * Sqoop у legacy-сценаріях; * Oozie у legacy-сценаріях.<div style="background:#fff4e5; border-left:6px solid #f39c12; padding:12px; margin:12px 0;"> - Data warehouse === Fraud detection === '''критично:''' ML-модель вчиться з даних.
Velocity
- batch processing;
- ETL;
- analytics;
- machine learning;
- stream processing;
- SQL queries;
- data lake processing;
- large-scale transformations.
Де зберігаємо curated data? Проста думка: data product — це не “таблиця десь у warehouse”, а інформаційні дані, якими інші можуть реально користуватися. Практична роль: security має бути вбудована в data platform, а не додана після того, як усі вже отримали доступ до всього.
- дублікати;
- missing values;
- неправильні типи;
- різні формати дат;
- inconsistent IDs;
- late-arriving data;
- bot traffic;
- schema drift;
- broken pipelines;
- manual input errors. Ознака
- інформаційні дані поміщаються в одну нормальну relational database;
- достатньо простого BI;
- немає чіткої задачі;
- команда не має data engineering skills;
- бюджет малий;
- інформаційні дані поганої якості;
- privacy-ризики не продумані;
- інформаційні дані збираються “про всяк випадок”;
- простий SQL warehouse вирішує проблему;
- потрібна не кількість, а краще формулювання метрик. * зберігати інформаційні дані на багатьох машинах;
- опрацьовувати інформаційні дані ближче до місця зберігання;
- масштабуватися горизонтально;
- використовувати commodity hardware у класичній моделі;
- працювати з великими batch workloads.
IoT Big Data часто має:
Головна думка: Big Data — це не “чим більше, тим краще”.
Фінансові організації використовують Big Data для:
Приклад checklist для Big Data-проєкту
Value — користь, яку можна отримати з даних. * Kafka часто застосовується для як “нервова платформа” real-time data architecture. - BI dashboards
MLOps — практики для керування machine learning lifecycle. Найкращий Big Data-проєкт — це не той, де найбільше терабайтів, а той, де інформаційні дані якісні, захищені, зрозумілі й реально створюють value. |- | Structured data | Чітка таблична структура | SQL-таблиці, транзакції |- | Semi-structured data | виступає як структура, але гнучка | JSON logs, XML, events |- | Unstructured data | Немає простої табличної схеми | Фото, відео, текст, аудіо |}
Data visualization оптимізує бачити patterns у даних.== Data Privacy ==
Тематичні мітки
- збирати всі інформаційні дані без мети;
- не мати data owner;
- не перевіряти data quality;
- будувати data lake без catalog;
- плутати data lake з data warehouse;
- робити real-time там, де достатньо batch;
- ігнорувати privacy;
- давати всім доступ до всього;
- не рахувати cloud costs;
- не документувати schemas;
- не мати lineage;
- не моніторити pipelines;
- вважати dashboard правдою без перевірки;
- навчати ML на брудних даних;
- створювати data swamp замість data lake. ↓
Hadoop
критично: персоналізація має не переходити межу приватності. Добра візуалізація:
<syntaxhighlight lang="text"> Головне правило: Big Data-проєкт має починатися не з “давайте зберемо все”, а з питання “яку цінність ми хочемо отримати?”
Transformation
↓
- щосекунди;
- мільйонами подій на хвилину;
- як streaming events;
- з IoT devices;
- з payment systems;
- з user activity;
- з monitoring systems;
- з security systems. Big Data корисні для:
MapReduce
Big Data Analytics
- fraud detection;
- risk scoring;
- credit analysis;
- anti-money laundering;
- transaction monitoring;
- market analysis;
- customer segmentation;
- algorithmic trading;
- compliance reporting;
- anomaly detection. Як зрозуміємо, що проєкт дав value?
- API collectors
Практична роль: така технічна архітектура показує, що Big Data — це не один інструмент, а цілий шлях даних від джерела до рішення для бізнесу. * очищені інформаційні дані;
- structured schemas;
- fact tables;
- dimension tables;
- aggregates;
- історичні інформаційні дані;
- business metrics;
- curated datasets. Big Data analytics — аналіз великих даних для отримання висновків. Критично: Big Data без data quality — це не конкурентна перевага, а масштабований безлад.
- ризик data swamp;
- потрібна governance;
- складність пошуку;
- schema management;
- access control;
- data quality problems.== Distributed Computing ==
Але більше даних не завжди означає кращу модель. Типи NoSQL:
- Data Engineering
- Data Lake
- Data Warehouse
- Data Lakehouse
- Hadoop
- Apache Spark
- Apache Kafka
- NoSQL
- Distributed Computing
- ETL
- ELT
- Batch Processing
- Stream Processing
- Real-Time Analytics
- Machine Learning
- MLOps
- DataOps
- Data Governance
- Data Quality
- Data Catalog
- Data Lineage
- Business Intelligence
- Data Visualization
- Cloud Computing
- Приватність даних
- Безпека застосунків
- Документація