MLflow

Обмеження MLflow

Проєкт здатна містити:

Типові помилки при використанні MLflow

Для повної reproducibility потрібні так само Git, dataset versioning, dependency management і containerization. # підготувати інформаційні дані;

навчити модель;
залогувати run;
оцінити модель;
порівняти з baseline;
зареєструвати model version;
запустити tests;
перевести модель у candidate;
розгорнути staging;
виконати validation;
розгорнути production;
monitor. Після цього результати можна переглянути в MLflow UI. MLflow GenAI documentation описує платформу як all-in-one platform для track prompts, evaluate quality, deploy AI agents і monitor performance. * local filesystem;

S3;
Azure Blob Storage;
Google Cloud Storage;
DBFS у Databricks;
інше object storage.

очищає інформаційні дані автоматизовано;
навчає модель краще сам по собі;
замінює Git;
замінює data versioning;
замінює orchestrator;
замінює monitoring stack на 100%;
гарантує security без налаштувань;
самостійно вирішує governance;
виправляє hallucinations;
замінює human review;
робить AI-застосунок production-ready без інженерії.

Простий приклад локального serving:

CI/CD для ML складніший, ніж для звичайного коду, бо потрібно контролювати не тільки код, а й інформаційні дані, метрики, модель і drift. MLflow має обмеження.

MLflow часто використовують з XGBoost і LightGBM. У серйозному ML-проєкті потрібно версіонувати не лише модель, а й dataset, preprocessing і training code.^[1]

model.pkl;
model.keras;
model.pt;
графіки;
reports;
datasets samples;
embeddings;
evaluation files. Artifacts — це файли, які зберігаються разом із run. Питання:

як приклад, можна порівняти:

MLflow корисний для порівняння різних training runs, де змінюються layers, optimizer, learning rate, batch size або preprocessing.== Що не варто логувати в MLflow ==

learning_rate;
batch_size;
max_depth;
n_estimators;
optimizer;
model_name;
embedding_model;
chunk_size;
prompt_template;
temperature.^[2]

Типовий приклад:

schema input;
schema output;
column names;
data types;
tensor shapes.^[3]

У GenAI governance так само містить:

churn_prediction;
demand_forecasting;
product_classification;
invoice_ocr;
support_ticket_routing;
llm_rag_experiment;
fraud_detection. * Tracing — запис кроків виконання LLM або agent workflow. Типова схема:

Metrics — це числові показники якості або продуктивності. Databricks documentation окремо зазначає, що в open-source MLflow користувач системи має самостійно забезпечувати security layer, тоді як managed MLflow у Databricks має enterprise security. * Drift — зміна розподілу даних або поведінки моделі після deployment. MLflow Tracing дає можливість аналізувати такі інформаційні дані й знаходити bottlenecks, hallucinations, неправильні tools або слабкий retrieval. * Prompt Management — керування версіями prompts. Parameters зазвичай не змінюються під час одного run. Це критично для deployment і reproducibility.== Artifacts ==

Це один із найпростіших сценаріїв для старту з MLflow. У командному або production-сценарії краще використовувати tracking server із backend store і artifact store.Ollama здатна запускати локальні LLM. Можна логувати: Класичні компоненти MLflow:

MLflow для звітності

як приклад:

Prompt Management

Model Signature описує вхідні й вихідні інформаційні дані моделі. with mlflow.start_run():

Потрібно бачити:

Типовий сценарій:

У сучасному MLflow критично розглядати не тільки класичні ML-моделі, а й AI-застосунки, які складаються з prompts, retrievers, tools, LLM calls і agent logic. Приклад ідеї:

Signature корисний для:

зафіксувати environment;
запускати tracking server;
створити inference image;
розгорнути model server;
запускати training jobs;
уникати “works on my machine”.

У RAG-проєктах MLflow корисний для: як приклад: * централізованого доступу до моделей; * контролю витрат; * routing між providers; * access control; * guardrails; * logging; * policy enforcement; * audit. Поширені помилки: * tracing; * evaluation; * prompt tracking; * observability; * production monitoring; * artifacts; * datasets; * cost and latency analysis.== MLflow і Mistral AI / OpenAI / Gemini == як приклад, модель здатна бути sklearn, XGBoost або custom Python model, але виклик виглядає однаково. '''MLflow Models''' — це стандартний спосіб упаковки моделей.[[Категорія:Пояснення термінів]] * prompt versions; * trace review; * safety checks; * human feedback; * guardrails; * model provider policy; * cost monitoring. Docker оптимізує: Це корисно для технічних команд і менеджменту, бо ML-рішення стають прозорішими. * '''Pyfunc''' — універсальний Python Function flavor MLflow. MLflow найкраще використовувати як центральний журнал і контрольну систему для AI-розробки: він не створює якість автоматизовано, але оптимізує команді бачити, порівнювати, відтворювати, оцінювати й розгортати моделі відповідально. # Документувати champion/challenger models. import mlflow.pyfunc * code version; * dataset version; * random seed; * library versions; * hardware; * preprocessing; * model parameters; * training environment; * prompt version; * LLM provider version; * temperature; * retrieved context. Registered Model здатна мати багато versions. Він оптимізує керувати процесом так, щоб модель можна було відтворити, порівняти, перевірити й розгорнути відповідально.== MLflow і DVC == == MLflow і Ollama == У production потрібно додати authentication, monitoring, scaling, rollback, logging і security. MLflow здатна допомагати зі звітністю по ML-проєктах. -P learning_rate=0.001 * model artifacts; * parameters; * metrics; * checkpoints; * training curves; * custom artifacts; * PyTorch models. '''Governance''' у MLflow означає контроль життєвого циклу моделей і AI-застосунків. * '''Evaluation''' — оцінювання якості моделі або AI-застосунку. Але якщо експерименти повторюються, моделей багато або виступає як production — MLflow оперативно стає корисним. Його обмеження: як приклад: '''LLM observability''' — це здатність бачити, як функціонує LLM-застосунок. Типові задачі: Він оптимізує керувати життєвим циклом моделі: Model Registry потрібен, щоб команда знала, яка модель виступає як актуальною, яка тестується, а яка вже застосовують, коли потрібно в production. * '''Model Registry''' — реєстр моделей і версій.== Хороші практики == як приклад: # створити experiment; # запустити training; # залогувати parameters; # залогувати metrics; # зберегти artifacts; # зберегти модель; # оцінити модель; # зареєструвати model version; # порівняти з baseline; # перевести candidate у staging; # протестувати; # розгорнути production; # monitor; # rollback за потреби. mlflow models serve -m runs:/.../model * experiment tracking; * parameters, metrics, artifacts; * MLflow UI; * Model Registry; * MLflow Models; * model deployment; * model evaluation; * GenAI evaluation; * LLM tracing; * OpenTelemetry-compatible observability; * prompt management; * AI Gateway; * integrations із Python ML-екосистемою; * Databricks integration; * технічна підтримка класичних ML і сучасних LLM/agent workflow. MLflow — для experiment tracking і model lifecycle. '''Parameters''' — це вхідні конфігурація експерименту. Runs дозволяють порівнювати підходи.== GenAI Evaluation == Human feedback можна використовувати для: В одному experiment здатна бути багато runs. MLflow — це платформа для керування lifecycle, а не магічна кнопка “зробити AI правильно”. * accuracy; * precision; * recall; * F1; * AUC; * RMSE; * MAE; * latency; * cost; * token usage; * hallucination score; * relevance; * faithfulness; * user rating. Вона дає можливість логувати: * experiments; * runs; * parameters; * metrics; * tags; * model registry metadata. mlflow ui MLflow так само застосовується для з [[Keras]] і TensorFlow.<ref>https://learn.microsoft.com/ru-ru/azure/databricks/mlflow/</ref> '''Run''' — це один запуск коду або експерименту. Це критично: MLflow оптимізує не прив’язувати всю інженерну систему до одного провайдера.== OpenTelemetry == * tracking server у Kubernetes; * artifact store у S3; * model serving у pod; * deployment через CI/CD; * monitoring через Prometheus / OpenTelemetry; * scaling inference endpoints. Dataset здатна містити: Це здатна включати: MLflow не виступає як ERP-системою. Без tracing складно зрозуміти, де саме сталася помилка.== Пояснення термінів == У командному MLflow потрібно контролювати доступ. '''MLflow Deployments''' — інструменти для розгортання моделей або роботи з deployment targets. як приклад: як приклад: Він не: * Mistral AI; * OpenAI; * Google Gemini; * Anthropic; * local models; * custom endpoints. * '''AI Gateway''' — шар керування доступом до AI-моделей і policies. Без MLflow команда часто зберігає результати експериментів хаотично: == MLflow Model Registry == [[Категорія:Machine Learning]] '''MLflow Tracking''' — це платформа для запису й перегляду експериментів. Для GenAI-систем важливий human feedback.== Governance ==

створити registered model;
додати model version;
описати модель;
порівняти версії;
перевести модель у stage або alias;
зберігати metadata;
керувати production-кандидатами. У 2026 році MLflow активно розвиває GenAI-напрям навколо tracing, evaluation, human feedback, prompt versioning і AI governance. * Parameter — вхідне конфігурація експерименту. MLflow здатна зберігати artifacts і traces довго. Artifacts допомагають зберегти не тільки числа, а й супровідні матеріали експерименту. як приклад, у K2 ERP MLflow можна було б використовувати для:

Python Function flavor

MLflow починався як інструмент для традиційного machine learning lifecycle, але в MLflow 3 отримав значний фокус на generative AI, LLM-застосунках і AI-агентах. Це корисно для:

Вони можуть доповнювати одне одного:

MLflow для RAG

tabular ML;
scoring models;
demand forecasting;
fraud detection;
churn prediction;
ranking;
classification. MLflow Projects — це спосіб упаковки ML-коду у відтворюваний формат.^[4]

evaluation datasets;
regression tests;
prompt improvement;
retriever tuning;
model comparison;
production monitoring.== Model Version ==

прогнозування попиту;
churn prediction;
scoring;
fraud detection;
recommendation systems;
OCR-моделей;
класифікації звернень;
RAG;
AI-помічників;
LLM-застосунків;
agents;
model registry;
production monitoring;
evaluation.

Deployment здатна включати:

MLflow можна використовувати з різними LLM-провайдерами:

MLflow Projects

code;
environment;
entry points;
parameters;
MLproject file. * Model Version — конкретна реліз системи registered model. * tracking prompt versions;
tracing retrieval;
logging retrieved documents;
evaluation answers;
measuring latency;
measuring token usage;
collecting human feedback;
comparing chunk sizes;
comparing embedding models;
comparing vector stores;
monitoring production traces. Безпека MLflow залежить від того, як його розгорнули.

Human Feedback

Коли MLflow здатна бути зайвим

логувати experiments;
трасувати retrieval;
оцінювати відповіді;
зберігати datasets;
порівнювати retrievers;
оцінювати latency і cost;
збирати feedback;
monitor production RAG. Backend Store зберігає metadata MLflow. # Зберігати model signature. Типовий pipeline:

Run здатна містити:

і подивитися, як змінюється relevance, faithfulness, latency і cost. * Artifact Store — сховище файлів і моделей. Для evaluation потрібні datasets.

tracking експериментів прогнозування попиту;
реєстру моделей класифікації документів;
evaluation OCR або text classification;
versioning ML-моделей;
monitoring AI-помічника;
tracing RAG по документації;
порівняння моделей для аналітики. # Використовувати зрозумілі назви experiments.== Metrics ==

MLflow і Keras / TensorFlow

Tracing корисний, коли AI-застосунок складається з кількох етапів:

метрики в Excel;
параметри в блокнотах;
моделі в різних папках;
графіки в окремих файлах;
датасети без версій;
код без зв’язку з моделлю;
production-модель невідомого походження;
LLM-prompts без історії;
agent traces без observability. * Flavor — спосіб опису моделі для конкретного фреймворку. Через UI можна:

Parameters

логувати тільки accuracy і не логувати parameters;
не зберігати dataset version;
не зберігати preprocessing code;
не використовувати model signature;
не налаштувати artifact store;
запускати tracking server без security;
логувати secrets;
не використовувати model registry;
не мати approval process;
плутати experiment tracking і production monitoring;
не перевіряти drift;
не оцінювати LLM-застосунки на dataset;
не трасувати agent tools;
не контролювати cost і latency. mlflow.log_param("learning_rate", 0.001)

MLflow і PyTorch

MLflow Tracking Server — сервер, який приймає й зберігає experiment data. * Keras model;

training history;
validation metrics;
model signature;
artifacts;
callbacks outputs.

MLflow Tracking

Під час роботи з MLflow варто дотримуватися таких правил:

паролі;
API-ключі;
приватні токени;
credentials;
персональні інформаційні дані;
медичну інформацію;
фінансові інформаційні дані;
raw customer data;
confidential documents;
production secrets;
приватний код без доступів;
повні prompts із sensitive data;
traces із персональними даними без обробки. MLflow здатна бути корисним для:

Але MLflow не повинен самостійно змінювати облікові інформаційні дані, проводити документи або обходити права доступу ERP. MLflow часто виступає як частиною CI/CD або MLOps pipeline. MLflow Tracing заявлено як fully OpenTelemetry-compatible і сумісне з GenAI Semantic Conventions.== MLflow і ERP-системи ==

Джерела

relevance;
faithfulness;
groundedness;
toxicity;
hallucinations;
retrieval quality;
answer correctness;
tool correctness;
format correctness;
latency;
cost;
user feedback. У GenAI-проєктах prompt виступає як частиною продукту.

Artifacts можуть бути: * Airflow запускає training; * training логить run у MLflow; * evaluation записує metrics; * registry оновлює model version; * deployment job розгортає модель. Для ML це складно, бо на результат впливають: У бізнесі MLflow корисний для: [[Категорія:Генеративний AI]] == Безпека MLflow == * parameters; * metrics; * artifacts; * models; * tags; * source code; * run metadata. MLflow оптимізує командам відстежувати експерименти, зберігати параметри й метрики, керувати артефактами, реєструвати моделі, розгортати їх, оцінювати якість, трасувати LLM-запити, аналізувати AI-агентів і будувати відтворюваний MLOps-процес. MLflow здатна зберігати модель, а Docker — середовище для її запуску. # Перевіряти drift після deployment. # Прив’язувати runs до Git commit. # Не логувати secrets і sensitive data. model = mlflow.pyfunc.load_model("runs:/.../model") == Model Signature == '''MLflow Tracing''' — observability для LLM-застосунків і AI-агентів. * '''MLflow Models''' — формат упаковки моделей.[[Категорія:RAG]] == MLflow для production monitoring == mlflow.log_artifact("confusion_matrix.png") LlamaIndex часто застосовується для для document-centric RAG. * '''Backend Store''' — сховище metadata MLflow. MLflow оптимізує зберігати частину цієї інформації, але не вирішує все автоматизовано. '''MLflow UI''' — вебінтерфейс для перегляду експериментів. як приклад: * parameters; * metrics; * artifacts; * model file; * dataset information; * tags; * logs; * code version; * start time; * end time. # Вимірювати latency, cost і quality. Зазвичай UI запускається командою: Можна показувати: * модель; * графік; * confusion matrix; * feature importance; * dataset sample; * tokenizer; * prompt file; * evaluation report; * JSON результат; * PDF; * trace export; * log file. # Для GenAI використовувати tracing і evaluation. * '''Model Signature''' — SEO-опис input і output schema моделі. * '''MLOps''' — практики розробки, розгортання й супроводу ML-моделей у production. Головна ідея MLflow — навести порядок у ML- і AI-розробці.<ref>https://mlflow.org/</ref> == MLflow для AI-агентів == Flavor дає можливість MLflow розуміти, як завантажити й використати модель. * '''RAG''' — Retrieval-Augmented Generation, генерація відповіді з пошуком документів. * локальний inference; * REST API; * batch inference; * cloud deployment; * Databricks Model Serving; * Kubernetes; * custom serving; * MLflow pyfunc serving. * '''Artifact''' — файл, збережений разом із run.<ref>https://docs.databricks.com/aws/en/mlflow/</ref> Кожна реліз системи здатна бути пов’язана з конкретним run, artifacts, metrics і description.[[Категорія:AI]] * chunk_size = 500; * chunk_size = 1000; * chunk_size = 1500; == Дивіться так само == На відміну від класичного ML, де часто виступає як чітка правильна відповідь, у GenAI потрібно оцінювати: == MLflow Deployments == == MLflow і LangChain == * планувати; * викликати tools; * робити кілька LLM calls; * використовувати memory; * читати документи; * звертатися до API; * виконувати actions. MLflow не виступає як LLM-провайдером. Бізнес-цінність MLflow полягає не в тому, що він тренує модель краще, а в тому, що він робить ML-процес керованим, прозорим і повторюваним. Metrics можуть логуватися один раз або багато разів протягом training. * python_function; * sklearn; * pytorch; * keras; * tensorflow; * xgboost; * lightgbm; * spark; * transformers. Без signature складніше зрозуміти, які саме інформаційні дані очікує модель. * зрозуміти формат; * тестувати inference; * документувати модель; * перевіряти deployment; * уникати помилок у schema. Без access control MLflow здатна стати місцем витоку моделей, даних і prompts. OpenTelemetry корисний для команд, які вже мають monitoring, tracing і logging у production.== Що таке MLflow == MLflow Tracing оптимізує бачити кожен крок agent workflow. Це дає можливість відстежити, як саме була отримана production-модель.<pre> MLflow не робить модель автоматизовано якісною. * '''OpenTelemetry''' — відкритий стандарт observability. MLflow Tracing documentation описує production monitoring як один зі сценаріїв LLM і agent tracing, включно з latency, token usage і quality metrics.== LLM Observability == MLflow здатна відповідати за: Його потрібно версіонувати так само, як код. MLflow здатна логувати sklearn-моделі й зберігати їх у форматі MLflow Model. MLflow не замінює PyTorch. Prompt management потрібен для: У класичному ML dataset потрібен для training і testing. * '''Run''' — один запуск експерименту або коду. Не варто без політики логувати: Для локальних тестів можна використовувати файлове сховище. * хто здатна бачити experiments; * хто здатна видаляти runs; * хто здатна реєструвати model versions; * хто здатна переводити модель у production; * хто здатна бачити artifacts; * хто здатна бачити LLM traces; * хто здатна бачити prompts; * хто здатна налаштовувати gateway endpoints. У старих workflow MLflow часто використовували stages: Вона застосовується для для: У сучасних registry-підходах дедалі частіше використовуються aliases і більш гнучкі lifecycle patterns.<ref>https://mlflow.org/releases/</ref> <pre> Це можуть бути: Artifact store здатна бути: * backend store — база даних для metadata; * artifact store — S3, Azure Blob, GCS, local storage або інше сховище; * MLflow UI — інтерфейс для команди; * training jobs — логують runs у tracking server. # Версіонувати dataset окремо. як приклад: * відповідь правильна чи ні; * корисність; * tone; * completeness; * groundedness; * safety; * citation quality; * next action.== Registered Model == * класифікація; * регресія; * clustering; * tabular ML; * baseline models; * pipelines; * hyperparameter tuning. # Регулярно очищати застарілі artifacts і runs за політикою retention. Модель у MLflow здатна мати кілька flavors.{{SEO|title=MLflow — open-source платформа для MLOps, experiment tracking, model registry, deployment, evaluation і GenAI tracing|description=MLflow — Wiki-стаття про open-source платформу для керування життєвим циклом машинного навчання, LLM-застосунків і AI-агентів. Розглянуто experiment tracking, runs, artifacts, parameters, metrics, model registry, model deployment, MLflow Models, MLflow Projects, evaluation, GenAI evaluation, LLM tracing, prompt management, OpenTelemetry, AI Gateway, інтеграції, Databricks, безпеку, MLOps, CI/CD, production monitoring, обмеження та практичне використання MLflow у бізнесі й розробці.|keywords=MLflow, MLOps, MLflow Tracking, MLflow Model Registry, MLflow Models, MLflow Projects, MLflow Deployments, MLflow Tracing, MLflow GenAI, MLflow LLM, MLflow AI Gateway, experiment tracking, model registry, model deployment, machine learning lifecycle, ML lifecycle, model evaluation, GenAI evaluation, OpenTelemetry, AI observability, prompt versioning, MLflow Databricks, Python MLflow, PyTorch MLflow, Keras MLflow, TensorFlow MLflow, scikit-learn MLflow|alternativeTo=хаотичне зберігання ML-експериментів; ручне ведення метрик у таблицях; моделі без версіонування; production ML без model registry; ML без reproducibility; LLM-застосунки без tracing; AI-агенти без observability; ручне порівняння моделей; deployment без контрольованого lifecycle}} У MLflow release notes 3.12.0 згадуються Gateway guardrails, які дозволяють встановлювати guardrails на gateway endpoints для запобігання unsafe або non-compliant inputs and outputs. * experiment tracking; * model registry; * model packaging; * model deployment; * model evaluation; * GenAI evaluation; * LLM tracing; * prompt management; * AI observability; * agent monitoring; * artifact management; * reproducibility; * production ML; * CI/CD для моделей; * інтеграції з ML-фреймворками; * командної роботи над ML-проєктами.== Artifact Store == * збереження prompt templates; * порівняння prompt versions; * rollback; * A/B testing; * evaluation; * approval; * documentation; * production release.== Run == # створити prompt; # запустити evaluation dataset; # зібрати traces; # оцінити відповіді; # порівняти model providers; # зібрати human feedback; # оновити prompt; # задеплоїти; # monitor production traces.[[Категорія:Штучний інтелект]] '''Input example''' — приклад вхідних даних для моделі.<pre> == MLflow і XGBoost / LightGBM == '''MLflow Model Registry''' — це реєстр моделей і їхніх версій. * @champion; * @challenger; * @production; * @candidate. Це критично, бо дає можливість уникати vendor lock-in і інтегрувати traces з існуючим observability stack. * '''Tracking Server''' — сервер MLflow для збереження metadata runs. MLflow — одна з найважливіших open-source платформ для MLOps і AI engineering. Agent здатна: * потребує правильної інфраструктури; * security треба налаштовувати; * dataset versioning потрібно вирішувати окремо; * production monitoring потребує архітектури; * GenAI evaluation не скасовує human review; * MLflow не замінює MLOps-культуру.== Access Control == * хто запускав експеримент; * які параметри використовувалися; * які метрики отримано; * яка модель збережена; * які артефакти створено; * яку версію моделі розгорнуто; * як поводиться LLM-застосунок; * які prompts, tools, retrieval і responses були використані. * '''Champion model''' — поточна найкраща або production-модель. Але MLflow сам по собі не замінює Kubernetes, DevOps і security architecture. У production потрібно налаштувати: * [[PyTorch]] * [[Keras]] * [[LangChain]] * [[Ollama]] * [[Mistral AI]] * [[Llama]] * [[Google Gemini]] * [[NotebookLM]] * [[GitHub Copilot]] * [[Cursor]] * [[Tabnine]] * [[Штучний інтелект]] * [[Генеративний AI]] * [[Python]] * [[API K2 ERP]] * [[Інтеграції K2 ERP]] * [[Розробка в K2 ERP]] * [[Тестування коду]] * [[Звітність K2 ERP]] [[Категорія:AI-агенти]] * [https://mlflow.org/ MLflow — офіційна сторінка] * [https://github.com/mlflow/mlflow MLflow GitHub Repository] * [https://mlflow.org/releases/ MLflow Releases] * [https://mlflow.org/releases/3/ MLflow 3 Release] * [https://mlflow.org/docs/latest/ MLflow Documentation] * [https://mlflow.org/docs/latest/genai/ MLflow — GenAI Documentation] * [https://mlflow.org/docs/latest/genai/tracing/ MLflow — LLM Tracing and Agent Observability] * [https://mlflow.org/docs/latest/ml/evaluation/ MLflow — Model Evaluation] * [https://mlflow.org/blog/structured-ai-eval/ MLflow Blog — Structuring AI Evaluation and Observability] * [https://docs.databricks.com/aws/en/mlflow/ Databricks — MLflow on Databricks] * [https://learn.microsoft.com/ru-ru/azure/databricks/mlflow/ Azure Databricks — MLflow] * [https://www.mediawiki.org/wiki/Help:Formatting MediaWiki — Help:Formatting] * [https://www.mediawiki.org/wiki/Help:Links MediaWiki — Help:Links] == MLflow і Databricks == [[Категорія:MLflow]] як приклад: DVC часто використовують для versioning datasets і pipelines. Він частіше доповнює orchestration, зберігаючи metadata, metrics і models. # Налаштовувати access control. '''Reproducibility''' — здатність відтворити результат.== MLflow і LlamaIndex ==

import mlflow

У контексті ERP MLflow здатна бути інструментом для супроводу AI- і ML-компонентів поруч із ERP. PyTorch тренує модель, MLflow керує lifecycle. Це дає можливість запускати експеримент однаково на різних машинах або в різних середовищах. Він виступає як платформою для керування, оцінювання й спостереження за AI-застосунками. Pyfunc зручний, бо приховує конкретний фреймворк моделі.== MLflow UI ==

AI Gateway — шар, який оптимізує керувати доступом до AI-моделей, costs, routing і policies.== Backend Store ==

latency;
error rate;
model drift;
data drift;
prediction distribution;
cost;
token usage;
user feedback;
hallucination reports;
failed tool calls;
retriever quality;
traffic patterns;
version changes. * які експерименти запускалися;
які метрики були досягнуті;
яка модель стала champion;
які параметри працювали краще;
які версії моделей у production;
яка latency;
які costs;
які GenAI traces мають проблеми;
які prompts покращили quality.== Reproducibility ==

MLflow у бізнесі

mlflow.log_metric("accuracy", 0.92)

Experiment оптимізує організувати роботу так, щоб не змішувати різні задачі в одному списку.== MLflow і Airflow / Prefect / Dagster ==

authentication;
authorization;
network isolation;
TLS;
reverse proxy;
database credentials;
object storage permissions;
secrets management;
audit logs;
backups;
access control;
retention;
artifact scanning.== Коли MLflow особливо корисний ==

виступає як один маленький експеримент;
модель не йде в production;
немає команди;
немає потреби в registry;
немає deployment;
достатньо простого notebook;
немає повторних запусків;
задача вирішується SQL або правилом;
немає ML lifecycle.

Model Evaluation

Логувати parameters, metrics і artifacts системно. Якщо в них потрапили секрети, це стає security incident.== Input Example ==

Tracking Server

OpenTelemetry — відкритий стандарт для observability. Release notes описують MLflow 3.12.0 як реліз, focused on improving LLM observability workflows, зокрема multimodal tracing, tracing support для Codex, Gemini і Qwen coding agents, gateway guardrails і pagination для trace table. mlflow run . Його сильні сторони:

demand_forecasting_model;
churn_classifier;
invoice_ocr_model;
ticket_priority_model;
rag_answer_evaluator. * Deployment — розгортання моделі для inference. або через tracking server. У локальному режимі MLflow часто не має enterprise security. офіційний реліз MLflow 3 у червні 2025 року описував його як версію з production-ready generative AI capabilities.

Без tracing агент схожий на чорну скриньку: він щось зробив, але незрозуміло, чому саме.== MLflow і Docker ==

Він здатна логувати:

MLflow добре інтегрується з PyTorch. Станом на травень 2026 року актуальним релізом на офіційній сторінці був MLflow 3.12.0, випущений 5 травня 2026 року.^[5]

Databricks надає managed MLflow із додатковими enterprise-можливостями.== Основні компоненти MLflow ==

MLflow Tracing документація згадує human feedback як один зі сценаріїв роботи з LLM і agent traces. MLflow здатна використовуватися поруч із LangChain. Kubernetes здатна використовуватися для production deployment ML-сервісів.^[6]

MLflow і Kubernetes

MLflow особливо корисний для:

Класична evaluation-система MLflow використовує mlflow.models.evaluate(), EvaluationMetric і custom metrics.^[7]

MLflow Projects корисні для reproducibility, але на практиці багато команд так само використовують Docker, Poetry, Conda, CI/CD і workflow orchestrators. MLflow не завжди замінює orchestrator.== MLflow 3.12.0 ==

Вони відповідають на питання: з якими налаштуваннями запущено експеримент? користувач системи або експерт здатна оцінювати:

prompts;
chains;
agents;
tools;
retrieval;
memory. # Мати approval process для production models.== Stages і aliases ==

python_function або pyfunc — універсальний flavor MLflow. Tracking потрібен для того, щоб не губити інформацію про експерименти й мати змогу порівнювати моделі не по пам’яті, а за збереженими даними. Це показує, що MLflow уже не лише класичний MLOps-інструмент, а й платформа для AI agents, LLM tracing і GenAI observability. Для таких моделей MLflow оптимізує відстежувати hyperparameters, feature sets, metrics і model versions. Artifact Store зберігає файли. через Офіційна сторінка MLflow описує платформу як open-source AI engineering platform for agents, LLMs, and ML models, що користувачі можуть debug, evaluate, monitor and optimize production-quality AI applications.^[8]

MLflow Tracking — відстеження експериментів;
MLflow Models — стандартний формат упаковки моделей;
MLflow Model Registry — реєстр моделей і версій;
MLflow Projects — упаковка коду для відтворюваних запусків;
MLflow Deployments — робота з deployment targets;
MLflow Evaluation — оцінювання моделей;
MLflow Tracing — tracing для LLM і agent застосунків;
MLflow GenAI — інструменти для prompts, evaluation, tracing і monitoring generative AI. Artifacts можуть бути великими, тому їх краще не змішувати з metadata database. * Challenger model — нова модель-кандидат для порівняння. * Registered Model — іменована модель у registry.== Головна ідея ==

Workflow orchestrators можуть запускати MLflow jobs. Офіційна документація окремо зазначає, що для GenAI/LLM evaluation варто використовувати mlflow.genai.evaluate() і Scorer objects. Він не веде обліковий облік, не проводить документи, не керує складом і не рахує фінансовий блок. * порівняння моделей;

перевірки якості;
regression testing;
production readiness;
виявлення overfitting;
вибору champion model;
аналізу помилок. Він дає можливість завантажувати модель через єдиний інтерфейс:

навчити PyTorch-модель;
залогувати parameters і metrics;
зберегти модель у MLflow;
зареєструвати її в Model Registry;
розгорнути inference endpoint. # Використовувати Model Registry. * churn_classifier v1;

churn_classifier v2;
churn_classifier v3. Він оптимізує:

RAG-система без observability важко підтримується: користувач системи бачить лише фінальну відповідь, але не бачить, які документи були знайдені й чому модель відповіла саме так.== MLflow і scikit-learn ==

MLflow і CI/CD

input question;
expected answer;
reference documents;
ground truth label;
expected tool call;
metadata;
user segment;
language;
difficulty. Документація Databricks описує MLflow 3 як платформу для experiment tracking, model evaluation, production model registry, model deployment, а так само observability, evaluation і prompt management для agents and LLM applications. як приклад, loss здатна логуватися на кожній epoch.^[9]

model approval;
lineage;
ownership;
documentation;
evaluation criteria;
registry policies;
access control;
audit;
rollback;
monitoring;
risk review;
compliance. Production monitoring потрібен після deployment.== Experiment ==

prompt;
system instruction;
user input;
retrieved documents;
tool calls;
model response;
tokens;
latency;
cost;
errors;
retries;
user feedback;
traces;
spans;
model version;
prompt version. Docker часто використовують разом із MLflow. # Використовувати artifact store для великих файлів. це open-source платформа; так само реалізовано LLM-застосунків, AI-агентів і моделей у production виступає ключовою рисою керування життєвим циклом машинного навчання забезпечується через MLflow. MLflow здатна допомогти:

Офіційна документація описує MLflow Tracing як OpenTelemetry-compatible LLM observability solution, яка capture inputs, outputs, latency, costs і metadata для проміжних кроків запиту. Ідея однакова: команда має явно знати, яка реліз системи моделі зараз застосовується для для конкретного середовища або ролі. Офіційна MLflow Tracing документація зазначає інтеграції з LLM providers і agent frameworks, включно з LangChain, LlamaIndex, DSPy і Pydantic AI.== Практичний висновок ==

користувач системи ставить питання;
платформа виконує retrieval;
агент викликає tool;
LLM формує відповідь;
платформа перевіряє output;
відповідь повертається користувачу. Типовий workflow:

AI Gateway

MLflow Models

Для команди краще використовувати базу даних, як приклад PostgreSQL або MySQL. як приклад, команда здатна порівняти Mistral, Llama і Qwen через Ollama, а результати evaluation зберегти в MLflow. * GenAI Evaluation — оцінювання generative AI, LLM, RAG і agents. * Agent — AI-система, яка здатна використовувати tools і виконувати workflow. MLflow дає єдину систему, де можна бачити:

Gateway корисний для:

як приклад, один run здатна відповідати навчанню моделі RandomForest із певними hyperparameters, а інший — XGBoost або neural network. Evaluation потрібна для:

ML-команд;
data science teams;
MLOps;
model registry;
experiment tracking;
production ML;
GenAI evaluation;
LLM tracing;
AI agents;
RAG;
prompt management;
model comparison;
reproducibility;
enterprise AI;
CI/CD для моделей;
командної роботи над AI.== Datasets у MLflow ==

Model Version — конкретна реліз системи registered model. Для scikit-learn MLflow дуже зручний. LangChain відповідає за orchestration LLM-застосунків:

DVC — версії даних і pipeline;
MLflow — runs, metrics, models, registry. Для GenAI workflow:

трасування локального LLM-застосунку;
порівняння моделей;
evaluation локальних prompts;
логування latency;
аналізу RAG;
збереження результатів експериментів. Registered Model — це іменована модель у реєстрі. * Metric — числовий показник якості або продуктивності. Experiment у MLflow — це логічна група запусків. Governance містить:

validation;
deployment;
documentation;
inference API;
помилок сумісності;
повторного використання моделі. predictions = model.predict(data)

MLflow здатна бути частиною цього процесу:

У простому локальному режимі MLflow здатна зберігати інформаційні дані у файловій системі. MLflow — це платформа для AI engineering і MLOps. * Experiment — група MLflow runs.== Типовий MLflow workflow == MLflow історично тісно пов’язаний із Databricks, але MLflow виступає як open-source проєктом. AI-агенти складніші за простий chatbot.== MLflow Tracing == Різниця: Потрібно відстежувати: У GenAI dataset потрібен для evaluation prompts, RAG, agents і regression testing. * MLflow — open-source платформа для ML lifecycle, MLOps, GenAI evaluation і LLM tracing. GenAI Evaluation — оцінювання LLM-застосунків, prompts, RAG і agents. Input example особливо корисний для команд, де модель використовують не ті самі люди, які її тренували. * open-source MLflow — потрібно самостійно налаштовувати infrastructure, security і storage;

managed MLflow на Databricks — має глибшу інтеграцію з Databricks, Unity Catalog, governance і enterprise features. * Staging;
Production;
Archived. MLflow має інструменти для оцінювання моделей. * переглядати runs;
порівнювати метрики;
дивитися parameters;
відкривати artifacts;
бачити моделі;
фільтрувати experiments;
аналізувати training;
переглядати traces для LLM-застосунків.^[10]

MLflow здатна бути зайвим, якщо:

[1] ttps://mlflow.org/docs/latest/ml/evaluation/

[2] ttps://mlflow.org/docs/latest/genai/tracing/

[3] ttps://mlflow.org/releases/3/

[4] ttps://mlflow.org/docs/latest/genai/

[5] ttps://mlflow.org/docs/latest/genai/tracing/

[6] ttps://mlflow.org/docs/latest/genai/tracing/

[7] ttps://mlflow.org/releases/

[8] ttps://mlflow.org/docs/latest/genai/tracing/

[9] ttps://mlflow.org/docs/latest/genai/tracing/

[10] ttps://mlflow.org/blog/structured-ai-eval/

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]