Проектируем и выводим в продакшн LLM-системы корпоративного уровня с предсказуемым качеством, контролируемой стоимостью инференса и измеримыми SLA. Реализуем multi-agent архитектуры и оркестрацию на LangGraph, CrewAI и собственных фреймворках: tool-calling, function-calling, agentic workflows с управляемым состоянием и долгоживущей памятью. Разрабатываем RAG-пайплайны на векторных хранилищах Qdrant, Weaviate, pgvector, Milvus с гибридным поиском, реранкингом и контекстной компрессией — production-grade retrieval с измеримыми метриками relevance и recall. Выполняем fine-tuning open-source моделей (LoRA, QLoRA, full fine-tune) на инфраструктуре A100/H100, дистилляцию и квантизацию под целевой профиль инференса. Разворачиваем Llama, Qwen, DeepSeek, GigaChat в on-premise контуре через vLLM, TGI, Ollama с горизонтальным масштабированием и автоскейлингом. Закрываем полный MLOps-цикл под LLM: версионирование промптов и эвалюаций через Langfuse и LangSmith, CI/CD для промптов, регрессионное тестирование на golden datasets, мониторинг hallucination rate, latency, потребления токенов и unit-экономики в разрезе фич. Обеспечиваем безопасность контура: guardrails, защита от prompt injection и jailbreak, маскирование PII, аудит-логирование в соответствии с требованиями 152-ФЗ. Оптимизируем стоимость и производительность через semantic caching, батчинг запросов и спекулятивный декодинг — там, где это даёт измеримый выигрыш по latency и cost-per-request. Стек: Python, PyTorch, Transformers, LangChain, LlamaIndex, vLLM, Ray, Kubernetes, Triton Inference Server. Поддерживаемые модели: Claude, GPT-4/5, Gemini, Llama 3/4, Qwen 2.5/3, DeepSeek V3/R1, YandexGPT, GigaChat. Типовые проекты: AI-агенты для автоматизации back-office процессов, RAG-системы поверх корпоративных баз знаний объёмом 100k+ документов, голосовые ассистенты с интеграцией STT/TTS в телефонию, пайплайны классификации и извлечения данных для документооборота, AI-копилоты для внутренних инструментов.