AI Infrastructure Engineer

Remote | B2B

О бизнесе
Мы — стартап инвестиционного холдинга, работающий в одном из самых быстрорастущих направлений — создании AI-агентов для средних и крупных международных компаний. Уже сейчас проект является одним из ключевых в портфеле холдинга и имеет все шансы стать его флагманом.

Мы создаём сложный, многосоставной продукт, где критичны архитектура, устойчивость, безопасность и качество каждого элемента.

Мы ищем смелых и автономных экспертов — людей, которые не только вдохновлены идеями AI, но и умеют превращать их в работающие, прикладные решения для бизнеса. Тех, кто готов брать ответственность, влиять на архитектуру и быть частью непростого, но по-настоящему драйвового этапа роста бизнеса.

О продукте
Мы строим продукт, который в конечном виде будет представлять из себя Маркетплейс AI-агентов. Часть из них будет нашей внутренней разработкой, часть — AI решения других производителей, с которыми у нас будут партнерские программы.
На данном этапе мы разрабатываем следующие AI агенты:

Product analytic tools
Internal HR
Internal Process Manager
Internal Navigator

Задачи

Ключевая цель роли — обеспечить надёжную, масштабируемую инфраструктуру под AI-нагрузку

Поднять стабильные окружения
Сделать надёжную загрузку и обработку документов
Развернуть и настроить векторное хранилище
Защитить данные клиентов
Подготовить систему к росту
Обеспечивать работу AI-агентов в продакшене
Обеспечивать мониторинг
Контролировать расходы в облаке

Требования

Обычная инфраструктура

Уверенно работать с Linux-серверами (ставить, настраивать, чинить)
Работать в облаке (AWS или Google Cloud — хотя бы один из них хорошо)
Ставить и поддерживать программы в контейнерах (Docker)
Настраивать автоматический запуск и обновление кода (CI/CD, например GitHub Actions)

Базы данных и хранение

PostgreSQL и Redis — ставить, бэкапить, следить за скоростью
Понимать, как хранить и быстро искать большие объёмы текстов / документов

RAG-системы
Понимать весь процесс работы RAG-системы и обеспечивать его стабильную работу:

загружать документы в хранилище
запускать процессы превращения текста в векторы (embedding generation)
быстро находить похожие фрагменты по запросу
передавать найденное в AI для формирования ответа

Мониторинг и надёжность

Следить за нагрузкой, ошибками, временем ответа (Prometheus + Grafana или похожие)
Делать автоматические бэкапы всего важного (базы, векторы, файлы)
Уметь быстро восстановить систему, если что-то сломалось

Безопасность и защита данных (очень важный блок)

Закрывать доступ так, чтобы никто лишний не увидел данные (даже внутри команды)
Хранить все пароли, ключи и секреты в специальном безопасном месте (не в коде, не в файлах)
Включать шифрование везде: на диске, при передаче по сети
Настраивать firewall / сети в облаке, чтобы серверы были изолированы
Следить, чтобы чувствительные данные (имена, телефоны, финансы, персональные данные) не попадали в открытые AI-модели
Вести логи доступа — кто, когда и что смотрел / менял
Проверять, что бэкапы тоже зашифрованы и хранятся безопасно
Знать, как защитить от типичных AI-атак: когда кто-то специально пытается обмануть систему, чтобы она выдала чужие секреты