AI Infrastructure Engineer
Remote | B2B
О бизнесе
Мы — стартап инвестиционного холдинга, работающий в одном из самых быстрорастущих направлений — создании AI-агентов для средних и крупных международных компаний. Уже сейчас проект является одним из ключевых в портфеле холдинга и имеет все шансы стать его флагманом.

Мы создаём сложный, многосоставной продукт, где критичны архитектура, устойчивость, безопасность и качество каждого элемента.

Мы ищем смелых и автономных экспертов — людей, которые не только вдохновлены идеями AI, но и умеют превращать их в работающие, прикладные решения для бизнеса. Тех, кто готов брать ответственность, влиять на архитектуру и быть частью непростого, но по-настоящему драйвового этапа роста бизнеса.

О продукте
Мы строим продукт, который в конечном виде будет представлять из себя Маркетплейс AI-агентов. Часть из них будет нашей внутренней разработкой, часть — AI решения других производителей, с которыми у нас будут партнерские программы.
На данном этапе мы разрабатываем следующие AI агенты:
  • Product analytic tools
  • Internal HR
  • Internal Process Manager
  • Internal Navigator

Задачи

Ключевая цель роли — обеспечить надёжную, масштабируемую инфраструктуру под AI-нагрузку
  • Поднять стабильные окружения
  • Сделать надёжную загрузку и обработку документов
  • Развернуть и настроить векторное хранилище
  • Защитить данные клиентов
  • Подготовить систему к росту
  • Обеспечивать работу AI-агентов в продакшене
  • Обеспечивать мониторинг
  • Контролировать расходы в облаке


Требования
  • Обычная инфраструктура
  • Уверенно работать с Linux-серверами (ставить, настраивать, чинить)
  • Работать в облаке (AWS или Google Cloud — хотя бы один из них хорошо)
  • Ставить и поддерживать программы в контейнерах (Docker)
  • Настраивать автоматический запуск и обновление кода (CI/CD, например GitHub Actions)

Базы данных и хранение
  • PostgreSQL и Redis — ставить, бэкапить, следить за скоростью
  • Понимать, как хранить и быстро искать большие объёмы текстов / документов

RAG-системы
Понимать весь процесс работы RAG-системы и обеспечивать его стабильную работу:
  • загружать документы в хранилище
  • запускать процессы превращения текста в векторы (embedding generation)
  • быстро находить похожие фрагменты по запросу
  • передавать найденное в AI для формирования ответа

Мониторинг и надёжность
  • Следить за нагрузкой, ошибками, временем ответа (Prometheus + Grafana или похожие)
  • Делать автоматические бэкапы всего важного (базы, векторы, файлы)
  • Уметь быстро восстановить систему, если что-то сломалось

Безопасность и защита данных (очень важный блок)
  • Закрывать доступ так, чтобы никто лишний не увидел данные (даже внутри команды)
  • Хранить все пароли, ключи и секреты в специальном безопасном месте (не в коде, не в файлах)
  • Включать шифрование везде: на диске, при передаче по сети
  • Настраивать firewall / сети в облаке, чтобы серверы были изолированы
  • Следить, чтобы чувствительные данные (имена, телефоны, финансы, персональные данные) не попадали в открытые AI-модели
  • Вести логи доступа — кто, когда и что смотрел / менял
  • Проверять, что бэкапы тоже зашифрованы и хранятся безопасно
  • Знать, как защитить от типичных AI-атак: когда кто-то специально пытается обмануть систему, чтобы она выдала чужие секреты