cover image
OVHcloud

Site Reliability Engineer - Openstack H/F/N

Hybrid

Montreal, Canada

Full Time

10-09-2025

Share this job:

Skills

Communication Monitoring Openstack

Job Specifications

Ce poste est à pourvoir depuis notre bureau de Montréal.

#OVHcloud

Vous voulez contribuer à des projets uniques pour construire ensemble le cloud libre ? Allons-y!

Chez OVHcloud, nous sommes animés par la même volonté, celle de construire l’avenir ensemble pour défendre la liberté d’innover.

OVHcloud est un acteur mondial et le leader européen du Cloud opérant plus de 450 000 serveurs dans 43 centres de données sur 4 continents à destination de 1,6 million de clients dans plus de 140 pays. Fer de lance d'un Cloud de confiance et pionnier d'un Cloud durable au meilleur ratio performance-prix, le Groupe s’appuie depuis plus de 20 ans sur un modèle intégré qui lui confère la maîtrise complète de sa chaîne de valeur : de la conception de ses serveurs, à la construction et au pilotage de ses centres de données, en passant par l’orchestration de son réseau de fibre optique. Cette approche unique lui permet de couvrir en toute indépendance l’ensemble des usages de ses clients en leur faisant profiter des vertus d’un modèle raisonné sur le plan environnemental avec un usage frugal des ressources et d'une empreinte carbone atteignant les meilleurs ratios de l'industrie. OVHcloud propose aujourd’hui des solutions de dernière génération alliant performance, prévisibilité des prix et une totale souveraineté sur leurs données pour accompagner leur croissance en toute liberté.

Au sein de votre équipe #OneTeam

Vous rejoindrez l'équipe Public Cloud SRE, spécialisée en OpenStack, pour assurer la fiabilité et la performance de notre infrastructure cloud.
Vous maintiendrez une haute disponibilité des services et contribuerez à l'amélioration continue de notre environnement de production.

Vos principales responsabilités

Assurer la stabilité et la résilience de nos services basés sur OpenStack en appliquant les meilleures pratiques SRE.
Mettre en place et améliorer les systèmes de surveillance, de journalisation et d'alerte pour détecter et résoudre rapidement les problèmes de production.
Mener la gestion des incidents et les revues post-incidents pour éviter les récidives.
Analyser les tendances du système pour optimiser les performances et garantir l'évolutivité de l'infrastructure.
Identifier les opportunités d'automatisation des processus et de renforcement des systèmes.
Maintenir une documentation détaillée de l'architecture et des procédures.

Votre futur impact

Dans 6 mois

Vous aurez une compréhension approfondie de notre environnement OpenStack et de nos flux de travail.
Vous contribuerez à la définition et à l'affinement des métriques de fiabilité (SLI, SLO, budgets d'erreur).
Vous prendrez en charge la gestion des incidents et participerez aux analyses de causes profondes.

Et dans 1 an

Vous jouerez un rôle déterminant dans la définition de la feuille de route de la fiabilité à long terme.
Vous dirigerez des projets majeurs d'optimisation pour atteindre ou dépasser les objectifs de performance et de disponibilité.

Compétences requises :

Vous maitrisez l'architecture OpenStack et ses composants (Neutron, Nova, Glance, Cinder, Keystone...).
Vous êtes à l'aise avec la gestion d'infrastructures complexes et les méthodologies SRE.
Vous avez de solides compétences en matière de monitoring, d'automatisation et d'optimisation des performances.
Vous avez un excellent niveau d'anglais.

C'est un +

Une expérience en gestion d'infrastructures IT.
Un esprit collaboratif et de bonnes compétences en communication.

REJOINDRE L’AVENTURE OVHCLOUD

OVHcloud valorise la diversité des personnes qu’elle embauche et accompagne. La diversité, pour OVHcloud, c’est favoriser un milieu de travail où les différences individuelles sont reconnues, appréciées et respectées de façon à développer le plein potentiel et les forces de chacune et chacun. Soyez libre d’être vous-même !

About the Company

A OVHcloud é um ator mundial e o líder europeu em serviços cloud, com mais de 450 000 servidores nos seus 37 datacenters distribuídos por quatro continentes. Desde há 20 anos, o grupo baseia-se num modelo integrado que lhe confere um controlo total sobre a sua cadeia de valor: da conceção dos servidores, passando pela administração dos seus datacenters e a orquestração da sua rede de fibra ótica. Esta abordagem única permite-lhe dar resposta, de forma totalmente independente, às necessidades dos seus 1,6 milhões de clientes ... Know more