Site Reliability Engineer

Full-time
Office in Montreal
Hybrid work model

Location: Montreal, QC (hybrid)

Employment type: Full-time

Reports to: Staff Software Engineer

French version below

About Optable

Optable is a Canadian, venture-backed platform helping publishers, advertisers, and media companies manage identity and audiences in the privacy-first era. Recently recognized as a Deloitte Technology Fast 50 Enterprise Industry Leaders award winner, we're building toward a future where AI agents automate the complex workflows of digital advertising. We are a rapidly growing startup that values execution, innovation, and a "no jerks" policy.

The Role

We’re hiring our first Site Reliability Engineer (SRE) to help improve how we ship and operate production software. You’ll work closely with Engineering and Cloud Infrastructure teams to increase deployment velocity, reduce release friction, and raise our observability and reliability standards. This is an engineering role: you’ll write production Go and build automation that makes releases safer and more repeatable.

Why This Role Is Different

Optable builds AI products, and we use them internally. Your role will be important in keeping our tech stack scalable and secure.

Most organizations are behind on AI. This one puts you at the frontier. You'll develop a deep understanding of how agentic automation transforms organizations and play an active part in moving it forward.

Core Responsibilities

Contribute to our Go, gRPC, protobuf codebase
Improve and automate our deployment and release process (Kubernetes/Helm + CI/CD)
Build automated release validation (metrics/dashboards/alerts) to support safer canary rollouts and promotion
Strengthen observability across services (metrics, tracing, profiling) and improve alert quality and signal-to-noise
Partner with teams on reliability practices (runbooks, incident response improvements, postmortem follow-ups) and operational best practices

Required Qualifications

3+ years of relevant engineering experience (SRE, platform, infra/software, or backend with strong ops ownership)
Strong Golang experience in production
Hands-on experience with Kubernetes and Helm
Experience with Terraform (or equivalent IaC) and modern CI/CD workflows
Familiarity with cloud infrastructure (preferably GCP)
Strong communication, autonomy, and ability to drive cross-team improvements.

Preferred Qualifications

Experience with Grafana/Prometheus-style monitoring, OpenTelemetry, tracing, profiling, and practical alert design
Experience implementing progressive delivery patterns (canary/blue-green) and rollbacks
Experience working on incident management/on-call processes
Experience with Claude Code

Why Optable

Competitive salary and equity package
Comprehensive health insurance coverage
Hybrid work model
Professional development through mentoring and career coaching
Hands-on experience with agentic AI
Small senior team, low bureaucracy, no jerks policy
Daily in-office lunches

‍

Ingénieur(e) en fiabilité des sites (SRE)
Lieu : Montréal, QC (mode de travail hybride)
Type d’emploi : Temps plein
Relève de : Staff Software Engineer

À propos d’Optable

Optable est une plateforme canadienne soutenue par des investisseurs importants qui aide les éditeurs, annonceurs et entreprises médiatiques à gérer les identités et les audiences dans une ère axée sur la protection de la vie privée. Récemment reconnue comme lauréate du prix Deloitte Technology Fast 50 dans la catégorie Enterprise Industry Leaders, nous construisons un avenir où des agents d’IA automatisent les flux de travail complexes de la publicité numérique. Nous sommes une startup en forte croissance qui valorise l’exécution, l’innovation et une politique de « no jerks ».

Le rôle

Nous recrutons notre premier(e) ingénieur(e) en fiabilité des sites (SRE) pour améliorer la façon dont nous livrons et exploitons les logiciels en production. Vous travaillerez en étroite collaboration avec les équipes d’ingénierie et d’infrastructure cloud afin d’accroître la vitesse de déploiement, réduire les frictions liées aux mises en production et améliorer nos standards d’observabilité et de fiabilité.

Il s’agit d’un rôle de développement : vous écrirez du code Go en production et développerez des automatisations qui rendent les déploiements plus sûrs et reproductibles.

Pourquoi ce rôle est différent

Optable développe des produits d’IA, que nous utilisons également à l'interne. Vous aurez un rôle-clé pour maintenir une infrastructure technologique évolutive et sécurisée.

La plupart des organisations sont en retard sur l’IA. Celle-ci vous place à l’avant-garde. Vous développerez une compréhension approfondie de la transformation des organisations par l’automatisation agentique et jouerez un rôle actif dans son évolution.

Responsabilités principales

Contribuer à notre base de code en Go, gRPC et protobuf
Améliorer et automatiser nos processus de déploiement et de mise en production (Kubernetes/Helm + CI/CD)
Mettre en place des validations automatiques des releases (indicateurs, tableaux de bord, alertes) pour sécuriser les déploiements progressifs (canary) et les promotions
Renforcer l’observabilité des services (indicateurs, traçage, profiling) et améliorer la qualité des alertes
Collaborer avec les équipes sur les pratiques de fiabilité (runbooks, gestion des incidents, postmortems) et les meilleures pratiques opérationnelles

Qualifications requises

3+ ans d’expérience pertinente en ingénierie (SRE, plateforme, infrastructure/logiciel ou backend avec forte responsabilité opérationnelle)
Solide expérience en Go (Golang) en production
Expérience pratique avec Kubernetes et Helm
Expérience avec Terraform (ou équivalent IaC) et des workflows CI/CD modernes
Connaissance des infrastructures cloud (idéalement GCP)
Excellentes compétences en communication, autonomie et capacité à conduire des améliorations au sein des différentes équipes

Qualifications souhaitées

Expérience avec Grafana/Prometheus, OpenTelemetry, traçage, profiling et conception d’alertes efficaces
Expérience avec les stratégies de déploiement progressif (canary, blue-green) et les mécanismes de rollback
Expérience en gestion d’incidents et “on-call”
Expérience avec Claude Code

Pourquoi Optable

Salaire compétitif et participation en actions
Assurance santé complète
Mode de travail hybride
Développement professionnel (mentorat et coaching de carrière)
Expérience concrète avec l’IA agentique
Petite équipe senior, faible bureaucratie, politique « no jerk »
Lunchs quotidiens offerts au bureau

‍

Thank you for contacting us

Oops! Something went wrong while submitting the form.