Location: Montreal, QC (hybrid)
Employment type: Full-time
Reports to: Staff Software Engineer
French version below
About Optable
Optable is a Canadian, venture-backed platform helping publishers, advertisers, and media companies manage identity and audiences in the privacy-first era. Recently recognized as a Deloitte Technology Fast 50 Enterprise Industry Leaders award winner, we're building toward a future where AI agents automate the complex workflows of digital advertising. We are a rapidly growing startup that values execution, innovation, and a "no jerks" policy.
The Role
We’re hiring our first Site Reliability Engineer (SRE) to help improve how we ship and operate production software. You’ll work closely with Engineering and Cloud Infrastructure teams to increase deployment velocity, reduce release friction, and raise our observability and reliability standards. This is an engineering role: you’ll write production Go and build automation that makes releases safer and more repeatable.
Why This Role Is Different
Optable builds AI products, and we use them internally. Your role will be important in keeping our tech stack scalable and secure.
Most organizations are behind on AI. This one puts you at the frontier. You'll develop a deep understanding of how agentic automation transforms organizations and play an active part in moving it forward.
Core Responsibilities
- Contribute to our Go, gRPC, protobuf codebase
- Improve and automate our deployment and release process (Kubernetes/Helm + CI/CD)
- Build automated release validation (metrics/dashboards/alerts) to support safer canary rollouts and promotion
- Strengthen observability across services (metrics, tracing, profiling) and improve alert quality and signal-to-noise
- Partner with teams on reliability practices (runbooks, incident response improvements, postmortem follow-ups) and operational best practices
Required Qualifications
- 3+ years of relevant engineering experience (SRE, platform, infra/software, or backend with strong ops ownership)
- Strong Golang experience in production
- Hands-on experience with Kubernetes and Helm
- Experience with Terraform (or equivalent IaC) and modern CI/CD workflows
- Familiarity with cloud infrastructure (preferably GCP)
- Strong communication, autonomy, and ability to drive cross-team improvements.
Preferred Qualifications
- Experience with Grafana/Prometheus-style monitoring, OpenTelemetry, tracing, profiling, and practical alert design
- Experience implementing progressive delivery patterns (canary/blue-green) and rollbacks
- Experience working on incident management/on-call processes
- Experience with Claude Code
Why Optable
- Competitive salary and equity package
- Comprehensive health insurance coverage
- Hybrid work model
- Professional development through mentoring and career coaching
- Hands-on experience with agentic AI
- Small senior team, low bureaucracy, no jerks policy
- Daily in-office lunches
Ingénieur(e) en fiabilité des sites (SRE)
Lieu : Montréal, QC (mode de travail hybride)
Type d’emploi : Temps plein
Relève de : Staff Software Engineer
À propos d’Optable
Optable est une plateforme canadienne soutenue par des investisseurs importants qui aide les éditeurs, annonceurs et entreprises médiatiques à gérer les identités et les audiences dans une ère axée sur la protection de la vie privée. Récemment reconnue comme lauréate du prix Deloitte Technology Fast 50 dans la catégorie Enterprise Industry Leaders, nous construisons un avenir où des agents d’IA automatisent les flux de travail complexes de la publicité numérique. Nous sommes une startup en forte croissance qui valorise l’exécution, l’innovation et une politique de « no jerks ».
Le rôle
Nous recrutons notre premier(e) ingénieur(e) en fiabilité des sites (SRE) pour améliorer la façon dont nous livrons et exploitons les logiciels en production. Vous travaillerez en étroite collaboration avec les équipes d’ingénierie et d’infrastructure cloud afin d’accroître la vitesse de déploiement, réduire les frictions liées aux mises en production et améliorer nos standards d’observabilité et de fiabilité.
Il s’agit d’un rôle de développement : vous écrirez du code Go en production et développerez des automatisations qui rendent les déploiements plus sûrs et reproductibles.
Pourquoi ce rôle est différent
Optable développe des produits d’IA, que nous utilisons également à l'interne. Vous aurez un rôle-clé pour maintenir une infrastructure technologique évolutive et sécurisée.
La plupart des organisations sont en retard sur l’IA. Celle-ci vous place à l’avant-garde. Vous développerez une compréhension approfondie de la transformation des organisations par l’automatisation agentique et jouerez un rôle actif dans son évolution.
Responsabilités principales
- Contribuer à notre base de code en Go, gRPC et protobuf
- Améliorer et automatiser nos processus de déploiement et de mise en production (Kubernetes/Helm + CI/CD)
- Mettre en place des validations automatiques des releases (indicateurs, tableaux de bord, alertes) pour sécuriser les déploiements progressifs (canary) et les promotions
- Renforcer l’observabilité des services (indicateurs, traçage, profiling) et améliorer la qualité des alertes
- Collaborer avec les équipes sur les pratiques de fiabilité (runbooks, gestion des incidents, postmortems) et les meilleures pratiques opérationnelles
Qualifications requises
- 3+ ans d’expérience pertinente en ingénierie (SRE, plateforme, infrastructure/logiciel ou backend avec forte responsabilité opérationnelle)
- Solide expérience en Go (Golang) en production
- Expérience pratique avec Kubernetes et Helm
- Expérience avec Terraform (ou équivalent IaC) et des workflows CI/CD modernes
- Connaissance des infrastructures cloud (idéalement GCP)
- Excellentes compétences en communication, autonomie et capacité à conduire des améliorations au sein des différentes équipes
Qualifications souhaitées
- Expérience avec Grafana/Prometheus, OpenTelemetry, traçage, profiling et conception d’alertes efficaces
- Expérience avec les stratégies de déploiement progressif (canary, blue-green) et les mécanismes de rollback
- Expérience en gestion d’incidents et “on-call”
- Expérience avec Claude Code
Pourquoi Optable
- Salaire compétitif et participation en actions
- Assurance santé complète
- Mode de travail hybride
- Développement professionnel (mentorat et coaching de carrière)
- Expérience concrète avec l’IA agentique
- Petite équipe senior, faible bureaucratie, politique « no jerk »
- Lunchs quotidiens offerts au bureau