Technical Monitoring Operations
About DEUNA DEUNA is a rapidly growing startup revolutionizing global commerce with ATHIA, our AI-powered orchestration and payments platform that helps large enterprises boost approval rates, reduce costs, and unlock new revenue. Built by the team behind DEUNA—the fastest-growing Commerce OS in Latin America—ATHIA combines payment intelligence, checkout optimization, and data orchestration in one powerful solution.
With deep integrations across 300+ PSPs and alternative payment methods, and over 20% of Mexico’s digital economy running through our platform, we simplify global payments through a single integration and centralized reconciliation.We are a rapidly growing startup expanding into the U.S. to meet the urgent needs of large retailers, marketplaces, airlines, and QSRs. Join us to shape the future of payments!
Visit https://www.deuna.com/ to learn more about us!
Propósito del rol
Asegurar la correcta operación de la plataforma mediante el monitoreo continuo, detección temprana de incidentes y ejecución de procesos operativos definidos, contribuyendo a la estabilidad del servicio y continuidad de los comercios.
⚙️ Responsabilidades principales
Monitoreo y detección
- Monitorear de forma continua la infraestructura, aplicaciones y flujos transaccionales.
- Detectar alertas y anomalías a través de herramientas de monitoreo.
- Ejecutar pruebas funcionales básicas para validar el correcto funcionamiento de los servicios.
Gestión de alertas e incidentes
- Recepción y triaje inicial de alertas (Rootly u otras herramientas).
- Clasificación de incidentes según severidad (S0, S1, S2) siguiendo lineamientos definidos.
- Ejecución de troubleshooting inicial (validaciones básicas, revisión de logs y métricas).
- Seguimiento de incidentes hasta su resolución o correcto escalamiento.
Importante: No se espera resolución avanzada, sino diagnóstico inicial correcto + escalamiento oportuno.
Escalamiento y coordinación
- Escalar incidentes cuando corresponda, siguiendo la matriz definida.
- Proveer información clara al escalar:
- Contexto del incidente
- Impacto inicial
- Evidencia (logs, errores, screenshots)
- Dar seguimiento activo a los casos escalados.
Soporte y comunicación
- Gestión de tickets en Zendesk u Jira como herramientas de soporte.
- Comunicación con equipos internos (Soporte, Customer Success, Ingeniería, infraestructura).
- Apertura y seguimiento de canales de comunicación durante incidentes.
- Mantener comunicación clara y oportuna durante eventos operativos.
Validación operativa
- Ejecutar pruebas funcionales en comercios (checkouts, integraciones, flujos de pago).
- Validar operación antes y después de despliegues.
- Apoyar en sesiones de despliegue siguiendo checklists definidos.
⚙️ Operación de comercios
- Realizar configuraciones operativas básicas:
- Métodos de pago
- Parámetros de comercios
- Validaciones en entornos (Prod, Staging, Sandbox)
- Ejecutar tareas operativas recurrentes siguiendo procedimientos.
Reporting básico
- Generar reportes operativos bajo demanda.
- Registrar correctamente incidentes y actividades en las herramientas internas.
Adopción de conocimiento
- Participar en capacitaciones de nuevas funcionalidades.
- Revisar documentación y grabaciones cuando sea necesario.
- Seguir runbooks y procedimientos establecidos.
Requisitos técnicos
Conocimientos obligatorios
- 1–3 años de experiencia en roles de:
- Monitoreo
- Soporte técnico
- NOC / operaciones
- Conocimiento básico de:
- APIs (concepto de request/response)
- Logs y métricas
- Flujo de sistemas web
️ Herramientas (deseable)
- Monitoreo: Grafana, Rootly, Opsgenie o similares
- Incident Management: Rootly, Jira
- Ticketing: Zendesk, Jira o similares
- Logs: Cloudwatch, Splunk o similares
Habilidades técnicas
- Capacidad de seguir procesos técnicos (runbooks)
- Troubleshooting básico (identificación, no resolución compleja)
- Uso de herramientas como:
- Postman (básico)
- SQL básico (consultas simples – deseable)
KPIs del rol
- Tiempo de detección de incidentes (MTTD)
- Tiempo de escalamiento
- Cumplimiento de SLA operativos
- Calidad del registro de incidentes
- Reducción de errores operativos
Condiciones
- Turnos rotativos (operación 24/7)
- Participación en guardias (según necesidad)
- Trabajo en entornos de alta disponibilidad