<h2>¿Cual es el perfil?</h2>
Buscamos una persona apasionada por la extracción y transformación de datos a gran escala, a quien le guste encontrar soluciones creativas para acceder, estructurar y normalizar información de fuentes web diversas y complejas. Debes ser una persona analítica, persistente e ingeniosa, capaz de adaptarse rápidamente a cambios en las fuentes de datos y enfrentar desafíos como CAPTCHAs, sitios dinámicos y mecanismos anti-bot. Tu perfil debe estar orientado a construir pipelines de extracción robustos, escalables y mantenibles, con conocimientos sólidos en Python y automatización de navegadores.
<h2>Funciones y responsabilidades:</h2>
* Diseñar, desarrollar y mantener scrapers y crawlers robustos para la extracción masiva de datos de fuentes web públicas, incluyendo sitios con renderizado dinámico (JavaScript).
* Implementar y administrar granjas de automatización de navegadores (Playwright, Selenium) capaces de operar decenas de sesiones concurrentes de forma estable.
* Desarrollar estrategias de evasión y adaptación frente a mecanismos anti-bot, CAPTCHAs, rate limiting y cambios estructurales en las fuentes de datos.
* Diseñar pipelines de procesamiento y normalización de datos extraídos, asegurando calidad, consistencia y trazabilidad de la información.
* Implementar sistemas de monitoreo, alertas y reintentos automáticos para garantizar la disponibilidad continua de los procesos de extracción.
* Optimizar el rendimiento y consumo de recursos de los scrapers, incluyendo gestión de proxies, rotación de identidades y paralelismo.
* Documentar fuentes de datos, lógica de extracción y reglas de negocio asociadas a cada scraper.
* Trabajar estrechamente con el equipo de backend y producto para integrar los datos extraídos en los servicios y APIs de la plataforma.
<h2>Requisitos:</h2>
* Mínimo 2 años de experiencia en web scraping y extracción de datos a escala con Python.
* Dominio de librerías y frameworks de scraping: Scrapy, BeautifulSoup, lxml, Requests, HTTPX.
* Experiencia sólida con automatización de navegadores headless: Playwright (preferido) o Selenium.
* Conocimiento en manejo de proxies, rotación de IPs y técnicas anti-detección.
* Experiencia con bases de datos NoSQL (MongoDB) y/o relacionales (PostgreSQL).
* Conocimiento en administración y desarrollo en entornos Linux.
* Experiencia con Docker y despliegue de servicios en la nube (AWS deseable).
* Capacidad para analizar y parsear estructuras HTML/CSS complejas, así como consumir APIs no documentadas.
Requisitos deseables:
* Experiencia con colas de tareas y procesamiento asíncrono (Celery, Redis, asyncio).
* Conocimiento en resolución automatizada de CAPTCHAs (servicios de terceros o ML).
* Familiaridad con herramientas de orquestación y monitoreo (Grafana, Prometheus).
* Experiencia manejando alto volumen de datos y sesiones concurrentes (+50 sesiones simultáneas).
<h2>¿Qué te ofrecemos?</h2>
* Contrato a término indefinido.
* Salario: Entre $5.500.000 y $7.500.000.
* Teletrabajo híbrido.
* Bonos por cumplimiento de metas trimestrales.
* Clases de yoga.
* Clases de inglés.
* Fondo de empleados.
* Cartera de puntos.