Ir para o conteúdo
Logotipo da Catho
Seu novo emprego está na palma das suas mãos! Baixe nosso app e obtenha vantagens :)
Botão App StoreBotão Play Store

Vaga de Pessoa Engenheira de Dados

1 vaga: | Publicada em 04/07

Sobre a vaga

About the opportunity:Estamos buscando uma pessoa engenheira de dados para atuar em projetos de sistemas de processamento de dados, criando pipelines de dados para ingerir, transformar, orquestrar e expor fluxos de dados complexos, tanto com modelo batch e streaming, trabalhando com dados estruturados e não estruturados, desenvolvendo data lake, lake house e plataformas e serviços de dados. Responsibilities: Processar e gerenciar grandes conjuntos de dados para atingir as metas de negócios.Desenvolver, orquestrar e manter pipelines de dados.Avaliar conjuntos de dados e arquivos de dados quanto à eficiência, precisão e qualidade, atualizando dados, indexando, transmitindo e mantendo-os no data lake.Criação e exposição de serviços de dados através de APIs. Required Qualifications: Habilidades de programação e engenharia de software (Python).Experiência em criar, organizar e orquestrar pipelines de dados.Experiência com processamento de dados utilizando APIs de ML do GCP (speech-to-text, natural language AI API Gemini).Entenda como e quando aplicar conceitos de dados, como: data lakes, data warehouses, data marts, catálogos de dados, linhagem de dados.Princípios de modelagem de dados e armazenamento de dados com conhecimento prático de SQL.Colabore com equipes de engenharia e ciência de dados para implementar práticas recomendadas de fluxo Git para controle de versão.Experiência de trabalho em ambiente Cloud (Preferencialmente Google Cloud).Experiência anterior com produtos de dados GCP (BigQuery, Pub/Sub, Cloud Run, Cloud Functions e Vertex AI).Experiência com aplicações conteinerizadas utilizando Docker e Kubernetes. Nice to Have: Experiência anterior com ferramentas de Big Data como: MapReduce, Hadoop, Hive e/ou Pig, Spark.Experiência anterior escrevendo jobs no Spark e com ferramenta de orquestração (Airflow, entre outros).Experiência em trabalhar com streaming de dados em tempo real.Experiência com grandes sistemas distribuídos.Experiência com automatização e orquestração de pipelines de treinamento ML utilizando Vertex AI Pipelines, Kubeflow Pipelines.Experiência anterior com criação e gerenciamento de infraestrutura como modelos de código usando ferramentas como Terraform ou CloudFormation.Experiência trabalhando com design, implementação e manutenção de pipelines CI/CD para projetos relacionados a dados. MapReduce, Hadoop, Hive e/ou Pig, Spark.Experiência anterior escrevendo jobs no Spark e com ferramenta de orquestração (Airflow, entre outros).Experiência em trabalhar com streaming de dados em tempo real.Experiência com grandes sistemas distribuídos.Experiência com automatização e orquestração de pipelines de treinamento ML utilizando Vertex AI Pipelines, Kubeflow Pipelines.Experiência anterior com criação e gerenciamento de infraestrutura como modelos de código usando ferramentas como Terraform ou CloudFormation.Experiência trabalhando com design, implementação e manutenção de pipelines CI/CD para projetos relacionados a dados.