Vaga de Pessoa Engenheira de Dados
1 vaga: | Publicada em 04/07
- A combinar
Sobre a vaga
About the opportunity:Estamos buscando uma pessoa engenheira de dados para atuar em projetos de sistemas de processamento de dados, criando pipelines de dados para ingerir, transformar, orquestrar e expor fluxos de dados complexos, tanto com modelo batch e streaming, trabalhando com dados estruturados e não estruturados, desenvolvendo data lake, lake house e plataformas e serviços de dados. Responsibilities:
Processar e gerenciar grandes conjuntos de dados para atingir as metas de negócios.Desenvolver, orquestrar e manter pipelines de dados.Avaliar conjuntos de dados e arquivos de dados quanto à eficiência, precisão e qualidade, atualizando dados, indexando, transmitindo e mantendo-os no data lake.Criação e exposição de serviços de dados através de APIs. Required Qualifications:
Habilidades de programação e engenharia de software (Python).Experiência em criar, organizar e orquestrar pipelines de dados.Experiência com processamento de dados utilizando APIs de ML do GCP (speech-to-text, natural language AI API Gemini).Entenda como e quando aplicar conceitos de dados, como:
data lakes, data warehouses, data marts, catálogos de dados, linhagem de dados.Princípios de modelagem de dados e armazenamento de dados com conhecimento prático de SQL.Colabore com equipes de engenharia e ciência de dados para implementar práticas recomendadas de fluxo Git para controle de versão.Experiência de trabalho em ambiente Cloud (Preferencialmente Google Cloud).Experiência anterior com produtos de dados GCP (BigQuery, Pub/Sub, Cloud Run, Cloud Functions e Vertex AI).Experiência com aplicações conteinerizadas utilizando Docker e Kubernetes. Nice to Have:
Experiência anterior com ferramentas de Big Data como:
MapReduce, Hadoop, Hive e/ou Pig, Spark.Experiência anterior escrevendo jobs no
Spark e com ferramenta de orquestração (Airflow, entre outros).Experiência em
trabalhar com streaming de dados em tempo real.Experiência com grandes sistemas
distribuídos.Experiência com automatização e orquestração de pipelines de
treinamento ML utilizando Vertex AI Pipelines, Kubeflow Pipelines.Experiência
anterior com criação e gerenciamento de infraestrutura como modelos de código
usando ferramentas como Terraform ou CloudFormation.Experiência trabalhando com
design, implementação e manutenção de pipelines CI/CD para projetos relacionados a
dados. MapReduce, Hadoop, Hive e/ou Pig, Spark.Experiência anterior escrevendo jobs no Spark e com ferramenta de orquestração (Airflow, entre outros).Experiência em trabalhar com streaming de dados em tempo real.Experiência com grandes sistemas distribuídos.Experiência com automatização e orquestração de pipelines de treinamento ML utilizando Vertex AI Pipelines, Kubeflow Pipelines.Experiência anterior com criação e gerenciamento de infraestrutura como modelos de código usando ferramentas como Terraform ou CloudFormation.Experiência trabalhando com design, implementação e manutenção de pipelines CI/CD para projetos relacionados a dados.