[酷工作] [AI 公司招聘] AI 方向工程师（北京、远程不限）

关于 Atlas Cloud
Atlas Cloud 是一家快速发展的 AI 基础设施初创公司，专注于模型即服务（ MaaS ）和基础设施即服务（ IaaS ）。
公司总部位于纽约，在硅谷、北京和加拿大卡尔加里设有团队，为全球客户提供大语言模型（ LLM ）训练、微调与推理服务所需的 GPU 与云基础设施。
我们正在构建面向下一代 AI 应用的高性能计算平台。
We are hiring-
一、图视频大模型算法工程师
你的工作将包括：
1 、负责开源图视频生成模型的深度微调与二次训练，结合业务场景进行领域适配；
2 、针对推理效率瓶颈，开展模型量化、蒸馏、步数压缩（如一致性蒸馏、Flow Matching 加速）等工程优化；
3 、设计并实现动态分块推理、显存优化等长视频工程落地策略，满足在线/离线生产环境需求。
4 、持续跟踪业界先进图视频生成算法，包括但不限于数字人驱动、流式视频增强、视频修复/编辑、音视频同步等方向；
5 、对重点开源项目进行复现与效果评估，产出横向对比报告，提炼可落地的技术点；
6 、从零设计并构建图视频生成方向的算法评价集，覆盖主观质量、时序一致性、文字渲染、语义对齐等多维度；制定自动化评估 pipeline ，降低人工评测成本；
7 、将项目中的技术方案、踩坑经验、实验结论以高质量中文/英文技术博客的形式输出，发布于团队技术公众号或个人技术主页；
8 、参与开源社区建设，对内提供可复用的技术文档与 Notebook ，提升团队整体研发效率。
我们寻找这样的你：
1 、计算机、电子工程、数学或相关专业本科及以上学历，3 年以上算法工程经验；
2 、扎实的深度学习基础，熟悉 Transformer 、扩散模型（ DDPM / DDIM / Flow Matching ）等核心架构；
3 、熟练掌握 PyTorch ，有大规模模型训练（多机多卡 / DeepSpeed / FSDP ）实战经验；
4 、有图像或视频生成相关项目落地经验（含模型微调、数据工程、推理优化中的至少一项）；
5 、良好的代码质量意识，能独立设计并实现完整的训练/推理 pipeline 。
加分项（ 1-2 项优先）
1 、有视频扩散模型微调经验；
2 、有强化学习后训练（ RLHF / GRPO / DPO ）应用于生成模型的实践经验；
3 、了解数字人生成（ SadTalker / LivePortrait / Hallo 等）或流式视频增强算法；
4 、有 ControlNet 、IPAdapter 、LoRA 等条件注入方法的工程落地经验；
5 、有开源社区贡献记录（ GitHub star 项目 / 技术博客 / 顶会论文）；
6 、完整算法评价集设计与自动化评测 pipeline 搭建经验；
7 、有长视频推理优化（分块策略、KV Cache 复用、镜头检测集成等）工程经验。
二、AI 基础设施工程师
你的工作将包括：
1 、负责大模型推理服务在自有 GPU 集群上的全栈部署，覆盖服务发现、请求路由、推理 Worker 各组件的安装、配置与上线；
2 、和运维同事一起管理推理集群基础设施层，包括 GPU 驱动、CUDA 工具链、高速网络互联（ InfiniBand/RoCE ）及存储栈的日常维护；
3 、配置并调优节点间高性能数据传输层，确保 KV cache 在跨节点 Worker 间的高效传输；
4 、搭建推理集群的完整可观测性体系，持续监控 TTFT 、ITL 、吞吐量、缓存命中率等核心指标；
5 、协同 AI 推理团队完成模型上线，支持主流开源推理引擎（覆盖 vLLM / SGLang / TensorRT-LLM ）的接入、切换与版本管理；
6 、负责推理服务的容量规划与性能瓶颈分析，具备独立排查多机多卡分布式推理问题的能力。
我们寻找这样的你：
1 、3 年以上 Linux 系统后端基础设施开发经验，熟悉 Python ，golang 能独立阅读和修改工程级项目代码；
2 、熟悉容器化技术（ Docker ），熟悉 Kubernetes 各项操作；
3 、具备 NVIDIA GPU 服务器实际运维经验，能独立完成驱动、CUDA 、NCCL 等环境搭建，能独立处理 InfiniBand / RoCE 网络环境下的 RDMA 配置问题；
4 、熟悉分布式系统基础概念：服务发现、消息队列、负载均衡；
5 、有在多机 GPU 集群上部署过至少一种分布式 LLM 推理框架的实际经验（ vLLM 、SGLang 、TensorRT-LLM 等均可）；
6 、具备基本的性能调优能力：能读懂 Prometheus 指标、定位推理延迟瓶颈；
加分项（具备任意一项均视为强加分）
1 、有 NVIDIA Dynamo 实际部署经验，熟悉其 disaggregated serving 、KV-aware routing 、NIXL 传输架构优化；
2 、有 prefill / decode 分离架构的分布式推理部署经验，熟悉 KV cache 感知路由机制；
3 、了解 KV cache 分层存储（ GPU VRAM → CPU RAM → NVMe → 对象存储）及其性能特征；
4 、⭐ 熟悉 GPUDirect RDMA / GPUDirect Storage 等高性能 GPU 数据通路。
三、AI Agent 开发工程师 (创新原型)
你的工作将包括：
1. 快速原型实现 (MVP Execution)：根据公司战略及业务部门的创新需求，快速构建 AI Agent 或自动化工具的原型。
2. 业务需求转化：深度理解业务逻辑，并将其转化为技术实现方案。
3. 技术探索与应用：追踪全球最前沿的 AI 技术、开源项目及工具，并将其应用到实际开发中以提升交付效率。
4. 快速迭代优化：基于业务反馈，对产品进行极速调整，通过技术手段不断优化工具的准确率和易用性。
我们寻找这样的你：
1. AI 赋能的开发效率 (AI-Native Developer)：
- 你不需要是某个特定语言的死忠粉，但你必须是 AI Coding （如 Cursor, Claud Code, Codex 等）的重度使用者。
- 能够熟练利用各类 AI 辅助工具进行“高并发”开发。
2. 全栈实现能力：
- 具备快速搭建前后端应用的能力（如 Python/FastAPI, Next.js/TypeScript 等）。
- 熟悉主流 Agent 开发框架（如 Dify, Coze, LangChain 等）或低代码/无代码工具。
3. 敏锐的产品感 (Product Sense)：
- 能够听懂业务语言，理解“为什么要做这个”，并能主动提出比原始需求更好的技术实现方案。
4. 技术好奇心与自主学习：
- 你是新技术的早期采用者，喜欢折腾新鲜玩意儿。
5. 基础沟通与英语能力：
- 能够流畅阅读英文技术文档及社区动态（ GitHub/Discord/X ），具备基础的英文交流能力。
[加分项]
- 在 GitHub 或社交媒体分享过自己独立开发的 AI 小工具或 Agent 。
- 有成功通过自动化技术解决业务问题（如爬虫、工作流自动化、数据清洗）的实战经验。
- 曾有过创业经历或在初创团队担任过核心开发者。
你将获得：
1 、具有竞争力的薪资；
2 、五险一金，节假日福利；
3 、良好的办公环境，轻松的办公氛围。
办公室地址：北京市海淀区融科资讯中心
请将您的简历发送至 jenny.luo@atlascloud.ai(标题：应聘岗位+姓名），期待您的加入！！！