关于 Atlas Cloud
Atlas Cloud 是一家快速发展的 AI 基础设施初创公司,专注于模型即服务( MaaS ) 和 基础设施即服务( IaaS )。
公司总部位于纽约,在硅谷、北京和加拿大卡尔加里设有团队,为全球客户提供 大语言模型( LLM )训练、微调与推理服务所需的 GPU 与云基础设施。
我们正在构建面向下一代 AI 应用的高性能计算平台。
We are hiring-
一、图视频大模型算法工程师
你的工作将包括:
1 、负责开源图视频生成模型的深度微调与二次训练,结合业务场景进行领域适配;
2 、针对推理效率瓶颈,开展模型量化、蒸馏、步数压缩(如一致性蒸馏、Flow Matching 加速)等工程优化;
3 、设计并实现动态分块推理、显存优化等长视频工程落地策略,满足在线/离线生产环境需求。
4 、持续跟踪业界先进图视频生成算法,包括但不限于数字人驱动、流式视频增强、视频修复/编辑、音视频同步等方向;
5 、对重点开源项目进行复现与效果评估,产出横向对比报告,提炼可落地的技术点;
6 、从零设计并构建图视频生成方向的算法评价集,覆盖主观质量、时序一致性、文字渲染、语义对齐等多维度;制定自动化评估 pipeline ,降低人工评测成本;
7 、将项目中的技术方案、踩坑经验、实验结论以高质量中文/英文技术博客的形式输出,发布于团队技术公众号或个人技术主页;
8 、参与开源社区建设,对内提供可复用的技术文档与 Notebook ,提升团队整体研发效率。
我们寻找这样的你:
1 、计算机、电子工程、数学或相关专业本科及以上学历,3 年以上算法工程经验;
2 、扎实的深度学习基础,熟悉 Transformer 、扩散模型( DDPM / DDIM / Flow Matching )等核心架构;
3 、熟练掌握 PyTorch ,有大规模模型训练(多机多卡 / DeepSpeed / FSDP )实战经验;
4 、有图像或视频生成相关项目落地经验(含模型微调、数据工程、推理优化中的至少一项);
5 、良好的代码质量意识,能独立设计并实现完整的训练/推理 pipeline 。
加分项( 1-2 项优先)
1 、有视频扩散模型微调经验;
2 、有强化学习后训练( RLHF / GRPO / DPO )应用于生成模型的实践经验;
3 、了解数字人生成( SadTalker / LivePortrait / Hallo 等)或流式视频增强算法;
4 、有 ControlNet 、IPAdapter 、LoRA 等条件注入方法的工程落地经验;
5 、有开源社区贡献记录( GitHub star 项目 / 技术博客 / 顶会论文);
6 、完整算法评价集设计与自动化评测 pipeline 搭建经验;
7 、有长视频推理优化(分块策略、KV Cache 复用、镜头检测集成等)工程经验。
二、AI 基础设施工程师
你的工作将包括:
1 、负责大模型推理服务在自有 GPU 集群上的全栈部署,覆盖服务发现、请求路由、推理 Worker 各组件的安装、配置与上线;
2 、 和运维同事一起管理推理集群基础设施层,包括 GPU 驱动、CUDA 工具链、高速网络互联( InfiniBand/RoCE )及存储栈的日常维护;
3 、配置并调优节点间高性能数据传输层,确保 KV cache 在跨节点 Worker 间的高效传输;
4 、搭建推理集群的完整可观测性体系,持续监控 TTFT 、ITL 、吞吐量、缓存命中率等核心指标;
5 、协同 AI 推理团队完成模型上线,支持主流开源推理引擎(覆盖 vLLM / SGLang / TensorRT-LLM )的接入、切换与版本管理;
6 、负责推理服务的容量规划与性能瓶颈分析,具备独立排查多机多卡分布式推理问题的能力。
我们寻找这样的你:
1 、3 年以上 Linux 系统后端基础设施开发经验,熟悉 Python ,golang 能独立阅读和修改工程级项目代码;
2 、 熟悉容器化技术( Docker ),熟悉 Kubernetes 各项操作;
3 、 具备 NVIDIA GPU 服务器实际运维经验,能独立完成驱动、CUDA 、NCCL 等环境搭建,能独立处理 InfiniBand / RoCE 网络环境下的 RDMA 配置问题;
4 、熟悉分布式系统基础概念:服务发现、消息队列、负载均衡;
5 、有在多机 GPU 集群上部署过至少一种分布式 LLM 推理框架的实际经验( vLLM 、SGLang 、TensorRT-LLM 等均可);
6 、具备基本的性能调优能力:能读懂 Prometheus 指标、定位推理延迟瓶颈;
加分项(具备任意一项均视为强加分)
1 、有 NVIDIA Dynamo 实际部署经验,熟悉其 disaggregated serving 、KV-aware routing 、NIXL 传输架构优化;
2 、有 prefill / decode 分离架构的分布式推理部署经验,熟悉 KV cache 感知路由机制;
3 、了解 KV cache 分层存储( GPU VRAM → CPU RAM → NVMe → 对象存储)及其性能特征;
4 、⭐ 熟悉 GPUDirect RDMA / GPUDirect Storage 等高性能 GPU 数据通路。
三、AI Agent 开发工程师 (创新原型)
你的工作将包括:
1. 快速原型实现 (MVP Execution): 根据公司战略及业务部门的创新需求,快速构建 AI Agent 或自动化工具的原型。
2. 业务需求转化: 深度理解业务逻辑,并将其转化为技术实现方案。
3. 技术探索与应用: 追踪全球最前沿的 AI 技术、开源项目及工具,并将其应用到实际开发中以提升交付效率。
4. 快速迭代优化: 基于业务反馈,对产品进行极速调整,通过技术手段不断优化工具的准确率和易用性。
我们寻找这样的你:
1. AI 赋能的开发效率 (AI-Native Developer):
- 你不需要是某个特定语言的死忠粉,但你必须是 AI Coding (如 Cursor, Claud Code, Codex 等) 的重度使用者。
- 能够熟练利用各类 AI 辅助工具进行“高并发”开发。
2. 全栈实现能力:
- 具备快速搭建前后端应用的能力(如 Python/FastAPI, Next.js/TypeScript 等)。
- 熟悉主流 Agent 开发框架(如 Dify, Coze, LangChain 等)或低代码/无代码工具。
3. 敏锐的产品感 (Product Sense):
- 能够听懂业务语言,理解“为什么要做这个”,并能主动提出比原始需求更好的技术实现方案。
4. 技术好奇心与自主学习:
- 你是新技术的早期采用者,喜欢折腾新鲜玩意儿。
5. 基础沟通与英语能力:
- 能够流畅阅读英文技术文档及社区动态( GitHub/Discord/X ),具备基础的英文交流能力。
[加分项]
- 在 GitHub 或社交媒体分享过自己独立开发的 AI 小工具或 Agent 。
- 有成功通过自动化技术解决业务问题(如爬虫、工作流自动化、数据清洗)的实战经验。
- 曾有过创业经历或在初创团队担任过核心开发者。
你将获得:
1 、具有竞争力的薪资;
2 、五险一金,节假日福利;
3 、良好的办公环境,轻松的办公氛围。
办公室地址:北京市海淀区融科资讯中心
请将您的简历发送至 jenny.luo@atlascloud.ai(标题:应聘岗位+姓名),期待您的加入!!!