您现在的位置是:首页 > 市场洞察

一日千星的机器学习系统设计指南,这个英伟达小姐姐的项目火了

加盟快讯 2025-12-11【市场洞察】5人已围观

简介机器之心整理机器之心编辑部教程地址:项目地址:从理论到实践,八千字教程解读ML系统设计该教程共包含四个部分:引言、机器学习系统的设计、案例教学和习题。其中,案例教学和习题部分分别包含10个生产环境经典案例和27个面试中可能遇到的问题。全书主要以方法论为主,重点在于提供相应的指导原则,帮助读者思考构建...

机器之心整理
机器之心编辑部

教程地址:

项目地址:

从理论到实践,八千字教程解读ML系统设计

该教程共包含四个部分:引言、机器学习系统的设计、案例教学和习题。其中,案例教学和习题部分分别包含10个生产环境经典案例和27个面试中可能遇到的问题。

全书主要以方法论为主,重点在于提供相应的指导原则,帮助读者思考构建系统的必要步骤。

引言

在第一部分,作者介绍了机器学习研究和生产的主要区别。这些区别体现在两个方面:性能需求和计算需求。

在性能需求方面,对于机器学习研究者而言,SOTA就是一切。他们会不惜使用各种复杂的技术及其组合来追求百分之一的性能提升,但这种提升在生产环境中可能并不适用,而且会因为过于复杂而消耗更多计算资源。

在计算需求方面,由于目前流行的大模型需要昂贵的计算资源,因此如果想把这些模型应用到生产环境中,还需要社区去探索模型压缩、预训练等技术,使得模型更小、更快。生产领域的开发者应该时刻牢记以生产为目标进行机器学习系统的设计。

机器学习系统设计四部曲

第二部分是这本书的核心内容,即如何设计一个机器学习系统。作者将这一设计过程分为四步:项目设置、数据pipeline、建模(选择、训练和调试模型)和服务(测试、部署和维护模型)。

作者提出的深度学习系统构建流程。

项目设置即对项目进行评估、设计的环节。这一环节的目标在于定义深度学习所需要解决的实际问题(产品的意义)、性能限制、项目限制、评估方法和个性化等。只有定义清楚项目的目标和实现方法,才能够确保构建的系统能够满足要求,解决实际问题。

数据是深度学习最不可或缺的部分,尽管研究领域的大部分模型都有着充足、平衡且干净的数据集,但是生产条件下则不一定。因此,系统设计中也需要考虑到数据的问题,包括如何获得可靠、充足、大量的数据,同时需要面对隐私保护、数据安全、数据存储和数据平衡方面的问题,并提供可行的解决方案。

在建模过程中,需要经过模型选型、训练、调试和评估几个环节。其中,在模型选择时需要考虑找到最合适的基准,如随机基准、人类基准或启发式基准。采用的模型则应当从简单到复杂,训练的过程也应当是从少量的数据开始,如果行得通就扩大模型规模,增加投入的数据批的大小,并进行调参工作。如果模型的推理性能不佳,则需要考虑是否是数据问题、错误的假设和模型/数据拟合,超参选择错误等。

10个经典案例

为了避免理论上的「纸上谈兵」,在全书的第三部分,作者提供了10个案例教学,用于帮助读者理解理论,学习实践。

阅读这些案例可以学到如何在生产环境中克服种种部署要求和约束。Airbnb、Lyft、Uber、Netflix等很多公司都开设了博客来介绍自己使用机器学习改进产品或生产流程的经验。需要面试的小伙伴可以经常浏览这些博客。本教程介绍了其中的一些精华案例,包括:

1.利用机器学习预测Airbnb上的房屋价值。

2.利用机器学习提高Netflix上的数据流质量。

3.

缤客网150个成功的机器学习模型:

从中学到的6个经验教训

4.从零到400万女性用户的时尚APP——Chicisimo。

5.用机器学习驱动Airbnb搜索体验。

6.Lyft公司的反欺诈机器学习系统。

7.Instacart外送服务中的路径优化。

8.Uber的大数据平台:具有分钟级延迟的100+Petabytes。

9.利用计算机视觉和深度学习来创建现代化的OCR管道。

10.利用Uber推出的Michelangelo机器学习平台来扩展机器学习。

27个练习题

最后,还有27个练习题可供上手尝试。习题的答案将在《MachineLearningInterviews》一书中给出。
想贡献答案的同学可以戳:

此外,作者提醒大家注意,这里的问题有些是模棱两可的。如果在面试中遇到这些问题,你需要引导面试官把问题描述清楚、缩小范围。

ChipHuyen是一位来自越南的作家和计算机科学家,现居于美国硅谷,就职于英伟达人工智能应用团队。

ChipHuyen。

她本科和硕士均就读于斯坦福大学计算机科学专业,曾开设和讲授课程《TensorFlowforDeepLearningResearch》。

她还曾协助推出越南第二受欢迎的网络浏览器CocCoc,每月活跃用户数量达2000万以上。

她目前正在进行的一些项目包括SOTAWHAT(查询和总结SOTA人工智能研究成果)、OpenSeq2Seq(利用语音识别、Text2Speech和NLP进行高效实验的工具包)以及FreeHugsVietnam(为越南青少年提供软技能的非盈利项目)等。

很赞哦!(1)