【天极网服务器频道】在10月10日的英伟达GTC大会上,该公司发布了RAPIDS开源GPU加速平台,对于这家以“硬件”为主要标签的公司来说,创始人黄仁勋在GTC大会上花了很大的篇幅来介绍这款软件产品,以及这款产品之所以被推出的背景。
在不久后,在英伟达北京办公室召开了一次媒体讲解会,NVIDIA亚太区解决方案架构高级总监赵立威,就这款GPU加速平台上市的市场背景和重点技术细节进行了详细的沟通。
容易被忽视的200亿美金市场
“在数据科学领域中,虽然近两年谈得比较多的是人工智能和深度学习,但机器学习市场相对于深度学习市场存在的时间更长,在长达十几到二十几年的发展过程中,如今将会爆发很大的市场价值,市场容量将会在200亿美金左右。”赵立威说,“如果把数据分析(大数据分析)市场作为HPC的一个细分领域,这个市场会更大,差不多应该会在360亿美金左右。”
另一方面,“数据驱动”成了越来越多企业用来增强自己核心竞争力的手段。例如亚马逊,有三分之一左右的采购行为,是通过系统来推荐的。类似的案例还发生在零售、保险、金融等各个领域。“现在一旦离开数据,离开所谓的大数据决策支持系统,很多商业行为已经变得不可想象。”
那么,为什么英伟达选择在这个时间点推出这样一款产品?笔者在媒体介绍会中,梳理了关于RAPIDS的几个关键词:1.它是开源的;2.它是一个软件的平台;3.它是面向数据科学以及机器学习市场的。
数据科学家:不是在喝咖啡,就是在喝咖啡的路上,然而这种生活将被RAPIDS所终结
数据科学家是一个全世界每个人都想做的工作。因为他们以前有很多时间喝咖啡。他们不是在喝咖啡,就是在去喝咖啡的路上。因为在数据准备的阶段,要把数据集宕下来,可能动不动就是G或T级别的很大一个数据包。下载之后需要进行处理,ETL数据抽取、数据转换和数据加载的过程,这时候就可以喝咖啡去了,因为基于CPU整个数据的加载和数据的计算过程是非常耗时的。但对于数据科学家来说,有很多时间可以享受悠闲的咖啡生活。但对于IT manager或者企业管理者来说,就不是一件让人开心的事情了。当你希望从一个数据里面找到一个决策过程支持结果的时候,如果需要花几十个小时、几天甚至于几周时间的时候,这对于企业的决策者来说是不可想象的。“这些判断应该是秒级甚至毫秒级的,每一次判断,当鼠标滑动过程的时候,就应该已经判断好了。”赵立威说。
RAPIDS软件平台帮助数据科学家显著提高了工作绩效,“数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速,“NVIDIA创始人兼首席执行官黄仁勋在GPU技术大会主旨演讲中发布RAPIDS时表示,”全球最大的行业均在海量服务器上运行机器学习算法,目的在于了解所在市场和环境中的复杂模式,同时迅速、精准地做出将直接影响其基础的预测。 “数据科学家使用加速服务以后,数据加载处理等部分的过程就会变得很短了。数据科学家可以参与到要发挥他的主观能动性的分析过程中,而因为GPU加速还可以提高分析精度。
据天极网了解,RAPIDS已为GPU加速分析和机器学习提供了一整套开源库,数据可视化即将是下一个目标。RAPIDS第一次为数据科学家提供了他们需要用来在GPU上运行整个数据科学管线的工具。最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2 系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍。这可帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟,具体取决于其数据集的规模。
“开源”的两大含义
据了解,RAPIDS构建于Apache Arrow、pandas和scikit-learn等流行的开源项目之上,为最流行的Python数据科学工具链带来了GPU提速。为了将更多的机器学习库和功能引入RAPIDS,NVIDIA广泛地与开源生态系统贡献者展开合作 ,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs 负责人兼Apache Arrow缔造者Wes McKinney以及迅速增长的Python数据科学库pandas等等。 而据赵立威介绍,开源有两大含义,除了RAPIDS跟很多开源社区所保持的紧密合作关系,其次,RAPIDS平台本身是开源的,“我们希望通过这种方式,可以有更多开源的朋友,来贡献他们的代码、分享智慧,不断的完善整个平台上面新的、丰富它的基础特性,未来服务更多的场景。”
另据了解,除了英伟达的DGX-2、DGX-1、DGX station,RAPIDS还支撑多款基于HGX-1、HGX-2这两种架构的服务器产品。
在不久后,在英伟达北京办公室召开了一次媒体讲解会,NVIDIA亚太区解决方案架构高级总监赵立威,就这款GPU加速平台上市的市场背景和重点技术细节进行了详细的沟通。
容易被忽视的200亿美金市场
“在数据科学领域中,虽然近两年谈得比较多的是人工智能和深度学习,但机器学习市场相对于深度学习市场存在的时间更长,在长达十几到二十几年的发展过程中,如今将会爆发很大的市场价值,市场容量将会在200亿美金左右。”赵立威说,“如果把数据分析(大数据分析)市场作为HPC的一个细分领域,这个市场会更大,差不多应该会在360亿美金左右。”
另一方面,“数据驱动”成了越来越多企业用来增强自己核心竞争力的手段。例如亚马逊,有三分之一左右的采购行为,是通过系统来推荐的。类似的案例还发生在零售、保险、金融等各个领域。“现在一旦离开数据,离开所谓的大数据决策支持系统,很多商业行为已经变得不可想象。”
那么,为什么英伟达选择在这个时间点推出这样一款产品?笔者在媒体介绍会中,梳理了关于RAPIDS的几个关键词:1.它是开源的;2.它是一个软件的平台;3.它是面向数据科学以及机器学习市场的。
数据科学家:不是在喝咖啡,就是在喝咖啡的路上,然而这种生活将被RAPIDS所终结
数据科学家是一个全世界每个人都想做的工作。因为他们以前有很多时间喝咖啡。他们不是在喝咖啡,就是在去喝咖啡的路上。因为在数据准备的阶段,要把数据集宕下来,可能动不动就是G或T级别的很大一个数据包。下载之后需要进行处理,ETL数据抽取、数据转换和数据加载的过程,这时候就可以喝咖啡去了,因为基于CPU整个数据的加载和数据的计算过程是非常耗时的。但对于数据科学家来说,有很多时间可以享受悠闲的咖啡生活。但对于IT manager或者企业管理者来说,就不是一件让人开心的事情了。当你希望从一个数据里面找到一个决策过程支持结果的时候,如果需要花几十个小时、几天甚至于几周时间的时候,这对于企业的决策者来说是不可想象的。“这些判断应该是秒级甚至毫秒级的,每一次判断,当鼠标滑动过程的时候,就应该已经判断好了。”赵立威说。
RAPIDS软件平台帮助数据科学家显著提高了工作绩效,“数据分析和机器学习是高性能计算市场中最大的细分市场,不过目前尚未实现加速,“NVIDIA创始人兼首席执行官黄仁勋在GPU技术大会主旨演讲中发布RAPIDS时表示,”全球最大的行业均在海量服务器上运行机器学习算法,目的在于了解所在市场和环境中的复杂模式,同时迅速、精准地做出将直接影响其基础的预测。 “数据科学家使用加速服务以后,数据加载处理等部分的过程就会变得很短了。数据科学家可以参与到要发挥他的主观能动性的分析过程中,而因为GPU加速还可以提高分析精度。
据天极网了解,RAPIDS已为GPU加速分析和机器学习提供了一整套开源库,数据可视化即将是下一个目标。RAPIDS第一次为数据科学家提供了他们需要用来在GPU上运行整个数据科学管线的工具。最初的RAPIDS基准分析利用了XGBoost机器学习算法在NVIDIA DGX-2 系统上进行训练,结果表明,与仅有CPU的系统相比,其速度能加快50倍。这可帮助数据科学家将典型训练时间从数天减少到数小时,或者从数小时减少到数分钟,具体取决于其数据集的规模。
“开源”的两大含义
据了解,RAPIDS构建于Apache Arrow、pandas和scikit-learn等流行的开源项目之上,为最流行的Python数据科学工具链带来了GPU提速。为了将更多的机器学习库和功能引入RAPIDS,NVIDIA广泛地与开源生态系统贡献者展开合作 ,其中包括Anaconda、BlazingDB、Databricks、Quansight、scikit-learn、Ursa Labs 负责人兼Apache Arrow缔造者Wes McKinney以及迅速增长的Python数据科学库pandas等等。 而据赵立威介绍,开源有两大含义,除了RAPIDS跟很多开源社区所保持的紧密合作关系,其次,RAPIDS平台本身是开源的,“我们希望通过这种方式,可以有更多开源的朋友,来贡献他们的代码、分享智慧,不断的完善整个平台上面新的、丰富它的基础特性,未来服务更多的场景。”
另据了解,除了英伟达的DGX-2、DGX-1、DGX station,RAPIDS还支撑多款基于HGX-1、HGX-2这两种架构的服务器产品。