找回密码
 立即注册
查看: 729|回复: 3

为AI法式员减负!微软来源深度学习库SynapseML,撑持可扩展的智能

[复制链接]

1

主题

0

回帖

8

积分

新手上路

积分
8
发表于 2023-5-8 09:50:44 | 显示全部楼层 |阅读模式


智东西(公众号:zhidxcom)
编译 |  程茜
编纂 |  李水青
智东西11月18日动静,本周三,微软颁布发表开源一个简单、多语言的、大规模并行的机器学习库SynapseML(以前称为MMLSpark),以辅佐开发人员简化机器学习开发与部署。
即使对于最有经验的开发人员来说,构建机器学习管道也会很困难。对于初学者来说,组合来自分歧生态系统的东西需要大量代码,而且许多框架在设计时并没有考虑到处事器集群。数据科学团队在使用更多机器学习模型方面也面临越来越大的压力。
微软暗示,借助SynapseML,开发人员可以构建可扩展的智能系统来解决跨范围的挑战,包罗文本分析、翻译和语音措置。
SynapseML使开发人员能够将超过45种分歧的最先进机器学习处事直接嵌入到他们的系统和数据库中。
其最新版本增加了对分布式表单识别、对话转录和翻译的撑持,这些即用型算法可以解析各种文档、实时转录多个对话者的声音和翻译100多种分歧的语言。



▲开源机器学习库SynapseML界面
开源链接为:https://github.com/microsoft/SynapseML
一、五年沉淀,SynapseML直击AI落地痛点

SynapseML的构建基于微软强大的Spark(计算引擎)生态系统,包罗工业大数据措置范围的“网红”计算引擎Apache Spark、SparkML等。
SynapseML为Spark生态系统添加了许多深度学习和数据科学东西,包罗Spark机器学习构建流程以及其他深度学习东西的无缝集成。这些东西可为各种数据源提供强大且高度可扩展的预测和分析模型。
SynapseML库可用于Azure Synapse Analytics东西上,该东西能够按照算法运行需求或按照开发人员提前配置的资源,为AI模型收集、措置数据。
“在过去的五年中,我们一直致力于改良和不变用于出产工作负载的SynapseML库。使用Azure Synapse Analytics的开发人员将很高兴得知SynapseML此刻在这项处事上遍及可用,并提供企业处事。”微软软件工程师Mark Hamilton在一篇博客文章中写道。
AI技术的使用和分析能力逐渐增强,但大约87%的数据科学项目仍未财富化落地。按照美国AI算法交易处事平台Algorithmia比来的查询拜访,22%的公司需要一到三个月的时间来部署模型以实现业务价值,而18%的公司需要三个月以上的时间。
SynapseML将现有的机器学习框架和微软开发的算法打包,统一放到一个API中,以此来解决数据项目无法落地的挑战,该API可用在Python、R、Scala和Java中。SynapseML使开发人员能够辅佐需要多个框架的使用案例实现组合,例如创建搜索引擎,同时在可调整大小的计算机集群上训练和评估模型。
二、无监督学习功能,可填补研究空白

正如微软在该项目的网站上所解释的那样:“SynapseML中的东西允许用户制作跨越多个机器学习生态系统的强大且高度可扩展的模型。SynapseML还为Spark生态系统带来了新的网络功能。通过HTTP on Spark项目,用户可以将任何Web处事嵌入到他们的SparkML模型中,并使用他们的Spark集群进行大规模的工作。”



▲引擎库SynapseML架构
SynapseML还集成了开放神经网络交换 (ONNX),这是一个由微软和Meta(原Facebook)共同开发的框架,可以在运行时使用来自分歧机器学习生态系统的模型。通过集成,开发人员只需几行代码即可执行各种经典机器学习模型。
该API具有“无监督学习AI”的功能,包罗用于理解数据集不服衡的功能,例如种族或性别等敏感数据集特征是否被过度解读或无法识别,而无需标识表记标帜训练数据和模型的可解释性,也就是说明为什么模型会做出某些预测以及如何改良训练数据集。
SynapseML引入可以用于个性化保举的Vowpal Wabbit框架,以及强化学习的新算法模型contextual bandit,辅佐开发人员训练AI模型。
在不需要标识表记标帜数据集的情况下,无监督学习可以辅佐填补某些范围常识的空白。例如,Facebook比来发布的无监督模型SEER,可以在10亿张图像长进行训练,并能在一系列计算机视觉基准测试中取得较优秀的成果。
然而,无监督学习并不能消除系统预测中存在偏差或缺陷的可能性。一些专家认为,消除这些偏差可能需要对无监督模型进行专门培训,并使用额外的、较小的数据集来消除偏差。
“我们的方针是让开发人员免于担忧分布式实现细节的麻烦,并能够将它们部署到各种数据库、集群和编程语言中,而无需更改开发人员的代码。”Hamilton补充道。
结语:开源引擎库,促进算法落地

伴随着科技成长突飞大进,AI所引发的技术革命也在飞速成长,包罗机器学习等范围的AI研究在性能、效率上不竭升级的同时,其算法落地仍面临困境,无法大规模投入使用。
微软此次开源SynapseML库,不竭改良机器学习算法,将现有的机器学习框架和微软开发的算法统一,提高AI的数据措置和分析能力,进一步促进AI技术成长。
来源:VentureBeat

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有账号?立即注册

×
回复

使用道具 举报

0

主题

2

回帖

15

积分

新手上路

积分
15
发表于 2023-5-8 09:51:36 | 显示全部楼层
标题就错别字了 [发呆]
回复

使用道具 举报

0

主题

2

回帖

0

积分

新手上路

积分
0
发表于 2023-5-8 09:52:32 | 显示全部楼层
SynapseML是本组开源的项目,顺便打个广告:微软云计算(Azure)大数据部门机器学习平台组招前端、后端和算法,感兴趣的发简历到 wenqx@microsoft.com 我的个人主页有详细的岗位介绍。
回复

使用道具 举报

0

主题

5

回帖

2

积分

新手上路

积分
2
发表于 2023-5-8 09:53:03 | 显示全部楼层
有没有前端UI,不会全是命令行吧?
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Archiver|手机版|小黑屋|T9AI - 深度人工智能平台 ( 沪ICP备2023010006号 )

GMT+8, 2024-11-23 18:28 , Processed in 0.055328 second(s), 24 queries .

Powered by Discuz! X3.5

© 2001-2024 Discuz! Team.

快速回复 返回顶部 返回列表