秒变AI算法专家,还完全免费!这个国际开源AI平台真喷香

2022-05-10 20:34:38 来源:网络

作者 | ZeR0

编辑 | 漠影

智东西5月10日报道,近期,一个规模化AI模型生产平台在Github悄然上线。

这个平台叫AI SUITE – YMIR(中文名:挖米匠),能以无代码开发方式,实现数据管理、数据挖掘、模型训练、模型验证等功能。

由于各功能均已开源,你既可以用这个平台高效训练出AI模型,也可以按需任意修改代码,并且无论是个人使用或商用,都完全免费

其核心发起人阵容亦相当吸睛,有多位知名国际AI大牛,包括:云天励飞首席科学家王孝宇;美国硅谷NEC实验室媒体分析部主管、UCSD教授,印裔科学家Manmohan Chandraker;前谷歌、亚马逊、Snap机器学习研究员,硅谷初创公司Heali联合创始人、首席AI官,法裔科学家William Brendel等等。

智能手表能测新冠?柳叶刀:还不靠谱!

▲云天励飞首席科学家王孝宇(图左),印裔科学家Manmohan Chandraker(图中),法裔科学家William Brendel(图右)

王孝宇告诉智东西,有多家美国科技巨头公司的首席AI官担任这个开源项目的顾问。

此前,YMIR主要发起人撰写的论文《YMIR: A Rapid Data-centric Development Platform for Vision Applications》已被国际顶级机器学习会议NIPS 2021收录。

智能手表能测新冠?柳叶刀:还不靠谱!

▲YMIR论文

除了大牛云集外,在上手试用YMIR平台后,智东西的感受是,对于有一定编程基础的开发者而言,这个平台绝对会带来生产力的飞跃。

曾经TensorFlow、PyTorch等开源框架,掀起了AI开发普及的盛世,那么如今这些国际AI大牛发起的开源AI基础软件平台,又能带来哪些改变?

相比此前已有的AI模型开发平台,YMIR有哪些独特优势?它通过怎样的核心技术,来满足在真实业务场景中大批量生产模型的需求?

带着问题,智东西联系到了YMIR平台的几位发起人和核心研发成员,挖掘其背后的技术真经。

一、免费的产品级开源工具:降低企业AI开发门槛

为什么国际AI科学家们,要联合发起这样一个开源AI模型生产平台?

云天励飞首席科学家王孝宇是YMIR平台的核心发起人之一,据他回忆,发起YMIR的初衷,是希望通过开源AI系统能力,让每一家企业都能拥抱AI,加速AI产业化、平民化。

未来AI会渗入各行各业,AI能力或AI思维将会成为一个从业者需具备的基本素质,但因资源有限,每个企业都招聘很多博士去做AI开发是不现实的。

这也是YMIR核心发起团队的共识:加速AI普及,一定需要一个开源平台,来帮助AI企业低门槛、高质量地完成AI开发。

智能手表能测新冠?柳叶刀:还不靠谱!

▲YMIR主页

就像40年前,使用电脑是一项专业技能,而随着Windows操作系统、Office办公软件等工具地发展,如今基本受过高等教育的人都会使用电脑。

AI亦是如此,要从早期过程不标准化、对人才专业度要求高的“快糙猛”研发方式,过渡到大规模应用于各垂类行业阶段,搭建系统性能力平台至关重要

“业内 虽然已有不少开源项目,但还缺少针对算法研发全流程工作的产品级开源工具。”王孝宇说。

AI算法开发是一整套专业研发环节的组合,包括数据标注、计算框架、神经网络设计、数据挖掘设计等等。这些工作通常需要AI专业的硕士或博士通过编程进行每个环节的设计,并手动将这些环节连接起来形成一整套研发流程。

如果缺乏开源易用的工具,那么高质量的AI研发就只能是“专家的事”。

YMIR团队对国内外的模型生产工具做过详细调研,他们发现,这些工具的开发多由科学家或科研人员主导,缺乏对产业认知,无法真正解决业界痛点。

“算法的研发是持续的过程。”王孝宇说,“根据我们的经验,第一次训练的模型是百分之百不能满足业务需求的,你必须在客户现实的场景中去迭代模型,才能达到业务所需的目标。

但当前许多模型生产工具都是“一次性”、“理想化”的,训练一遍就不再动了,等模型被用到实际场景,很可能出现偏差。

而YMIR项目由一帮有丰富产品经验的AI算法开发人员参与,他们将此前的经验以数据、流程等可视化的形式沉淀积累,通过流水线流程设计,让AI开发的工作效率飞速转起来。

“以前这么多人可以干一件事情,现在这么多人可以干十件事情,效率更高。”王孝宇说。

无论是小型AI公司,还是有AI开发需求但缺少AI研发人才的企业,都能免费使用这一开源平台,针对目标场景,训练出满足需求的专用AI模型。

据YMIR核心研发成员胡文泽博士透露,一些AI芯片公司也在投入人力向YMIR提交代码,从而批量化生产模型,满足研发芯片期间测试特定算法的需求。

这样一来,高精度AI模型开发,不再只是AI专家的独享技能。

自动播放

▲YMIR团队分享的一个简短背景介绍视频

二、亲自上手:“挖掘-标注-训练”循环,高精度模型训练的有效飞轮

智东西试用后,感觉YMIR极易上手,整个过程无需敲入代码,只用进行鼠标点击或拖拽,每个步骤都有清晰的指引,而且可视化显示界面很方便用户对数据和模型的管理和查看。

YMIR采用项目制管理设计,覆盖了典型AI模型开发过程中端到端的全流程步骤,通过将训练流程标准化和可视化,为数据处理、模型训练、模型评估、模型迭代等业务需求提供一站式服务

下面我们展示YMIR系统的几个主要用户界面。

在使用YMIR前,你需要先准备好数据集,并安装好英伟达驱动环境,然后就可以进行数据集导入了。

智能手表能测新冠?柳叶刀:还不靠谱!

▲界面1:数据集导入

需注意的是,当你导入带标注文件的数据集时,要确保标注类型属于系统已有的标签列表,否则需先进入标签管理界面,添加自定义标签。

完成该任务后,页面会指引进入数据标注步骤。

YMIR支持使用开放的LabelFree标注工具,提供有一键标注服务,对数据集大小、用户数量、项目数量等均无限制。你也可以外接其他标注工具。

智能手表能测新冠?柳叶刀:还不靠谱!

▲界面2:LabelFree数据标注

胡文泽告诉智东西,经过其内部测试,YMIR可支持数百万级数据规模的目标检测任务。

深度学习训练需要对大量的数据进行标注,如果全部由人工进行标注,人力和时间成本都很高。

而YMIR平台采用主动学习的方法,通过挖掘、标注和重训练的循环,比将全部数据标注后再训练的方法更加高效,减少了对低质量数据的标注成本

下图所示是数据挖掘界面。

智能手表能测新冠?柳叶刀:还不靠谱!

▲界面3:数据挖掘

在AI模型开发周期中,模型迭代占据90%以上的时间,而数据迭代是模型迭代的关键部分。

YMIR提供的数据集版本管理功能,能自动生成数据集版本,并记录每次对数据集的操作,完整追踪数据集的迭代,对有大量数据挖掘的研发非常友好。

在模型训练界面,你可以清晰地看到训练进度以及一些关键参数。

智能手表能测新冠?柳叶刀:还不靠谱!

▲界面4:模型训练

每次模型训练后,YMIR还可以对模型结果进行验证,即通过可视化方式查看模型在真实图片中的表现。如果达到预期,即可下载模型;如果需继续使用该模型挖掘,则可进入下一轮的“挖掘-标注-训练”循环,直至达到预期效果。

智能手表能测新冠?柳叶刀:还不靠谱!

▲界面5:模型验证

YMIR以模型与数据集的迭代为核心目标来设计,一套流程走下来,不仅能针对业务场景持续提高模型性能,还能提高开发效率,降低研发门槛。

YMIR核心开发者黄轩介绍,过去用传统研发方式,大概至少需1个月迭代1次数据和模型,现在用YMIR平台1周就能迭代2次。

以前经验丰富的AI算法工程师才能完成的工作,现在,只要具备计算机操作知识,你就能用YMIR平台实现类似的高精度模型结果。

为什么YMIR在降低操作门槛的同时,能确保没有在产出模型质量上做妥协?

我们将在下一章节做进一步解读。

三、数据驱动,满足实际业务场景训练需求

针对不同应用场景,YMIR如何做到发挥稳定地训练出高精度模型?

这主要得益于YMIR采用的数据处理方式。

YMIR是一个数据驱动的AI训练平台,与模型驱动的训练方式相比,在面对具体任务时,往往能更为快速地在目标场景中,迭代出高精度的AI模型。

模型驱动的显著特征是当模型足够准确时,其结果在绝大多数情况下可达到预期甚至取得最优。但在实际应用中,即使对一个具体任务进行精确实验室建模,其也极难在应用场景中达到预期。

而数据驱动的方式,是让模型在数据中不断校验调优,最终得出符合预期需求模型的过程。

这解决了业界的一个主要痛点:模型需要持续迭代。

早在2015年,机器学习泰斗、斯坦福大学教授吴恩达(Andrew Ng)就在演讲中提到“公司的壁垒不是算法,而是数据”。

他认为,要打造一款AI产品,需要让算法利用足够的数据,使得产品运行起来,然后通过产品来获取用户,用户再提供更多的数据……周而复始。

吴恩达预言,在未来的AI研发中,数据迭代带来的性能提升,将大大超过模型架构本身的演进带来的性能提升。

而YMIR的核心理念,便是依靠产品级模型生产流水线平台,以主动学习、数据驱动方式,让更多不具备专业知识和经验的人参与到算法开发中,从而加速AI技术和应用的繁荣。

智能手表能测新冠?柳叶刀:还不靠谱!

▲一个典型的YMIR工作流程

YMIR平台先用少量已标注数据训练出一个初始模型,再用该模型从海量数据中挖掘出对优化模型最有利的数据,然后仅针对这些高质量数据进行标注,实现对原本的训练数据集进行高效扩充。

接着,该平台使用更新后的数据集再次训练模型,如此循环往复,模型的质量就会不断提升。

由于YMIR各功能都是开源的,你可以将自己开发的工具对接到YMIR平台提供的开放API,也可以按照自己的想法修改代码,包括数据存储、模型训练、标注工具、可视化界面等等。

据了解,YMIR也参与了云天励飞获得2021年吴文俊人工智能科技进步一等奖的项目,是实现模型快速迭代平台的关键组成。

YMIR核心开发成员向智东西透露,目前已有超过20家机构申请试用YMIR平台。

结语:以开源强化AI生产力

边际成本是未来十年AI行业的竞争核心要素。目前,AI模型通用性低导致的项目碎片化、交付效率低是行业的普遍痛点。未来高效率、低成本边际成产AI算法将成为行业的竞争焦点。

而拥有流程化、一站式、开放设计、无代码、开源免费五大特点的YMIR平台,对推动AI模型生产更加高效低质的目标,起到积极的推进作用。

总体来说,YMIR平台的使用门槛很低,采用RPA流程化思维设计,一站式覆盖AI模型生产的整个生命周期,支持无代码开发,不需要使用者具备专业AI技能,并且个人、企业均可免费使用不受限。

有编程基础的开发人员,不妨申请试用,也可以参与到这个国际开源社区中交流,或许能被启发或贡献一些新的想法,助力优化AI模型生产流程。

,秒变AI算法专家,还三诺 完全免费!这个国际开源AI平台真喷香

相关:

电视机吃灰 传统家电没落近日,四川长虹披露2021年年报指出,报告期内公司实现营业收入996.32亿元,但归属于上市公司股东的净利润只有2.85亿元,利润率只有千分之二。同时,销售毛利率也降至9.97%,同比下滑2.32%。而长虹被外界长期所熟悉的莫过于电视业务,但从最新财报来看,其电视机业务营收占比仅为14.12%,远低于空调、冰箱业务,由此可见长虹自身的电视业务已经出现了严重的衰退,与昔日“彩电大王”的光环越来越远。产品地位的变化总是伴随着玩家..

索尼PS3和PSVita已禁止建树新账户 并删除帐户打点设置IT之家 5月10日消息,在 PlayStation 3 和 PlayStation Vita 最新的系统更新中,索尼禁用了在两款游戏机上创建 PSN 账户的功能。PlayStation 3 系统版本 4.89 和 PlayStation Vita 系统版本 3.74 已经发布,不仅删除了创建账户功能,还删除了账户管理设置,用户需要在其他设备上进行账户创建、改密码等操作了。IT之家了解到,索尼去年宣布关闭 PS3 和 PS Vita 数字商店,在遭到强烈反对后,官方决定保留..

1年半内,超20人履新这一职务,独一的女性是她撰文 | 余晖再有一位省委秘书长履新。据《黑龙江日报》消息,5月9日,省委常委、秘书长于洪涛到省委办公厅宣讲省第十三次党代会精神。上述信息显示,于洪涛已任黑龙江省委秘书长。本地成长起来的官员于洪涛,男,汉族,1967年10月生,今年55岁,山东海阳人,1989年7月参加工作,1989年6月加入中国共产党。毕业于哈尔滨工业大学高级管理人员工商管理专业,工商管理硕士。公开资料显示,于洪涛是黑龙江本地成长起来的官员。于洪..

杜特尔特继任者是他 中菲关系走向何方?10日凌晨,菲律宾媒体公布菲律宾大选统计结果,菲律宾联邦党候选人小费迪南德·马科斯以遥遥领先的票数,赢得总统选举。据报道,在超过90%已完成计票的选票中,马科斯获得了近3000万张选票,得票率超50%,是另一名候选人、现任副总统罗布雷多的两倍多。马科斯预料将取代现任总统杜特尔特。这也意味着,马科斯将重返儿时的住所——总统府马拉卡南宫。马科斯是前总统费迪南德唯一的儿子,也被称为小马科斯,而这次与他搭档竞选的副..

百万元玉石放摩托后座 巡特警捡到后“完璧归赵”  中新网徐州5月10日电 (朱志庚 邵子卿)“太感谢了,要不是你们及时发现,我那些价值110多万元的玉石真丢了,损失可就太大啦!”5月10日,在江苏省徐州市公安局云龙分局巡特警大队,前来领取玉石的失主祝先生激动地说。 箱子里面有玉镯、挂件等大小玉石26块。 徐州警方供图   5月9日凌晨,云龙分局巡特警大队沃尔玛警务站民警刘历带领辅警队员驾乘武装巡逻车巡逻至建国路与老民主南路路口时,在快车道上发现一个铁..

隆基股份更名“隆基绿能”,网友:绿能?红的欠好吗?5月10日晚间,隆基绿能科技股份有限公司(下称“隆基股份”)公告,5月16日起证券简称由“隆基股份”变更为“隆基绿能”。隆基股份称,公司目前主要从事单晶硅棒、硅片、电池和组件的研发、生产和销售,为光伏集中式地面电站和分布式屋顶开发提供产品和系统解决方案。为更好的体现公司战略布局和主营业务定位,进一步强化品牌形象和公司价值,公司拟将证券简称由“隆基股份”变更为“隆基绿能”。对此,网友纷纷表示,“这名字听..

抖音卖课太难了:有个明星也翻车 销量为0作者 | 洛重阳编辑 | 呦 呦通过抖音直播卖课,是一件看起来简单其实却做起来很难的事情。前段时间,演员吕一的老公钱泳辰在抖音直播卖课时就翻车了。作为演员的钱泳辰,虽然也有近20年的演艺经历,可是1个小时的直播里,他所推荐的公司标价8800元的影视表演台词课程,一件都没有卖出去,最后尴尬收场。一直以来,从财商、英语、创业,到艺术、职场、育儿等,抖音卖课的主播和课程内容都五花八门。在这些课程中,有累计销售..

“新势力”一季度数据曝光!理想、小鹏销量增幅均超150%5月10日盘后,理想汽车发布2022年第一季度财务业绩。数据显示,2022年第一季度,理想的车辆销售收入为93.1亿元,同比增长168.7%;车辆毛利率为22.4%,同比增长5.5个百分点;营业收入总额为95.6亿元,同比增长167.5%;净亏损为1090万元,2021年同期为3.6亿元,净亏损大幅收窄。此外,2022年第一季度,理想ONE的交付量为31716辆,同比增长152.1%。4月,理想汽车交付了4167辆理想ONE。对于2022年第二季度的业绩,理想汽车预计,车辆..

贝壳的秘闻:房难卖 新营业难做记者|俞瑶 刘谧编辑|任志江5月5日,贝壳找房控股有限公司(NYSE:BEKE,以下简称“贝壳”)发布公告称,将以介绍方式在港交所主板上市,预计于5月11日上市交易,股票代码为“2423.HK”。而就在不久前,贝壳被美国证券交易委员会(SEC)列入“预摘牌名单”中。选择在此时回港交所上市,或许也是贝壳的无奈之举。但贝壳的“无奈”远不止此。图据IC photo在过去的2021年,贝壳可谓是祸不单行。就连CEO彭永东在2021年全年业绩说明..

苹果前首席设计师乔纳森・艾维展示了最喜欢的12种设计工具IT之家 5月10日消息,据 Apple Insider 报道,作为英国杂志客座编辑的一部分,前苹果设计主管 Jony Ive(乔纳森・艾维) 详细介绍了他认为不可或缺的十几种工具,从老式皮革铅笔盒到价值5645美元的电唱机唱臂。Jony Ive 是英国金融时报旗下《How to Spend It》杂志特刊的客座编辑。在“关于制作的问题”方面,Ive 与设计师和工匠进行了交谈,并详细介绍了他自己最喜欢的工具。“也许可以预见,”他在完整的杂志中写..