人工智能，“抛弃”真实数据集？

当前，人工智能技术已经应用在我们日常生活中的方方面面，比如人脸识别、语音识别、虚拟数字人等。

但普遍存在的一个问题是，科研人员要想通过训练一个机器学习模型来执行某一特定任务（比如图像分类），往往需要使用大量的训练数据，而这些数据（集）却并不总是很容易获得。

比如，如果研究人员正在训练一辆自动驾驶汽车的计算机视觉模型，但真实数据可能不会包含一个人和他的一条狗在高速公路上奔跑的样本，一旦遇到这种情况，模型就不知道该如何做，可能会产生不必要的后果。

而且，使用已有数据生成数据集，也会花费数百万美元。

另外，即使是最好的数据集，也常常包含对模型性能产生负面影响的偏见。

那么，既然获得、使用一个数据集代价这么昂贵，能不能在保证模型性能的前提下，使用人为合成的数据来训练呢？

近日，一项来自麻省理工学院（MIT）科研团队的研究显示，一种使用合成数据训练的图像分类机器学习模型，可以与使用真实数据来训练的模型相媲美，甚至性能更好。

相关研究论文以“Generative models as a data source for multiview representation learning”为题，以会议论文的形式发表在 ICLR 2022 上。

不输于真实数据

这种特殊的机器学习模型被称为生成模型（generative model），相比于数据集，存储或共享所需的内存要少得多，不仅可以避免一些关于隐私和使用权的问题，也不存在传统数据集中存在的一些偏见和种族或性别问题。

据论文描述，在训练过程中，生成模型首先会获取数百万张包含特定对象（比如汽车或猫咪）的图像，然后学习汽车或猫咪的外观，最后生成类似的对象。

简单来说就是，研究人员使用一个预先训练的生成模型，参照模型训练数据集上的图像，输出大量独特的、真实的图像流。

（来源：Pixabay）

研究人员表示，一旦生成模型在真实数据上进行训练，就可以生成几乎与真实数据无法区分的合成数据。

另外，生成模型还可以基于训练数据做进一步拓展。

如果生成模型是基于汽车图像进行训练的，它就可以“想象”出汽车在不同情况下是什么样的，然后输出具有不同颜色、大小和状态的汽车图像。

生成模型具备很多优点，其中之一便是，它在理论上可以创建无限数量的样本。

基于此，研究人员试图搞清楚样本数量如何影响模型性能。结果显示，在某些情况下，大量的独特样本确实会带来额外的改进。

而且，在他们看来，生成模式最酷的一点在于，我们可以在在线资料库中找到并使用它们，而且不需要干预模型就可以获得良好的表现。

但生成模型也有一些缺点。例如，在某些情况下，生成模型可能会揭示源数据，从而带来隐私风险，如果没有进行适当的审计，可能会放大它们所训练数据集中的偏差。

生成式 AI 大势所趋？

有效数据的稀缺性，以及采样偏差，已经成为机器学习发展的关键瓶颈。

近年来，为解决这一问题，生成式 AI（Generative AI）成为了人工智能领域的热议话题之一，被业内给予了足够高的期待。

去年底，Gartner 发布了 2022 年重要战略技术趋势，将生成式 AI 称为是“最引人注目和最强大的人工智能技术之一”。

据 Gartner 预测，预计到 2025 年，生成式 AI 将占所有生成数据的 10%，而目前这一比例还不到 1%。

图｜Gartner 2022 年重要战略技术趋势（来源：Gartner 官网）

2020 年，生成式 AI 作为一个新增技术热点，在 Gartner 发布的“Hype Cycle for Artificial Intelligence，2020”中首次被提出。

在最新的“Hype Cycle for Artificial Intelligence，2021”报告中，生成式 AI 作为 2-5 年即可成熟的技术出现。

（来源：Gartner Hype Cycle for Artificial Intelligence, 2021）

生成式 AI 的突破在于，它可以从现有数据（图像、文本等）中学习，并生成全新、相似的原始数据。也就是说，它不仅可以做出判断，还能够进行创造，可以用于自动编程、药物开发、视觉艺术、社交、商业服务等。

但是，生成式 AI 也会被滥用于诈骗、欺诈、政治造谣、伪造身份等，比如经常产生各种负面新闻的 Deepfake。

那么问题来了，如果我们有足够好的生成模型，还需要真实的数据集吗？

原文链接：

https://openreview.net/pdf?id=qhAeZjs7dCL

https://news.mit.edu/2022/synthetic-datasets-ai-image-classification-0315

https://www.gartner.com/en/documents/4004183

学术头条

推荐内容

人工智能，“抛弃”真实数据集？

你也喜欢吃臭的？太有“猿粪”了！

注意，无缘无故总觉得累可能是疾病信号！

头顶上的“南水北调”，能一劳永逸解决90后们的“头等大事”吗？

“从阅读中探索我们时代的科幻写作”主题沙龙举办

清明假期健康提示

朋友圈疯传"某品牌方便面中含农药"？别让爸妈被这些谣言骗了！

清明节快到了，来尝一口春天的味道！

她是真正的“追光者”，让阳光下的魔法在生活中大放异彩

每10年就少1000克！补充胶原蛋白到底有没有用？

没想到，不会动的河蚌，原来是个会钓鱼的大骗子！

头发也是蛋白质，为啥不能吃？

为了完成研究，他拿走了女儿从海滩捡回来的蛤蜊

神秘生物“水猴子”到底是个啥？

习惯性崴脚严重吗？怎么预防呢？

预防类风湿关节炎，这些因素应避免

池塘工程化循环流水养殖技术

脚踝扭伤的正确处置

穿心红萝卜提纯复壮及有机栽培技术

一双“慧眼”识沙尘

复姓在古代很常见，现如今为何很那再看到复姓名字了？

别再跟着网红盲目学抗糖了，你真的了解糖化么？

被忽视的眼底检查，到底可以发现哪些问题呢？

言传身教、求是传承——访竺可桢之子、中科院化学研究所研究员竺安

轰炸机靠什么来瞄准？诺顿瞄准器，不过这个东西有点坑

适合腰肌劳损的康复运动有哪些？

听说你也开始种菜了？推荐这些菜......

科普要闻 | 安徽省明光市三界镇科协开展2022年节水宣传周科普宣传活动

喝茶真的能“刮油”吗？来看看科学的解释

中药半月谈 | 虎掌南星

油轮130余年发展史（四）

警惕!——儿童药物性肝损伤

患者超过500万，被忽视的中小学生脊柱侧弯

国家体育总局运动医学研究所主任医师厉彦虎：脊柱健康从正确姿态开始

隐藏起来的疾病--药物性肝损伤

CHINA ROCK 2022第十八次中国岩石力学与工程学术年会分会场筹备会第一次会议召开

欧龙马口服滴剂需注意的二三事

这个小药片是怎么一步一步让男人沦陷的？

“糖宝宝”能服用乳果糖口服液吗？

防龋英雄——窝沟封闭

头部主播的天价罚单，背后暴露的直播乱象

蚯蚓的入侵导致北美森林中的昆虫种群减少

95%的人类悄无声息被感染：这种可能导致绝症的病毒，至今没有疫苗

为什么越不动就越不想动？可能不是懒！"罪魁祸首"终于找到了

仙气飘飘，“南天门”三期通地铁了？网友：西游记拍得还是太保守了

掐指算一算，过安检的辐射量有多大？

2025年深圳宽带用户接入速率达10倍以上

人类会灭绝吗？如果会，导致灭绝的原因会是什么？

靠阳台种菜实现蔬菜自由，有谱吗？

黑匣子为什么难成为“云匣子”？

头顶上的“南水北调”，能一劳永逸解决90后们的“头等大事”吗？

荣耀CEO赵明：蔚来造手机仍处于调研阶段

人工智能，“抛弃”真实数据集？

你也喜欢吃臭的？太有“猿粪”了！

注意，无缘无故总觉得累可能是疾病信号！

清明假期健康提示

“从阅读中探索我们时代的科幻写作”主题沙龙举办

赶紧换浏览器吧！升级Win 11出现Bug：IE的数据会丢失

存在起火自燃风险！大众召回10万辆插混电车：电池绝缘有问题

清明节快到了，来尝一口春天的味道！

朋友圈疯传"某品牌方便面中含农药"？别让爸妈被这些谣言骗了！

员工是果粉？微软宣传Windows时闹乌龙，配图竟是iMac

她是真正的“追光者”，让阳光下的魔法在生活中大放异彩

联想智联质量生态“六大环节”严控 护航冬奥0故障

头发也是蛋白质，为啥不能吃？

神秘生物“水猴子”到底是个啥？

为了完成研究，他拿走了女儿从海滩捡回来的蛤蜊

每10年就少1000克！补充胶原蛋白到底有没有用？

没想到，不会动的河蚌，原来是个会钓鱼的大骗子！

暴涨125%！理想汽车最新销量公布：居然没有哪吒多

比iPhone强？索尼旗舰机皇获红点设计奖：颜值的确高

脚踝扭伤的正确处置

马斯克差点都要信了！特斯拉首款婴幼儿车型曝光：非官方恶搞

预防类风湿关节炎，这些因素应避免

离谱！周杰伦持有的NFT被盗：转手价格超过300万元

碾压日韩厂！全球电池出货量数据公布：宁德时代第一，比亚迪第三

穿心红萝卜提纯复壮及有机栽培技术

池塘工程化循环流水养殖技术

习惯性崴脚严重吗？怎么预防呢？

联想智联质量生态“六大环节”严控护航冬奥0故障