首页>国内 > 正文

AI自给自足！用合成数据做训练，效果比真实数据还好

2023-02-22 10:16:35来源：量子位

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。

AI生成的图像太逼真，为什么不能拿来训练AI呢？

可别说，现在还真有人这么做了。

【资料图】

来自香港大学、牛津大学和字节跳动的几名研究人员，决定尝试一下能否使用高质量AI合成图片，来提升图像分类模型的性能。

为了避免AI合成的图像过于单一、或是质量不稳定，他们还提出了几类提升数据多样性和可靠性的方法，帮助AI合成更好的数据集（来喂给AI的同类doge）。

结果他们发现，不仅效果不错，有的AI在训练后，效果竟然比用真实数据训练还要好！

目前这篇论文已经被ICLR 2023收录。

把AI生成的数据喂给AI

作者们分别从零样本（zero-shot）、少样本（few-shot）图像分类、模型预训练（pre-training）与迁移学习三个⽅⾯进⾏了探讨，并给出了提升数据多样性与可靠性的方法。

零样本图像分类

零样本（Zero-shot）图像分类任务，指没有任何⽬标类别的训练图⽚，只有对⽬标类别的描述。

作者们先是提出了一种名为语言增强（Language Enhancement，LE）的⽅法，用于增强合成数据多样性。

具体来说，这种方法会给标签“扩句”，如果原标签是简单的“飞机”，那么经过“扩句”后的提示词就会变成“一架盘旋在海滩和城市上空的白色飞机”。

随后，还采用了一种叫做CLIP过滤器（CLIP Filter）的⽅法确保合成数据的可靠性，即过滤掉合成质量不行的图片，确保AI数据质量过硬。

在17个数据集上，相⽐此前效果最好的CLIP模型，相关⼤⼩模型均获得了显著提升（4.31%/2.90%），展示了合成数据的有效性。

少样本图像分类

少样本图像（Few-shot）分类任务，通常仅有极少数量（1～16张）的⽬标类别图⽚，与零样本任务的区别是增加了类别与任务特定领域信息。

因此，作者们决定将域内数据（in-domain）的知识⽤于图像⽣成，即将少量的⽬标类别图⽚⽤于噪声叠加的初始状态（Real Guidance），进⼀步发挥⽣成模型的能⼒，从而进⼀步提升性能。

预训练与迁移学习

模型预训练（pre-training）任务，即将模型在⼤量数据上进⾏训练，将训练后的模型作为“起始点”，来帮助提升下游任务的性能。

作者们利⽤合成数据，对模型进⾏了预训练，并对数据量、数据多样性程度、预训练模型结构和预训练⽅法进⾏了实验研究。

最终发现：

⽤合成数据进⾏预训练。已经可以达到甚⾄超越⽤真实数据预训练的效果。⽤更⼤的数据量和数据多样性的合成数据，可以获得更好的预训练效果。从模型结构和预训练⽅法来看，ViT-based模型（相比convolutional-based模型）、⾃监督⽅法（相比有监督⽅法）会更适合合成数据下的预训练。

论文认为，利⽤⽣成模型产⽣的合成数据来帮助图像分类任务是可行的，不过也存在⼀定的局限性。

例如，如何处理特定任务的domain gap和数据多样性之间的trade-off，以及如何更有效地利⽤潜在⽆穷量的合成图⽚⽤于预训练，都是需要进一步去解决的问题。

作者介绍

一作何睿飞，香港大学在读博士生@CVMI Lab，指导老师为齐晓娟老师，本科毕业于浙江大学竺可桢学院，研究方向是data-efficient learning, vision-language model, knowledge distillation, semi/self-supervised learning。CVMI Lab 正在招收计算机视觉与深度学习方向的博士生，感兴趣的伙伴可以直接email老师！

对于将AI合成图像用于预训练模型这件事，你还能想到更高效的方法吗？

欢迎感兴趣的小伙伴一起讨论~

论文地址：https://arxiv.org/abs/2210.07574

项目地址：https://github.com/CVMI-Lab/SyntheticData

关键词：数据多样性图像分类感兴趣的模型结构香港大学

相关新闻

AI自给自足！用合成数据做训练，效果比真实数据还好

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。AI生成的图像太逼真，为什么不能拿...
蒋梦麟写丁龙为何误植史实那么多

一丁龙史实何以一误再误两甲子前美国劳工丁龙捐建哥大汉学系的往事，一直媒体热度不断。在央视和《北京...
图解 Kafka 源码之 Sender 线程架构设计

大家好，我是华仔,又跟大家见面了。原文完整版在星球里面，如果感兴趣可以扫文末二维码加入。上篇主要带...
2023年最新最全 VSCode 插件推荐！

VisualStudioCode是由微软开发的一款免费的、针对于编写现代Web和云应用的跨平台源代码编辑器。它包含了...
压测和性能分析方法论

压测和性能分析方法论性能测试基础性能测试的常见分类性能测试。用来验证系统的性能是否满足设计的预期...
20 年经验，总结出这三条团队管理法则

大家好，我是楼仔。如果你是团队管理者，或者希望成为一名团队管理者，这篇文章绝对是不逊于你看过的任...
“联想焕新季”全面启动：新机0元试用，单台设备免费上门

众所周知，在企业数字化转型的过程中，IT基础设施扮演着“数字基石”的重要角色,很好地支撑起人工智能、...
2023年北京朝阳消费版图再添十大商业综合体

工人日报-中工网记者赖志凯2023年，北京市朝阳区消费版图再扩容，全年共有十大商业综合体建成开业，总面...
老鼠爱大米歌词_老鼠爱大米整首歌词

欢迎观看本篇文章，小升来为大家解答以上问题。老鼠爱大米歌词，老鼠爱大米整首歌词很多人还不知道，现...
强信心·开新局丨让更多“金花”企业竞相绽放——重庆老工业基地产业创新升级观察

强信心·开新局丨让更多“金花”企业竞相绽放——重庆老工业基地产业创新升级观察---新华社重庆2月21日...
嘉应制药: 关于持股5%以上股东提前终止减持计划暨减持股份结果的公告

嘉应制药:关于持股5%以上股东提前终止减持计划暨减持股份结果的公告
方差怎么计算_方差计算方法

欢迎观看本篇文章，小升来为大家解答以上问题。方差怎么计算，方差计算方法很多人还不知道，现在让我们...
江西一高中生坚持6年帮助残疾同学称愿意做他的“双脚”

本文转自：中国新闻网图为钟华强在学校学习。姜涛摄中新网南昌2月21日电题：江西一高中生坚持6年帮助残...
十二生肖的故事儿童版_关于十二生肖的儿童故事

1、十二生肖的故事　　知道自己属什么吗？有属小白兔的，有属大老虎的………有属猫的吗？没有，怎么有属...
深圳高级职业技术学院西丽校区_深圳高级职业技术学院

1、计算机网络技术专业。培养目标：培养掌握计算机网络基础理论和技能，具有计算机网络硬件联网与调试、...

聚焦

IT

科技

Copyright 2015-2020 三好网版权所有联系邮箱：435 22 640@qq.com 备案号：京ICP备2022022245号-21