首页>国内 > 正文

最早2026？全球优质语言数据「存量」告急！网友：杞人忧天

2022-11-21 15:54:51来源：新智元

作为人工智能的三要素之一，数据的作用举足轻重。

(相关资料图)

但大家有没有想过：假如有一天，全世界的数据都用完了那咋整？

实际上，提出这个问题的人绝对没有精神问题，因为这一天——可能真的快来了！！！

近日，研究员Pablo Villalobos等人一篇名为《我们会用完数据吗？机器学习中数据集缩放的局限性分析》的论文，发表在了arXiv上。

他们根据之前对数据集大小趋势的分析，预测了语言和视觉领域数据集大小的增长，估计了未来几十年可用未标记数据总存量的发展趋势。

他们的研究表明：最早在2026年，高质量语言数据就将全部消耗殆尽！机器学习发展的速度也将因此而放缓。实在不容乐观。

两方法双管齐下，结果不容乐观

这篇论文的研究团队由11名研究员和3位顾问组成，成员遍布世界各地，致力于缩小AI技术发展与AI战略之间的差距，并为AI安全方面的关键决策者提供建议。

Chinchilla是DeepMind的研究人员提出的一种新型预测计算优化模型。

实际上，此前在对Chinchilla进行实验时，就曾有研究员提出「训练数据很快就会成为扩展大型语言模型的瓶颈」。

因此他们分析了用于自然语言处理和计算机视觉的机器学习数据集大小的增长，并使用了两种方法进行推断：使用历史增长率，并为未来预测的计算预算估计计算最佳数据集大小。

在此之前，他们一直在收集有关机器学习输入趋势的数据，包括一些训练数据等，还通过估计未来几十年互联网上可用未标记数据的总存量，来调查数据使用增长。

由于历史预测趋势可能会受过去十年计算量异常增长的「误导」，研究团队还使用了Chinchilla缩放定律，来估计未来几年的数据集大小，提升计算结果的准确性。

最终，研究人员使用一系列概率模型估计未来几年英语语言和图像数据的总存量，并比较了训练数据集大小和总数据库存的预测，结果如下图所示。

这说明数据集的增长速度将远快于数据存量。

因此，如果当前趋势继续保持下去，数据存量被用光将是不可避免的。下表则显示了预测曲线上每个交叉点的中值耗尽年数。

高质量的语言数据库存最早可能在2026年之前用尽。

相比之下，低质量的语言数据和图像数据情况略好：前者将在2030年至2050年间用光，后者将在2030年至2060年之间。

在论文的最后，研究团队给出结论：如果数据效率没有大幅提高或新的数据来源可用，当前依赖巨大数据集不断膨胀的机器学习模型，它的增长趋势很可能会放缓。

网友：杞人忧天，Efficient Zero了解一下

不过在这篇文章的评论区里，大多数网友却认为作者杞人忧天。

Reddit上，一位名为ktpr的网友表示：

「自我监督学习有啥毛病么？如果任务指定得好，它甚至可以组合扩展数据集大小。」

名为lostmsn的网友则更加不客气。他直言：

「Efficient Zero都不了解一下？我认为作者已经严重脱离时代了。」

Efficient Zero是一种能高效采样的强化学习算法，由清华大学的高阳博士提出。

在数据量有限的情况下，Efficient Zero一定程度上解决了强化学习的性能问题，并在算法通用测试基准Atari Game上获得了验证。

在这篇论文作者团队的博客上，就连他们自己也坦言：

「我们所有的结论都基于不切实际的假设，即当前机器学习数据使用和生产的趋势将继续保持下去，并且数据效率不会有重大提升。」

「一个更加靠谱的模型应该考虑到机器学习数据效率的提高、合成数据的使用以及其他算法和经济因素。」

「因此就实际情况来说，这种分析有严重的局限性。模型的不确定性非常高。」

「不过总体而言，我们仍认为由于缺乏训练数据，到2040年时机器学习模型的扩展有大约有20%的可能性会显著放缓。」

关键词：机器学习杞人忧天不容乐观研究人员继续保持

相关新闻

最早2026？全球优质语言数据「存量」告急！网友：杞人忧天

作为人工智能的三要素之一，数据的作用举足轻重。但大家有没有想过：假如有一天，全世界的数据都用完了...
首个目标检测扩散模型，比Faster R-CNN、DETR好，从随机框中直接检测

扩散模型（DiffusionModel）作为深度生成模型中的新SOTA，已然在图像生成任务中超越了原SOTA：例如GAN，...
马斯克看上的脑机接口公司：“意念控制”iPad发短信，浏览新闻无压力

本文经AI新媒体量子位（公众号ID:QbitAI）授权转载，转载请联系出处。这是一个iPad上的聊天截图。看似平...
MySQL 不相关子查询怎么执行？

经过上一篇wherefieldin( )的开场准备，本文正式开启子查询系列，这个系列会介...
Swift 中的 Async/Await ——代码实例详解

前言async-await是在WWDC2021期间的Swift5 5中的结构化并发变化的一部分。Swift中的并发性意味着允许...
GPT-3、Stable Diffusion一起助攻，让模型听懂甲方修图需求

扩散模型大火之后，很多人将注意力放到了如何利用更有效的prompt生成自己想要的图像。在对于一些AI作画...
万能网关系统如何设计？

什么是网关网关，很多地方将网关比如成门，没什么问题，但是需要区分网关与网桥的区别，网桥工作在数据...
硅谷华人码农艰难「求生」：陪马斯克熬夜奋战后光速被裁！

根据Layoffs fyi的统计，今年迄今科技行业累计裁员人数已超10万，其中大部分集中在Meta、Twitter和Lyft...
我进了新公司结果不会用Spring Cloud，人生第一次被辞退了

一、问题起源SpringCloud架构体系中，Eureka是一个至关重要的组件，它扮演着微服务注册中心的角色，所有...
AlphaZero的黑箱打开了！DeepMind论文登上PNAS

国际象棋一直是AI的试验场。70年前，艾伦·图灵猜想可以制造一台能够自我学习并不断从自身经验中获得改...
上线仅两天，AI大模型写论文网站光速下架：不负责任的胡编乱造

几天前，MetaAI联合PaperswithCode发布了大型语言模型Galactica，该模型的一大特点就是解放你的双...
缓存击穿、穿透、雪崩专项测试

京东科技作者：刘须华一、背景概述：R2M缓存的使用，极大的提升了应用程序的性能和效率，特别是数据查询...
2023年更好地应对网络威胁的七条建议

很多企业面临网络攻击者越来越复杂的网络威胁，这些网络威胁可能影响企业的安全态势。随着2023年即将到...
如何通过仿真提高数据中心性能

管理数据中心时不乏挑战；从环境问题到不断变化的预算和不断增加的密度。设施经理经常不得不就如何调...
在 Linux 中锁定和解锁用户的三种方法

在多用户操作的服务器中锁定（禁用）用户可能有多种原因，比如某个用户的登录密码被泄露，或者某个用户...

聚焦

IT

科技

Copyright 2015-2020 三好网版权所有联系邮箱：435 22 640@qq.com 备案号：京ICP备2022022245号-21