当前所在位置:首页 > 最大炒股配资平台

为什么AI本质上就是个“压缩机”?

966

2025-08-20 【 字体:

谷歌最近发了篇论文,重申了一个来自信息论的观点——“压缩即智能”。当然,论文的新意,在于通过对“压缩率”的定义并提出相关计算方法,从而可以尝试对“压缩即智能”给出一个定量的解释,并将其与人工智能大模型联系起来。

所谓“压缩”,全称当然是“数据压缩”。正如一本写得相当生动有趣的普及读物《数据压缩入门》所指出的:

“我们需要知道这样一件事:我们当下生活在其中的这个计算世界,完全建立在数据压缩算法之上。

是的,每个部分都是如此。

每个网页、每个图像、每首歌、每个关于猫的视频、每部流媒体网络电影、每张自拍照、每次电子游戏下载、每个微型交易,甚至是操作系统的每次更新,所有这一切都得益于压缩算法。事实上,哪怕只是想通过互联网传输一个二进制位的数据,也离不开压缩的内容。

数据压缩技术最让人惊异之处在于,它与过去40年里个人计算的很多重大改变有关,但很少有人知道这一点。”

信息论创始人克劳德·香农在为传输信息进行压缩编码的过程中,意识到这种压缩是有一个极限阈值的,超过这个阈值,被压缩编码的信息就无法通过解码,复原为原始信息了,而是有相当一部分信息就此被损失掉,比如作为“有损压缩”的MP3音乐格式,听上去效果就要比CD差不少。这个阈值被命名为“香农熵”。相应地,“无损压缩”就是压缩率控制在“香农熵”以下,比如解码后可以比较好地恢复到CD音质的APE、FLAC等格式。所有的现代压缩算法,可以说都是在顽强地与“香农熵”作斗争,希望开发出以尽可能高的压缩率来“高保真”地保存、传输和复制信息的技术。

但其实数据压缩远不只是算法问题,而是涉及人类对世界根本的认知方式。

我们且撇开数据压缩算法中的数学原理,单就“压缩即智能”这一观点,其实和我在某篇机器学笔记里所说的“模型即智能”,完全是等价的,因为所谓模型,就是给无限变量的复杂世界建一个有限变量的模,通过被大大压缩的变量数量,及其相互作用的结构,来有效模拟复杂世界在某一特定时空中的运作模式(用本届诺奖得主杰弗里·辛顿的术语来说,就叫做“泛化”,即通过少量已知数据准确预知大量未知数据),从而让我们可以作出预测和决策。

事实上,所有的科学公式都不外乎是一种模型,因此也不外乎是一种数据压缩方式。模型总是只能在一定时空中起作用,哪怕它是牛顿定律,因为模型对数据的压缩根本来说总是为了拟合眼前的“事实”——这正是“实验科学”的本质。更高的压缩率一般意味着更好的模型,也就意味着更高的智能,就好比万有引力定律对近代的观测宇宙有最高的压缩率(也就是用最精炼的公式定义了这一宇宙的运作方式),因此牛顿不仅比绝大多数人,而且比绝大多数科学家有更高的智能。

为什么我们可以说“压缩即智能”或“模型即智能”?因为压缩变量数据或者建模,就意味着“主动”地挑选出一部分被认为是关键的变量,而舍弃绝大多数被认为是冗余的信息,来为这个看上去无比复杂的世界建模,这种认知的“主动性”、这种应对世界的“主动性”——而不是像(我们所以为的)石头那样被动接受一切——不正是当我们谈及“智能”的时候,真正让我们感觉make sense的东西吗?

并且智能和学习能力高度相关。什么是学习?无论人的学习还是机器学习,本质不都是学习用建立在有限数据集基础上的模型去应对这个无限世界,并在应对的过程中根据反馈不断调整以至迭代模型吗?所以“学习即智能”很大程度上也与“压缩即智能”等价,人工智能大语言模型,正如“GPT之父”伊尔亚·苏茨克维多次强调的,本质上就是个效率极高的数据压缩机。

《数据压缩入门》

[美]柯尔特·麦克安利斯 亚历克斯·海奇 著

人民邮电出版社2020年3月版

举报 文章作者

毕席

经济人的人文素养阅读 相关阅读 报告:广东位居人工智能第一梯队,仍需构建“五大链条”

专家建议需重视既懂产业又懂AI技术的复合型人才培养

303 04-24 20:19 AI进化速递丨天工Ultra研发企业:即将量产人形机器人

①全球首个“AI+甲骨文”创新赛事在豫启动;②上海交大推出AI三大基金和“AI十条”;③天工Ultra研发企业:即将量产人形机器人,未来价格和小轿车差不多。

104 04-20 20:17 AI进化速递 | 腾讯云大模型知识引擎已率先接入MCP

腾讯云大模型知识引擎已率先接入MCP,拓展AI应用边界;阿里通义万相开源首尾帧生视频模型。

107 04-18 20:38 AI进化速递丨国产AI大模型“AI孙悟空”亮相大阪世博会

国产AI大模型“AI孙悟空”亮相大阪世博会;字节跳动正计划推出自家的AI智能眼镜;贝瑞基因GENOisi™智能体正式发布。

122 04-13 20:37 8个大模型,30个应用场景,13款智能终端……广东一大波AI产品扎堆上新

在安全领域,深信服安全大模型可24小时不间断工作,将需要多次手动操作的安全运营工作量减少了92%。

27 04-09 14:45 一财最热 点击关闭

阅读全文
相关推荐

2025年3月中国采购经理指数运行情况

2025年3月中国采购经理指数运行情况
国家统计局服务业调查中心中国物流与采购联合会 一、中国制造业采购经理指数运行情况...

为什么AI本质上就是个“压缩机”?

为什么AI本质上就是个“压缩机”?
谷歌最近发了篇论文,重申了一个来自信息论的观点——“压缩即智能”。当然,论文的新...

年内28家信用卡分中心“退场”

年内28家信用卡分中心“退场”
4月份以来,全国性商业银行信用卡异地机构关停节奏显著加快。公开信息显示,交通银行...

2025年5月5日全国主要批发市场粳米(普通)价格行情

2025年5月5日全国主要批发市场粳米(普通)价格行情
市场 最高价 最低价...

通宝光电北交所IPO获受理

通宝光电北交所IPO获受理
  根据北交所公开发行并上市信息,常州通宝光电股份有限公司(通宝光电)北交所IP...

V观财报|航天动力涉嫌信披违法违规被立案调查

V观财报|航天动力涉嫌信披违法违规被立案调查
中新经纬8月12日电 12日盘后,航天动力(600343)发公告称,收到中国证券...

机构认为港股在1月仍有上行空间 建议关注高分红等3类股

机构认为港股在1月仍有上行空间 建议关注高分红等3类股
  港股上周在圣诞节日气氛浓厚期间上升,恒生指数全周升1.9%,收报20,090...

大连电瓷:子公司预中标约7100万元国家电网采购项目

大连电瓷:子公司预中标约7100万元国家电网采购项目
大连电瓷公告,4月30日,国家电网有限公司发布了“国家电网有限公司2025年第十...

查奇之战:穆斯林入侵者征服旁遮普_加兹尼_默罕默德_希亚

查奇之战:穆斯林入侵者征服旁遮普_加兹尼_默罕默德_希亚
公元11世纪,距穆斯林首次进攻印度已过去数百年之久,主力也由阿拉伯人换成更具侵略...

哪吒汽车,又冲上热搜!

哪吒汽车,又冲上热搜!
(原标题:哪吒汽车,又冲上热搜!) 【导读】哪吒汽车App又被曝断网、官网已...