为什么AI本质上就是个“压缩机”?
2025-08-20 【 字体:大 中 小 】

谷歌最近发了篇论文,重申了一个来自信息论的观点——“压缩即智能”。当然,论文的新意,在于通过对“压缩率”的定义并提出相关计算方法,从而可以尝试对“压缩即智能”给出一个定量的解释,并将其与人工智能大模型联系起来。
所谓“压缩”,全称当然是“数据压缩”。正如一本写得相当生动有趣的普及读物《数据压缩入门》所指出的:
“我们需要知道这样一件事:我们当下生活在其中的这个计算世界,完全建立在数据压缩算法之上。
是的,每个部分都是如此。
每个网页、每个图像、每首歌、每个关于猫的视频、每部流媒体网络电影、每张自拍照、每次电子游戏下载、每个微型交易,甚至是操作系统的每次更新,所有这一切都得益于压缩算法。事实上,哪怕只是想通过互联网传输一个二进制位的数据,也离不开压缩的内容。
数据压缩技术最让人惊异之处在于,它与过去40年里个人计算的很多重大改变有关,但很少有人知道这一点。”
信息论创始人克劳德·香农在为传输信息进行压缩编码的过程中,意识到这种压缩是有一个极限阈值的,超过这个阈值,被压缩编码的信息就无法通过解码,复原为原始信息了,而是有相当一部分信息就此被损失掉,比如作为“有损压缩”的MP3音乐格式,听上去效果就要比CD差不少。这个阈值被命名为“香农熵”。相应地,“无损压缩”就是压缩率控制在“香农熵”以下,比如解码后可以比较好地恢复到CD音质的APE、FLAC等格式。所有的现代压缩算法,可以说都是在顽强地与“香农熵”作斗争,希望开发出以尽可能高的压缩率来“高保真”地保存、传输和复制信息的技术。
但其实数据压缩远不只是算法问题,而是涉及人类对世界根本的认知方式。
我们且撇开数据压缩算法中的数学原理,单就“压缩即智能”这一观点,其实和我在某篇机器学笔记里所说的“模型即智能”,完全是等价的,因为所谓模型,就是给无限变量的复杂世界建一个有限变量的模,通过被大大压缩的变量数量,及其相互作用的结构,来有效模拟复杂世界在某一特定时空中的运作模式(用本届诺奖得主杰弗里·辛顿的术语来说,就叫做“泛化”,即通过少量已知数据准确预知大量未知数据),从而让我们可以作出预测和决策。
事实上,所有的科学公式都不外乎是一种模型,因此也不外乎是一种数据压缩方式。模型总是只能在一定时空中起作用,哪怕它是牛顿定律,因为模型对数据的压缩根本来说总是为了拟合眼前的“事实”——这正是“实验科学”的本质。更高的压缩率一般意味着更好的模型,也就意味着更高的智能,就好比万有引力定律对近代的观测宇宙有最高的压缩率(也就是用最精炼的公式定义了这一宇宙的运作方式),因此牛顿不仅比绝大多数人,而且比绝大多数科学家有更高的智能。
为什么我们可以说“压缩即智能”或“模型即智能”?因为压缩变量数据或者建模,就意味着“主动”地挑选出一部分被认为是关键的变量,而舍弃绝大多数被认为是冗余的信息,来为这个看上去无比复杂的世界建模,这种认知的“主动性”、这种应对世界的“主动性”——而不是像(我们所以为的)石头那样被动接受一切——不正是当我们谈及“智能”的时候,真正让我们感觉make sense的东西吗?
并且智能和学习能力高度相关。什么是学习?无论人的学习还是机器学习,本质不都是学习用建立在有限数据集基础上的模型去应对这个无限世界,并在应对的过程中根据反馈不断调整以至迭代模型吗?所以“学习即智能”很大程度上也与“压缩即智能”等价,人工智能大语言模型,正如“GPT之父”伊尔亚·苏茨克维多次强调的,本质上就是个效率极高的数据压缩机。

《数据压缩入门》
[美]柯尔特·麦克安利斯 亚历克斯·海奇 著
人民邮电出版社2020年3月版
举报 文章作者 
毕席
经济人的人文素养阅读 相关阅读
报告:广东位居人工智能第一梯队,仍需构建“五大链条”专家建议需重视既懂产业又懂AI技术的复合型人才培养
303 04-24 20:19
AI进化速递丨天工Ultra研发企业:即将量产人形机器人①全球首个“AI+甲骨文”创新赛事在豫启动;②上海交大推出AI三大基金和“AI十条”;③天工Ultra研发企业:即将量产人形机器人,未来价格和小轿车差不多。
104 04-20 20:17
AI进化速递 | 腾讯云大模型知识引擎已率先接入MCP腾讯云大模型知识引擎已率先接入MCP,拓展AI应用边界;阿里通义万相开源首尾帧生视频模型。
107 04-18 20:38
AI进化速递丨国产AI大模型“AI孙悟空”亮相大阪世博会国产AI大模型“AI孙悟空”亮相大阪世博会;字节跳动正计划推出自家的AI智能眼镜;贝瑞基因GENOisi™智能体正式发布。
122 04-13 20:37
8个大模型,30个应用场景,13款智能终端……广东一大波AI产品扎堆上新在安全领域,深信服安全大模型可24小时不间断工作,将需要多次手动操作的安全运营工作量减少了92%。
27 04-09 14:45 一财最热 点击关闭
猜你喜欢
牛!《热辣滚烫》不仅让贾玲再次封神,还带火了金牌绿叶张小斐
9833
赛力斯2023年预亏最高27亿元 控股股东质押1000万股公司股份
2541
“刻俩萝卜章骗了300亿”,“承兴案”维持原判!她曾派人用假工牌冒充京东员工行骗,还截留快递
4041
恒大汽车迎来“神秘买家”,港股复牌开盘大涨最高逾113%
2392
宫颈癌抗体偶联药物Tisotumab Vedotin上市许可申请获欧洲药品管理局批准审查
8424
今创集团(603680)7月22日主力资金净卖出5238万元
3504
比亚迪与厄瓜多尔经销商Andor达成战略合作
3449
广西壮族自治区政协十三届二次会议开幕
4620
上月刚导演完“黑色星期一”,今晚非农还会爆雷吗?
6141
股票配资炒股看配资:高杠杆下的财富游戏与风险控制
1009
重金布局AI!量化行业新竞赛来了
四家国有大行召开定增投资者说明会
匆匆6年 “文旅巨头”复星旅文退市倒计时 私有化后走向何方?
深圳新房库存告急?真相是——
分析人士警告:特朗普关税或致德国经济连续第三年萎缩
厦门银行回应一季度业绩波动:投资业务账面浮亏,ROI有望逐季改善
4月25日香港六福珠宝黄金价格37100港币两
4月2日基金净值:华泰柏瑞季季红债券A最新净值10777,涨005%
4月2日基金净值:博时宏观回报债券AB最新净值14556,涨015%
关税保护救不了美国制造业
