大模型身瘦路更宽
时间:2025-01-26 18:56:05来源:经济日报
春节将至,中国人工智能(AI)公司密集发放节日大礼包,展现出2025年大模型竞争的新动向。仅1月20日一天就有4家公司推出新品:深度求索公司DeepSeek发布了DeepSeek-R1模型,月之暗面公司Kimi推出了k1.5多模态思考模型,两家公司新模型性能都对标OpenAI o1正式版。MiniMax海螺上线语音功能,字节豆包上线实时语音大模型,很明显是在对标OpenAI的实时语音功能。

自2022年11月美国人工智能公司OpenAI发布GPT-3.0引燃全球AI大模型热潮以来,全球科技厂商纷纷入局,密集上线大模型。

OpenAI的火爆来自“大力出奇迹”路线,以规模作为大模型的制胜法宝。但这也让AI大模型的发展陷入了一个怪圈:为追求更高的性能,模型体积不断膨胀,参数数量呈现指数级增长。这种“军备竞赛”型开发模式,带来了惊人的能源消耗和训练成本,难以为继。受大模型训练的高昂成本拖累,OpenAI在2024年的亏损额可能达到50亿美元,业内专家预计到2026年其亏损将进一步攀升至140亿美元。

而中国公司运用剪枝、量化、知识蒸馏等一系列创新技术,开启了大模型“瘦身”新风尚,走出一条“小而强”的新路径。以DeepSeek为例,R1在多个基准测试中与美国OpenAI公司的o1持平,但成本仅为o1的三十分之一。模型性能的追赶速度也很快,OpenAI推出正式版o1模型是在2024年12月,仅仅1个多月后,DeepSeek就发布了性能相当的R1模型。

DeepSeek的成功证明,大模型创新不一定要依赖最先进的硬件,而是可以通过聪明的工程设计和高效的训练方法实现。这种技术突破不仅降低了AI大模型的硬件门槛和能源消耗,更重要的是为AI技术普惠化铺平了道路。因为更小的模型意味着更低的部署成本、更快的响应速度和更广泛的应用场景。在医疗、教育、制造等诸多领域,轻量级AI模型都将带来革命性的转变。

从信息技术发展历史看,“小型化”进程也是大势所趋。计算机曾是占据整个房间的大型机,后来发展成可作为桌面设备的电脑,又进化为便携式笔记本。手机从古早的砖头式“大哥大”,改进为小巧的功能机,又进化至如今的智能终端。DeepSeek的成果,标志着AI大模型正在经历类似的进化过程。这种“小而强”的AI模型,将推动人工智能从实验室走向千家万户,从云端走向边缘端。

模型并非越大越好,而是越精越妙。大模型“瘦身”促进了AI技术的创新和突破。为了在减少参数的同时保持甚至提升模型性能,研究人员不得不深入挖掘模型架构的优化空间,探索更高效的算法和训练方法。这一过程推动了人工智能基础理论的发展,也为相关技术的跨领域应用开创了新局面。

当然,大模型“瘦身”没到终点站,仍面临诸多挑战。如何在保证模型性能的前提下实现最大程度的“瘦身”,是当前需要解决的关键问题。同时,“瘦身”后的模型如何在不同场景下保证适应性和稳定性,也需要进一步验证和优化。

在快节奏的商业环境中,高效、灵活、低成本的解决方案更具竞争力。追求极致性价比,一向是中国公司的强项。在诸多中国公司的竞争中,AI大模型正从曾经的“庞然大物”逐渐蜕变为轻盈高效的“智慧精灵”,在保持强大认知能力的同时,大大降低了计算资源的消耗。中国公司也从模仿者和追随者,逐渐转变为创新者和引领者。展望未来,大模型“瘦身”后必将走向更宽广的坦途。

标签:

生活指南
  • 存款考核变摊派 银行缘何热衷全员营销

    在监管明确要求不得将存款考核指标下达至非营销部门或个人后,仍有

  • 基金加仓和补仓的具体区别是什么?基金跌几个点补仓?

    基金加仓和补仓的具体区别是什么?1、两者的概念不同:一般来说,加

  • 专家学者共赴闽北绿色之约 探索生态资产转化

    中新网南平12月2日电 (张丽君 周季)11月29日至12月1日,第二届生

  • 2025年中国足协杯资格赛将于今年12月举行

    新华社北京11月11日电 中国足协11日宣布,2025年中国足协杯资格赛

  • 到位968624元!南召县法院强制执行一批拖欠农民工工资案

    近日,南召县人民法院执行局强制执行一批拖欠农民工工资案,为15名农民

  • 西峡县法院:“学·思”论坛第三十五期丨刑事审判实务中的重难点

    为进一步提升刑事案件审判工作质效,处理好刑事审判实务中遇到的各类重

  • 中国信通院公布2024年可信开源最新评估结果|独家焦点

    中新网北京10月17日电 (记者 刘育英)2024 OSCAR开源产业大会16日

  • 同心筑梦 杭州拱墅“新”力量助力新发展 焦点速看

    近日,浙江省杭州市拱墅区统战理论专题培训班暨党外干部党的新理论

  • 全球热消息:“世界市长对话·杭州”开启城市治理新理念对话

    9月25日,世界市长对话·杭州暨第九届杭州国际友城市长论坛在杭州举

  • 青海湖流域生态保护再升级:青海启动一体化修复工程方案编制-热讯

    近日,青海省自然资源厅组织开展《青海湖流域山水林田湖草沙一体化

  • AIGC带来崭新机遇 报告展望AI场景应用延伸|天天观热点

    中新网北京9月18日电 (记者 张素)AIGC(生成式人工智能)带来崭新机

  • 银川机场7月旅客吞吐量109.2万人次 超2019年同期水平-快资讯

    中新网银川8月2日电 (记者 李佩珊)记者2日从宁夏机场公司获悉,今

  • “清凉补贴”、暑期免佣……出行平台多举措应对夏季高温

    连日来,我国大部分地区持续高温天气。在此背景下,行车安全成为公

  • 邓州市构林镇卫生院:整治不正之风 优化医疗好环境|每日资讯

    5月16日,邓州市构林镇卫生院召开医疗领域群众身边的不正之风和腐败问

  • 全球热议:增强储气库调峰保供能力

    随着天气转暖,北方地区已经逐渐停止供暖,天然气冬季保供步入收尾

  • 通讯|中国先进农业采收技术造福巴基斯坦农民 世界看点

    新华社巴基斯坦珀格尔4月28日电 通讯|中国先进农业采收技术造福巴

  • 民生
    • 吃完这些药谁劝都别喝酒,不只头孢→

    • 2024年中国跆拳道公开赛落幕 中国队表现不俗

    • 前三季度长江经济带11省市外贸进出口总值达14.61万亿元

    • 广交会观察:跨境电商助中国企业“逐浪出海”_全球观速讯