电脑,手提

ADVERTISEMENT


aidj

关注
用户被禁止发言 | Credits 52631   
在一次訪談中,Andrej Karpathy 提出了一個逐漸受到關注的觀點:未來的大語言模型,未必會持續走向更大規模,反而可能朝向更小、更精煉的方向發展。他指出,目前模型之所以動輒需要數百億甚至上兆參數,很大程度並不是因為推理能力需要這麼大的容量,而是因為訓練資料本身充滿雜訊

現今多數模型都是從網路資料中學習,而這些資料包含大量低品質內容,例如破碎的 HTML、論壇留言、重複文本,甚至是其他 AI 生成的內容。這些資訊雖然數量龐大,但真正具備知識密度與推理價值的部分其實有限,導致模型必須用大量參數去「壓縮並記住」這些雜亂內容,形成一種效率偏低的狀態。也因此,有人用「壓縮率很低」來形容這種現象,例如每個 token 分配到的資訊量非常有限,模型更像是在記住一個模糊的整體印象,而不是精確理解

在這樣的背景下,近來開始出現一種更激進但具有啟發性的說法:如果訓練資料能夠大幅清洗,只保留高品質內容,那麼模型規模可能不需要這麼大,甚至有機會將參數量壓縮到約 10 億等級,同時維持相當程度的能力。這樣的說法雖然帶有一定程度的推論與放大,但它點出了一個核心方向——影響模型表現的關鍵,不只是參數規模,還包括資料品質與資訊密度

Karpathy 也進一步提出一個架構上的想法:將模型拆分為兩個部分。一個是較小的「認知核心」,專注於推理與問題解決;另一個則是外部記憶系統,用來存放事實性資訊,並在需要時查詢。這樣的設計其實更接近人類的學習方式——我們不會記住所有細節,而是掌握思考方法,並在需要時查找資料

這種思路也與近年 RAG(Retrieval-Augmented Generation)等方法不謀而合。過去常被視為補強手段的外部知識檢索,現在反而可能成為主要架構的一部分。同時,模型效率的提升也已經在某些案例中出現,例如較小規模但經過優化的模型,已能在部分任務上超越早期更大的模型,顯示「更小但更乾淨」的方向具備實際潛力

如果這樣的趨勢成立,未來的一個重要變化是:高品質模型可能不再完全依賴大型資料中心,而是能在本地設備上運行。這不僅影響技術發展方向,也可能重新分配產業競爭的重心——從單純堆疊算力與參數,轉向資料品質、模型設計,以及系統整合能力

#1Bmodel
#karpathy
382阅读
2回复 倒序

ADVERTISEMENT


使用者 Lv.20 2#

开国长老 | Credits 175063   

aidj 楼主 3#

用户被禁止发言 | Credits 52631   
Token正让中国成为AI时代的能源出口大国。中国正在出口一种比芯片,比石油还要宝贵的战略资源:Token。#时代的荣耀 #全球创作者计划 #零基础看懂全球 #Token出海 #算力

已显示全部内容