關於 S1 的一些簡單想法

recap

採用的方法，是基礎於 Qwen2.5-32B-Instruct 訓練的 .

- 團隊構建了一個精選的 1,000 個高質量問題與推理過程的數據集 (s1K)，涵蓋多個領域（數學、物理、統計等）

- 問題的選取基於三個標準：難度 (Difficulty)、多樣性 (Diversity)、品質 (Quality)。

- Budget Forcing, 其中有兩個要素，思考時間，過長或過短都會進行處理讓其達到最適化。

1. 訓練效率節省，s1-32B 模型的訓練時間僅需 26 分鐘 (16 個 H100 GPU)，比傳統方法更省時省力。

2. 採用 1,000 個精選數據，而非數十萬甚至百萬級的數據，顯示「高效樣本學習」的可能性

Q.Budget Forcing 此方法能否完全取代大型語言模型的創新？

Budget Forcing 主要是推理階段 (Inference) 的方法，並非是一種全新的訓練機制，以自己的認知來說，某方面他比較算是其中一種蒸餾的方法之一。 .

Q. 更大的模型仍然有優勢?

以結論來說即使 Budget Forcing 能讓 32B 模型提升 7%，但如果 70B 模型天生就比 32B 強 20%，那麼大家如果有生成的需求，其實還是會需要更大型的 LLM, 這是肯定的。 .

Q. Budget Forcing 跟大型語言模型之間的相處？

Budget Forcing + RLHF (強化學習微調) 或者 Budget Forcing + Retrieval-Augmented Generation (RAG)，總之 Budget Forcing 其實就是一個機制，再這樣組合拳之下就會有很多應用可以展開和想像的空間

. 推測，的確以整體面向，可能會減少對超大規模 GPU 叢集（如 NVIDIA H100、B200）的需求降低，但仍然會購買大量中等規模 GPU 來微調，蒸餾模型。 .

s1 的誕生，證明了雲端的 GPU 是有用的，雲端 GPU 運算可以往「推理加速」的方向發展，而非訓練大型模型（耗時耗力） .

企業可以透過雲端 AI 建立推理服務模型，進而完善自己的內部 AI 伺服器，亦或者當持續運作成本降低時，整體 AI 服務雲端化的可能性就大幅提升。 .

對於 OpenAI, Anthropic, Google 還是會繼續開發 LLM，仔細看完全篇其實就可以理解 Budget Forcing 無法完全取代大模型。 .

不過，這可能會讓開源 AI 變得更具競爭力，因為小型開源模型接下來就可以有更多手段，可以透過 Budget Forcing 來提升表現，使它們在某些應用中能夠與封閉源的 GPT-4、Claude 3 競爭的可能性。

以上為個人想法

歡迎底下留言，理性討論