【太平洋科技快訊】5 月 9 日,OpenAI 在其緊湊型推理模型 o4-mini 上推出了強化微調技術 ( Reinforcement Fine-Tuning, RFT ) ,為定制基礎模型以適應特定任務提供了強大工具。
o4-mini 是 OpenAI 于 2025 年 4 月發布的一款緊湊型推理模型,支持文本和圖像輸入,擅長結構化推理和鏈式思維提示 ( chain-of-thought prompts ) 。通過在 o4-mini 上應用 RFT,OpenAI 為開發者提供了一個輕量但強大的基礎模型,適合高風險、領域特定的推理任務,其計算效率高,響應速度快,非常適合實時應用場景。
使用 RFT 技術需要完成四個步驟:設計評分函數、準備高質量數據集、通過 OpenAI API 啟動訓練任務、持續評估和優化模型表現。多家早期采用者已展示 RFT 在 o4-mini 上的潛力,凸顯了 RFT 在法律、醫療、代碼生成等領域的定制化優勢。
據悉,RFT 目前向認證組織開放,訓練費用為每小時 100 美元。若使用 GPT-4o 等模型作為評分工具,則額外按標準推理費率計費。為了鼓勵數據共享,OpenAI 還推出激勵措施,同意共享數據集用于研究的組織可享受 50% 的訓練費用折扣。