最近遇到了一篇論文,在我完成之前就解決了我的研究問題。分享一下,因為這真是*不可思議*。 簡而言之:顯然你只需訓練50K個參數,就能通過訓練1500個參數獲得良好的性能。 非常酷。最終,這將改變一切。