将每个决策视为一项赌注,包含正确的概率和奖励,以及错误的概率和惩罚。通常,获胜的决策是一个具有正期望值的决策,这意味着奖励乘以其发生的概率大于惩罚乘以其发生的概率,而最佳决策是期望值最高的那个。 #principleoftheday