说明: 本题集题源为老师上课课件、练手题以及教材课后习题,仅供参考。实则为无法预测的命运之舞台doge

  1. 逻辑与推理相关题目:

  2. 下面描述的问题哪个不属于因果分析的内容?

    • 如果商品价格涨价一倍,预测销售量(sales)的变化
    • 如果广告投入增长一倍,预测销售量(sales)的变化
    • 如果放弃吸烟,预测癌症(cancer)的概率
    • 购买了一种商品的顾客是否会购买另外一种商品

    ❌属于干预
    ❌属于干预
    ❌属于反事实
    ✔️属于相关性分析(“关联”),未达到因果分析层次。(上面两个阶段才是)

  3. 应用归结法证明以下命题集是不可满足的。

    αββγ¬α¬γ.\begin{align} \alpha&\lor\beta\\ \beta&\rightarrow\gamma\\ \lnot\alpha&\land\lnot\gamma. \end{align}

    证明:由(2)(2)蕴含消除得

    ¬βγ \begin{equation} \lnot\beta\lor\gamma \end{equation}

    (1)(1)(4)(4)归结得

    αγ \begin{equation} \alpha\lor\gamma \end{equation}

    (3)(3)德摩根定理:

    ¬(αγ) \begin{equation} \lnot(\alpha\lor\gamma) \end{equation}

    (5)(5)(6)(6)矛盾,故无法同时满足。

  4. 已知

    (x)(F(x)G(x)H(x))¬(x)(F(x)G(x))\begin{align} &(\forall x)(F(x)\rightarrow G(x)\lor H(x))\\ &\lnot(\forall x)(F(x)\rightarrow G(x)) \end{align}

    试证明(x)(F(x)H(x))(\exists x)(F(x)\land H(x))

    证明:

    (x)¬(F(x)G(x))((8))(x)¬(¬F(x)G(x))((9)蕴含消除)(x)(F(x)¬G(x))((10))F(a)¬G(a)((11))F(a)((11))¬G(a)((11))F(a)G(a)H(a)((7)全称量词消去)G(a)H(a)((13)假言推理)H(a)((14)(16))F(a)H(a)((13)(17))(x)(F(x)H(x))(存在量词引入) \begin{align} &\exists(x)\lnot(F(x)\rightarrow G(x))\hspace{1em}(\text{由}(8)\text{得})\\ &\exists(x)\lnot(\lnot F(x)\lor G(x))\hspace{1em}((9)\text{蕴含消除})\\ &\exists(x)(F(x)\lor\lnot G(x))\hspace{1em}(\text{由}(10)\text{得})\\ &F(a)\land\lnot G(a)\hspace{1em}(\text{由}(11)\text{得})\\ &F(a)\hspace{1em}(\text{由}(11)\text{得})\\ &\lnot G(a)\hspace{1em}(\text{由}(11)\text{得})\\ &F(a)\rightarrow G(a)\lor H(a)\hspace{1em}(\text{由}(7)\text{全称量词消去})\\ &G(a)\lor H(a)\hspace{1em}(\text{由}(13)\text{假言推理})\\ &H(a)\hspace{1em}(\text{由}(14)\text{与}(16)\text{得})\\ &F(a)\land H(a) (\text{由}(13)\text{与}(17)\text{得})\\ &(\exists x)(F(x)\land H(x))(\text{存在量词引入}) \end{align}

  5. 下面的因果图给出了不同变量之间的依赖关系:DAG
    (1)请写出图中88个变量之间的联合概率形式,并区分哪些变量是内生变量,哪些变量是外生变量;

    (1):

    P(X1,X2,,X8)=P(X1)×P(X2X4,X5)×P(X3X1)×P(X4X1,X3,X5)×P(X5)×P(X6X3)×P(X7X4,X6,X8)×P(X8X5) \begin{aligned} &P(X_1,X_2,\cdots,X_8)\\ =&P(X_1)\times P(X_2\mid X_4,X_5)\times P(X_3\mid X_1)\times P(X_4\mid X_1,X_3,X_5)\\ &\times P(X_5)\times P(X_6\mid X_3)\times P(X_7\mid X_4,X_6,X_8)\times P(X_8\mid X_5) \end{aligned}

    所以外生变量为X1X_1X5X_5,内生变量为X2,X3,X4,X6,X7,X8X_2,X_3,X_4,X_6,X_7,X_8.

    (2)写出X6X_6X8X_8之间所有路径及其包含的结构,并给出五个可能的限定集ZZ,使其阻塞结点X6X_6X8X_8

    (2):
    节点X6X_6X8X_899条路径:
    X6X7X8X_6\rightarrow X_7\leftarrow X_8(包含汇连结构,阻塞需要X7X_7不在ZZ中);
    X6X3X4X7X8X_6\leftarrow X_3\rightarrow X_4\rightarrow X_7\rightarrow X_8(包含链、分连结构,阻塞需要X3X_3X4X_4X7X_7ZZ中);
    X6X3X4X5X8X_6\leftarrow X_3\rightarrow X_4\leftarrow X_5\rightarrow X_8(包含分连、汇连结构,阻塞需要X3X_3X5X_5ZZ中,或X4X_4不在ZZ中);
    X6X3X4X2X5X8X_6\leftarrow X_3\rightarrow X_4\rightarrow X_2\leftarrow X_5\rightarrow X_8(包含链、分连、汇连结构,阻塞需要X3X_3X4X_4X5X_5ZZ中,或X2X_2不在ZZ中);
    X6X3X1X4X7X8X_6\leftarrow X_3\leftarrow X_1\rightarrow X_4\rightarrow X_7\rightarrow X_8(包含链、分连结构,阻塞需要X1X_1X3X_3X4X_4X7X_7ZZ中);
    X6X3X1X4X5X8X_6\leftarrow X_3\leftarrow X_1\rightarrow X_4\leftarrow X_5\rightarrow X_8(结构及阻塞条件略,下同);
    X6X3X1X4X2X5X8X_6\leftarrow X_3\leftarrow X_1\rightarrow X_4\rightarrow X_2\leftarrow X_5\rightarrow X_8
    X6X7X4X5X8X_6\rightarrow X_7\leftarrow X_4\leftarrow X_5\rightarrow X_8
    X6X7X4X2X5X8X_6\rightarrow X_7\leftarrow X_4\rightarrow X_2\leftarrow X_5\rightarrow X_8
    综上所述,阻塞X6X_6X8X_8需要ZZ包含{X3}\{X_3\}{X4,X5}\{X_4,X_5\}且不包含X7X_7(具体列举省略)。

  6. 机器学习(监督学习)相关题目:

  7. 决策树建立过程中,使用一个属性对某个结点对应的数据集合进行划分后,结果具有高信息熵(high entropy),对于结果的描述,最贴切的是()。

    • 纯度高
    • 纯度低
    • 有用
    • 无用
    • 以上描述都不贴切

    在决策树中,信息熵用于度量数据的混乱程度,熵值越高表示纯度越低。

  8. Adaboosting的迭代中,从第tt轮到第t+1t+1轮,某个被错误分类样本的惩罚增加了,可能因为该样本( )。

    • 被第tt轮训练的弱分类器错误分类
    • 被第tt轮后的集成分类器(强分类器)错误分类
    • 被到第tt轮为止训练的大多数弱分类器错误分类
    • B和C都正确
    • A,B和C都正确
  9. 考虑下面一个数据集,它记录了某学生多次考试的情况,请根据提供的数据按要求构建决策树。

    是否通过考试 是否认真复习 是否超常发挥

    (1)根据信息增益率选择第一个属性,构建一个深度为11的决策树(根结点的深度为11)。
    (2)根据信息增益率构建完整的决策树。请回答,这两个决策树的决策结果是否和训练数据一致,并解释说明。

    (1)先计算整个数据集的信息熵:S=68log6828log280.8113S=-\frac{6}{8}\log\frac{6}{8}-\frac{2}{8}\log\frac{2}{8}\approx 0.8113
    再计算特征“是否认真复习”的信息增益:

    Gain(D,A)=0.8113(58×0+38×0.9183)0.4669 \operatorname*{Gain}(D,A)=0.8113-\left(\frac{5}{8}\times 0+\frac{3}{8}\times 0.9183\right)\approx 0.4669

    其中000.91830.9183分别为“是否认真复习”被分类为“是”和“否”的信息熵。
    信息增益率:

    Gain-ratio(D,A)=0.466958log5838log380.4892 \operatorname*{Gain-ratio}(D,A)=\frac{0.4669}{-\frac{5}{8}\log\frac{5}{8}-\frac{3}{8}\log\frac{3}{8}}\approx 0.4892

    类似可得特征“是否超常发挥”的信息增益为0.8113(12×0.8113+12×0.8113)=00.8113-\left(\frac{1}{2}\times 0.8113+\frac{1}{2}\times 0.8113\right)=0,故信息增益率也为00
    因此第一个属性选择“是否认真复习”,构建决策树:
    根结点:是否认真复习?
    若是,则预测“通过考试=是”。
    若否,则预测“通过考试=否”。

    (2)基于第一问结果,构建完整决策树:
    根结点:是否认真复习?
    若是,则叶结点预测“通过考试=是”。
    若否,则根据“是否超常发挥”划分:
    若超常发挥=否,则叶结点预测“通过考试=否”。
    若超常发挥=是,则叶结点预测类别需确定。由于该分支两个样本类别各半,通常取多数类,但此处平局。若取父结点多数类(否),则预测“通过考试=否”;若取“是”,则预测“通过考试=是”。这里按常见做法取“否”。

    分析决策结果是否和训练数据一致:对于第一个决策树,有一个错误分类结果(第六行);对于第二个决策树,无论“认真复习=否”且“超常发挥=是”时分类为“是”或“否”,都会有一个错误分类结果(第八行或第六行)。这是因为样本中属性完全相同时,存在不同的结果,而缺乏进一步划分的属性。

  10. 机器学习(无监督学习)相关题目:

  11. 结合掷硬币的例子,根据如下55轮(每轮投掷1010次硬币)观测的结果,使用EM算法分别估计硬币AA和硬币BB被投掷为正面的概率。

    轮次
    1 H H T T T T T H T H
    2 T T H T H H H H T H
    3 T T T T T T T T T T
    4 H T H H H H H H H H
    5 H T T T H H T H H T

    参考答案(具体计算略,可参见笔记):
    初始化两枚硬币的概率为 0.300.300.700.70

    迭代次数 硬币AA为正面次数 硬币AA为反面次数 硬币BB为正面次数 硬币BB为反面次数 硬币AA投掷正面概率θA\theta_A 硬币BB投掷正面概率 θB\theta_B
    1 6.82 18.19 17.18 7.81 0.27 0.69
    2 1.89 21.12 22.11 4.87 0.08 0.82
    3 1.52 15.16 22.48 10.83 0.09 0.67
    4 1.09 10.36 22.91 15.64 0.09 0.59
    5 1.01 9.79 22.99 16.21 0.09 0.59
  12. 对于高斯混合模型(GMM)的EM算法,M步主要计算():

    • 隐变量znz_n对应的后验概率rnkr_{nk}
    • 混合系数πk\pi_k、均值μk\mu_k、协方差Σk\Sigma_k的闭式更新
    • 模型最优簇数kk的确定值
    • 样本xnx_n属于各高斯分量的似然概率

    ❌属于E步计算内容
    ✔️这些都是模型的参数,在M步被重新计算,使得期望似然函数最大化
    ❌属于超参数,在EM算法前给定
    ❌属于E步计算内容

  13. EM算法和K-均值聚类算法有着非常相似的迭代结构,可以说K-均值聚类算法是EM算法的一种特殊实现。如果将K-均值聚类中的聚类质心作为隐变量,试从EM算法角度来解释K-均值聚类算法,即描述K-均值聚类算法的E步骤和M步骤。

    k-means算法可以被看做EM算法的一种特殊实现,其隐变量即为各聚类中心。在E步骤中,通过欧氏距离来估计各数据点最有可能归属于哪个聚类中心;在M步骤中,通过计算均值更新聚类中心位置来最大化这些数据点属于该聚类中心的可能性。

  14. 深度学习相关题目:

  15. 以下哪一项不是深度学习存在的问题?()

    • 可解释性差
    • 需要大量标注数据
    • 环境适应能力差
    • 需要手动选择特征

    ❌ 深度学习的“黑箱模型”是其解释性差的原因;
    ❌ 这是深度学习训练的瓶颈(需要大量高质量样本训练);
    ❌ 深度学习模型特征高度依赖环境,迁移学习难度较大;
    ✔️ 这恰恰是深度学习与传统机器学习的区别:深度学习的能够自动进行特征学习,不再依赖人工特征工程。

  16. 下面对误差反向传播(error back propagation,BP)描述不正确的是()。

    • BP算法是一种将输出层误差反向传播给隐藏层进行参数更新的方法
    • BP算法将误差从后向前传递,获得各层单元所产生误差,进而依据这个误差来让各层单元修正各单元参数
    • 对前馈神经网络而言,BP算法可调整相邻层神经元之间的连接权重大小
    • 在BP算法中,每个神经元单元可包含不可偏导的映射函数

    映射函数必须可导,否则反向传播无法进行。

  17. 下列对感知机的描述哪个是错误的?( )

    • 感知机的参数包括权重和偏置
    • 感知机可以表示与、或、非逻辑电路
    • 22层感知机可以表示异或门
    • 理论上感知机不能近似所有实数空间中的有界闭集函数


    ❌这三种逻辑对应的问题都是线性可分的(即可以用一条直线将正负样本分开)
    ❌虽然异或门属于非线性可分问题,但22层感知机可以用一层隐藏层将其转化为几个线性可分问题的组合(如x1x2=(x1x2)¬(x1x2)x_1\oplus x_2=(x_1\lor x_2)\land\lnot(x_1\land x_2)
    ✔️ 根据通用近似定理(Universal Approximation Theorem),一个两层的前馈神经网络(只要隐藏层足够大,且使用非线性激活函数),就可以逼近任意连续函数。

  18. 关于sigmoid激活函数,下列描述正确的是( )。

    • 它是凸函数,凸函数无法解决非凸问题
    • 它可以有负值
    • 它无法配合交叉熵损失函数使用
    • 当输入值过大或者过小时,梯度趋近于00,容易造成梯度消失问题

    ❌sigmoid函数在(,0)(-\infty,0)上为凸函数,而在(0,)(0,\infty)上为凹函数
    ❌sigmoid函数的值域为(0,1)(0,1)
    ❌二者完全可以结合使用(sigmoid的输出作为交叉熵的概率输入)
    ✔️ 因为sigmoid导数σ(x)=σ(x)(1σ(x))\sigma'(x)=\sigma(x)(1-\sigma(x)),所以当x|x|\to\infty时,σ(x)0\sigma'(x)\to 0,因而易造成梯度消失问题

  19. 下面对前馈神经网络这种深度学习方法描述不正确的是( )。

    • 是一种端到端学习的方法
    • 是一种监督学习的方法
    • 实现了非线性映射
    • 隐藏层数目大小对学习性能影响不大

    ❌原始输入直接到输出(无人工特征设计)
    ❌训练数据带标签,常用于分类/回归(注:基础的神经网络(CNN,RNN,GAN)均属于监督学习,无监督学习的神经网络包括VAE,对比学习模型等)
    ❌非单层感知机均属于非线性映射
    ✔️ 隐藏层数目太少会导致欠拟合,太多可能会导致梯度消失/爆炸或过拟合

  20. 以下全连接层和卷积层,各自的参数为多少?
    CNN
    (a) 35
    (b) 3

    (a)全连接层参数为7×5=357\times 5=35
    (b)卷积层参数为33(对应红、绿、蓝三条线权重)

  21. 请写出卷积维度计算公式(给定输入维度WW,卷积核维度FF,步长SS,填充维度PPN=N=W+2PFS+1\lfloor\frac{W+2P-F}{S}\rfloor+1

  22. 考虑神经网络中的一个神经元(如下图):
    neuron
    其接收两个输入x1,x2{0,1}2x_1,x_2\in\{0,1\}^2,计算其线性组合,并进入激活函数σ(z)\sigma(z),具体如下:

    σ(z)={1,z00,otherwise.\sigma(z)=\left\{ \begin{aligned} &1,\hspace{1em} z\geq 0\\ &0,\hspace{1em} \mathrm{otherwise}. \end{aligned} \right.

    偏置b=5b=5。现需要用这个神经元实现与非门功能(当且仅当x1x_1x2x_2均为11时,输出00)。请给出一组合适的权重w1w_1w2w_2取值。

    由题目要求可知,w1w_1w2w_2需满足以下条件:

    w1+w2+5<0w1+50w2+50 \begin{aligned} w_1+w_2+5<0\\ w_1+5\geq 0\\ w_2+5\geq 0 \end{aligned}

    5w1<0,5w2<5w1-5\leq w_1<0,-5\leq w_2<-5-w_1.(取w1=w2=3w_1=w_2=-3即可)

  23. 关于长短时记忆网络的详细结构(可见LSTM),如下描述正确的是( )。

    • 如果输入xtx_t00向量,则ht=ht1h_t=h_{t-1}
    • 如果ftf_t非常小或者为00,则误差不会被反向传播到较早的时间节点
    • ft,itf_t,i_toto_t的输出是非负数
    • ft,itf_t,i_toto_t的输出可以被看作是概率分布,其输出为非负数且和为11

    ht=ottanh(ct)=ottanh(ftct1+ittanh(WXcXt+Whcht1+bc))h_t=o_t\odot\tanh(c_t)=o_t\odot\tanh(f_t\odot c_{t-1}+i_t\odot \tanh(W_{Xc}X_t+W_{hc}h_{t-1}+b_c))Xt=0X_t=0ht=ht1h_t=h_{t-1}并不成立;
    ❌如果ftf_t非常小或者为00ctc_{t}ct1c_{t-1}的梯度流确实会被切断,但误差仍可通过其他门控单元回传至ht1h_{t-1}及更早状态;
    ✔️ 因为这些门控单元都经过一个sigmoid函数;
    ❌ 这三个门相互独立,没有和的限制

  24. 强化学习相关题目:

  25. 下面对强化学习、监督学习和深度卷积神经网络学习的描述正确的是( )

    • 评估学习方式、有标注信息学习方式、端到端学习方式
    • 有标注信息学习方式、端到端学习方式、端到端学习方式
    • 评估学习方式、端到端学习方式、端到端学习方式
    • 无标注学习、有标注信息学习方式、端到端学习方式
  26. 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略?()

    • 价值函数计算与动作-价值函数计算
    • 动态规划与Q-Learning
    • 贪心策略优化与Q-learning
    • 策略优化与策略评估

    策略迭代由策略优化与策略评估两个步骤交替组成,策略评估指在当前策略下,计算或估计每个状态的价值(即价值函数计算与动作-价值函数的计算,包括动态规划、蒙特卡洛采样、时序差分算法);策略优化是根据评估出的价值函数,对策略进行调整(常使用贪心策略优化,如Q-learning)。

  27. 与马尔可夫奖励过程相比,马尔可夫决策过程引入了哪一个新的元素?()

    • 反馈
    • 动作
    • 终止状态
    • 概率转移矩阵

    MRP={S,Pr,R,γ},MDP={S,A,Pr,R,γ}MRP=\{S,Pr,R,\gamma\},MDP=\{S,A,Pr,R,\gamma\},其中AA即为动作(Action),代表智能体与环境的交互。

  28. 机器人寻路问题简化为下面的2×22\times 2的网格:
    grid
    假设有位于位置的机器人拟从s1s_1这一初始位置向s4s_4这一目标位置移动。机器人每次只能向上或者向右移动一个方格,到达目标位置s4s_4则会获得奖励且游戏终止,机器人在移动过程中如果越出方格(sds_d)则会被惩罚且被损坏,并且游戏终止。奖励值定义如下:当St+1=s4S_{t+1}=s_4时奖励值为11,当St+1=sdS_{t+1}=s_d时惩罚值为1-1,其他情况下奖励值为00。若折扣因子γ=0.99\gamma=0.99,智能体在s1,s2,s3s_1,s_2,s_3的策略都初始化为上,终止状态s4,sds_4,s_d的价值函数定义为00,试通过联立贝尔曼方程给出状态s1,s2,s3s_1,s_2,s_3的价值函数。

    根据价值函数的贝尔曼方程联立方程组:

    {Vπ(s1)=R(s1,,s3)+γVπ(s3)=0+0.99×Vπ(s3)Vπ(s2)=R(s2,,s4)+γVπ(s4)=1+0.99×Vπ(s4)Vπ(s3)=R(s3,,sd)+γVπ(sd)=1+0.99×Vπ(sd)Vπ(s4)=0Vπ(sd)=0 \left\{ \begin{aligned} & V_\pi(s_1)=R(s_1,\text{上},s_3)+\gamma V_\pi(s_3)=0+0.99\times V_\pi(s_3)\\ & V_\pi(s_2)=R(s_2,\text{上},s_4)+\gamma V_\pi(s_4)=1+0.99\times V_\pi(s_4)\\ & V_\pi(s_3)=R(s_3,\text{上},s_d)+\gamma V_\pi(s_d)=-1+0.99\times V_\pi(s_d)\\ & V_\pi(s_4)=0\\ & V_\pi(s_d)=0\\ \end{aligned} \right.

    解得:

    {Vπ(s1)=0.99Vπ(s2)=1Vπ(s3)=1 \left\{ \begin{aligned} & V_\pi(s_1)=-0.99\\ & V_\pi(s_2)=1\\ & V_\pi(s_3)=-1\\ \end{aligned} \right.

  29. 在上题中,若每个状态的价值函数都初始化为00,试优化智能体在状态s3s_3的策略。(提示:使用策略优化定理)

    首先计算状态s3s_3选择上/右动作后分别所得动作-价值函数取值:

    qπ(s3,)=sSP(ss3,)[R(s3,,s)+γVπ(s)]=1×(1+0.99×0)+0×=1qπ(s3,)=sSP(ss3,)[R(s3,,s)+γVπ(s)]=1×(1+0.99×0)+0×=1 \begin{aligned} q_{\pi}(s_{3},\text{上}) & =\sum_{s'\in S}P(s'|s_{3},\text{上})\left[R(s_{3},\text{上},s')+\gamma V_{\pi}(s')\right] \\ & =1\times(-1+0.99\times0)+0\times\cdots=-1 \\ q_{\pi}(s_{3},\text{右}) & =\sum_{s'\in S}P(s'|s_{3},\text{右})\left[R(s_{3},\text{右},s')+\gamma V_{\pi}(s')\right] \\ & =1\times(1+0.99\times0)+0\times\cdots=1 \end{aligned}

    根据动作-价值函数取值比较,智能体在s3s_3应选择向右一个方格的动作,以获得更大回报。于是,经过策略优化后,状态s3s_3处的新策略为π(s3)=arg maxaqπ(s3,a)=\pi'(s_3)=\argmax_aq_π(s_3,a)=\text{右},则将s3s_3处的策略从“上”更新为“右”。

  30. 在上上题中,设下图表示算法的初始状态:
    state
    其中a/ba/b表示对应状态的动作-价值函数的取值,斜线左侧的aa表示qπ(s,)q_\pi(s,\text{上}),斜线右侧的bb表示qπ(s,)q_\pi(s,\text{右})。若α=0.5\alpha=0.5,试给出Q-learning算法的一个片段的执行过程,并给出执行完该片段后每个状态的策略。

    根据Q-learning算法,s1s_1为初始状态,根据当前策略求出智能体应该采取的动作a=arg maxaqπ(s1,a)=a=\argmax_aq_\pi(s_1,a)=\text{上},执行这个动作,得到奖励R=0R=0和进入下一状态s=s3s'=s_3,因此可如下更新对应的动作-价值函数:

    qπ(s1,)qπ(s1,)+α[R+γmaxaqπ(s,a)qπ(s1,)]=0.1+0.5×[0+0.99×max{0,0.1}0.1]=0.0995 \begin{aligned} q_{\pi}(s_{1},\text{上}) & \leftarrow q_\pi(s_1,\text{上})+\alpha[R+\gamma\max_{a'}q_\pi(s',a')-q_\pi(s_{1},\text{上})] \\ & =0.1+0.5\times[0+0.99\times\max\{0,0.1\}-0.1]=0.0995 \end{aligned}

    此时s1s_1状态的q函数更新为0.0995/00.0995/0。接着,令当前状态为s3s_3,此时智能体应该采取的动作a=arg maxaqπ(s3,a)=a=\argmax_aq_\pi(s_3,a)=\text{上},执行这个动作,得到奖励R=1R=-1和进入下一状态s=sds'=s_d,因此可如下更新对应的动作-价值函数:

    qπ(s3,)qπ(s3,)+α[R+γmaxaqπ(s,a)qπ(s3,)]=0.1+0.5×[1+0.99×max{0,0.1}0.1]=0.4005 \begin{aligned} q_{\pi}(s_{3},\text{上}) & \leftarrow q_\pi(s_3,\text{上})+\alpha[R+\gamma\max_{a'}q_\pi(s',a')-q_\pi(s_{3},\text{上})] \\ & =0.1+0.5\times[-1+0.99\times\max\{0,0.1\}-0.1]=-0.4005 \end{aligned}

    此时算法达到终止状态sds_d,该片段结束。此时s3s_3状态的q函数更新为0.4005/0-0.4005/0,最终q函数为:

    0.4005/0-0.4005/0 0/00/0
    0.0995/00.0995/0 0.1/00.1/0

    此时每个状态的策略为:

    \rightarrow
    \uparrow \uparrow