说明: 本题集题源为老师上课课件、练手题以及教材课后习题,仅供参考。实则为无法预测的命运之舞台doge
-
逻辑与推理相关题目:
-
下面描述的问题哪个不属于因果分析的内容?
- 如果商品价格涨价一倍,预测销售量(sales)的变化
- 如果广告投入增长一倍,预测销售量(sales)的变化
- 如果放弃吸烟,预测癌症(cancer)的概率
- 购买了一种商品的顾客是否会购买另外一种商品
❌属于干预
❌属于干预
❌属于反事实
✔️属于相关性分析(“关联”),未达到因果分析层次。(上面两个阶段才是) -
应用归结法证明以下命题集是不可满足的。
αβ¬α∨β→γ∧¬γ.
证明:由(2)蕴含消除得
¬β∨γ
由(1)与(4)归结得
α∨γ
由(3)德摩根定理:
¬(α∨γ)
(5)与(6)矛盾,故无法同时满足。
-
已知
(∀x)(F(x)→G(x)∨H(x))¬(∀x)(F(x)→G(x))
试证明(∃x)(F(x)∧H(x))。
证明:
∃(x)¬(F(x)→G(x))(由(8)得)∃(x)¬(¬F(x)∨G(x))((9)蕴含消除)∃(x)(F(x)∨¬G(x))(由(10)得)F(a)∧¬G(a)(由(11)得)F(a)(由(11)得)¬G(a)(由(11)得)F(a)→G(a)∨H(a)(由(7)全称量词消去)G(a)∨H(a)(由(13)假言推理)H(a)(由(14)与(16)得)F(a)∧H(a)(由(13)与(17)得)(∃x)(F(x)∧H(x))(存在量词引入)
-
下面的因果图给出了不同变量之间的依赖关系:

(1)请写出图中8个变量之间的联合概率形式,并区分哪些变量是内生变量,哪些变量是外生变量;(1):
=P(X1,X2,⋯,X8)P(X1)×P(X2∣X4,X5)×P(X3∣X1)×P(X4∣X1,X3,X5)×P(X5)×P(X6∣X3)×P(X7∣X4,X6,X8)×P(X8∣X5)
所以外生变量为X1和X5,内生变量为X2,X3,X4,X6,X7,X8.
(2)写出X6到X8之间所有路径及其包含的结构,并给出五个可能的限定集Z,使其阻塞结点X6和X8。
(2):
节点X6到X8共9条路径:
X6→X7←X8(包含汇连结构,阻塞需要X7不在Z中);
X6←X3→X4→X7→X8(包含链、分连结构,阻塞需要X3或X4或X7在Z中);
X6←X3→X4←X5→X8(包含分连、汇连结构,阻塞需要X3或X5在Z中,或X4不在Z中);
X6←X3→X4→X2←X5→X8(包含链、分连、汇连结构,阻塞需要X3或X4或X5在Z中,或X2不在Z中);
X6←X3←X1→X4→X7→X8(包含链、分连结构,阻塞需要X1或X3或X4或X7在Z中);
X6←X3←X1→X4←X5→X8(结构及阻塞条件略,下同);
X6←X3←X1→X4→X2←X5→X8;
X6→X7←X4←X5→X8;
X6→X7←X4→X2←X5→X8;
综上所述,阻塞X6到X8需要Z包含{X3}或{X4,X5}且不包含X7(具体列举省略)。 -
机器学习(监督学习)相关题目:
-
决策树建立过程中,使用一个属性对某个结点对应的数据集合进行划分后,结果具有高信息熵(high entropy),对于结果的描述,最贴切的是()。
- 纯度高
- 纯度低
- 有用
- 无用
- 以上描述都不贴切
在决策树中,信息熵用于度量数据的混乱程度,熵值越高表示纯度越低。
-
Adaboosting的迭代中,从第t轮到第t+1轮,某个被错误分类样本的惩罚增加了,可能因为该样本( )。
- 被第t轮训练的弱分类器错误分类
- 被第t轮后的集成分类器(强分类器)错误分类
- 被到第t轮为止训练的大多数弱分类器错误分类
- B和C都正确
- A,B和C都正确
-
考虑下面一个数据集,它记录了某学生多次考试的情况,请根据提供的数据按要求构建决策树。
是否通过考试 是否认真复习 是否超常发挥 是 是 否 是 是 是 是 是 否 是 是 是 是 是 否 是 否 是 否 否 否 否 否 是 (1)根据信息增益率选择第一个属性,构建一个深度为1的决策树(根结点的深度为1)。
(2)根据信息增益率构建完整的决策树。请回答,这两个决策树的决策结果是否和训练数据一致,并解释说明。(1)先计算整个数据集的信息熵:S=−86log86−82log82≈0.8113;
再计算特征“是否认真复习”的信息增益:Gain(D,A)=0.8113−(85×0+83×0.9183)≈0.4669
其中0和0.9183分别为“是否认真复习”被分类为“是”和“否”的信息熵。
信息增益率:Gain-ratio(D,A)=−85log85−83log830.4669≈0.4892
类似可得特征“是否超常发挥”的信息增益为0.8113−(21×0.8113+21×0.8113)=0,故信息增益率也为0。
因此第一个属性选择“是否认真复习”,构建决策树:
根结点:是否认真复习?
若是,则预测“通过考试=是”。
若否,则预测“通过考试=否”。(2)基于第一问结果,构建完整决策树:
根结点:是否认真复习?
若是,则叶结点预测“通过考试=是”。
若否,则根据“是否超常发挥”划分:
若超常发挥=否,则叶结点预测“通过考试=否”。
若超常发挥=是,则叶结点预测类别需确定。由于该分支两个样本类别各半,通常取多数类,但此处平局。若取父结点多数类(否),则预测“通过考试=否”;若取“是”,则预测“通过考试=是”。这里按常见做法取“否”。分析决策结果是否和训练数据一致:对于第一个决策树,有一个错误分类结果(第六行);对于第二个决策树,无论“认真复习=否”且“超常发挥=是”时分类为“是”或“否”,都会有一个错误分类结果(第八行或第六行)。这是因为样本中属性完全相同时,存在不同的结果,而缺乏进一步划分的属性。
-
机器学习(无监督学习)相关题目:
-
结合掷硬币的例子,根据如下5轮(每轮投掷10次硬币)观测的结果,使用EM算法分别估计硬币A和硬币B被投掷为正面的概率。
轮次 1 H H T T T T T H T H 2 T T H T H H H H T H 3 T T T T T T T T T T 4 H T H H H H H H H H 5 H T T T H H T H H T 参考答案(具体计算略,可参见笔记):
初始化两枚硬币的概率为 0.30 和 0.70迭代次数 硬币A为正面次数 硬币A为反面次数 硬币B为正面次数 硬币B为反面次数 硬币A投掷正面概率θA 硬币B投掷正面概率 θB 1 6.82 18.19 17.18 7.81 0.27 0.69 2 1.89 21.12 22.11 4.87 0.08 0.82 3 1.52 15.16 22.48 10.83 0.09 0.67 4 1.09 10.36 22.91 15.64 0.09 0.59 5 1.01 9.79 22.99 16.21 0.09 0.59 -
对于高斯混合模型(GMM)的EM算法,M步主要计算():
- 隐变量zn对应的后验概率rnk
- 混合系数πk、均值μk、协方差Σk的闭式更新
- 模型最优簇数k的确定值
- 样本xn属于各高斯分量的似然概率
❌属于E步计算内容
✔️这些都是模型的参数,在M步被重新计算,使得期望似然函数最大化
❌属于超参数,在EM算法前给定
❌属于E步计算内容 -
EM算法和K-均值聚类算法有着非常相似的迭代结构,可以说K-均值聚类算法是EM算法的一种特殊实现。如果将K-均值聚类中的聚类质心作为隐变量,试从EM算法角度来解释K-均值聚类算法,即描述K-均值聚类算法的E步骤和M步骤。
k-means算法可以被看做EM算法的一种特殊实现,其隐变量即为各聚类中心。在E步骤中,通过欧氏距离来估计各数据点最有可能归属于哪个聚类中心;在M步骤中,通过计算均值更新聚类中心位置来最大化这些数据点属于该聚类中心的可能性。
-
深度学习相关题目:
-
以下哪一项不是深度学习存在的问题?()
- 可解释性差
- 需要大量标注数据
- 环境适应能力差
- 需要手动选择特征
❌ 深度学习的“黑箱模型”是其解释性差的原因;
❌ 这是深度学习训练的瓶颈(需要大量高质量样本训练);
❌ 深度学习模型特征高度依赖环境,迁移学习难度较大;
✔️ 这恰恰是深度学习与传统机器学习的区别:深度学习的能够自动进行特征学习,不再依赖人工特征工程。 -
下面对误差反向传播(error back propagation,BP)描述不正确的是()。
- BP算法是一种将输出层误差反向传播给隐藏层进行参数更新的方法
- BP算法将误差从后向前传递,获得各层单元所产生误差,进而依据这个误差来让各层单元修正各单元参数
- 对前馈神经网络而言,BP算法可调整相邻层神经元之间的连接权重大小
- 在BP算法中,每个神经元单元可包含不可偏导的映射函数
映射函数必须可导,否则反向传播无法进行。
-
下列对感知机的描述哪个是错误的?( )
- 感知机的参数包括权重和偏置
- 感知机可以表示与、或、非逻辑电路
- 2层感知机可以表示异或门
- 理论上感知机不能近似所有实数空间中的有界闭集函数
❌
❌这三种逻辑对应的问题都是线性可分的(即可以用一条直线将正负样本分开)
❌虽然异或门属于非线性可分问题,但2层感知机可以用一层隐藏层将其转化为几个线性可分问题的组合(如x1⊕x2=(x1∨x2)∧¬(x1∧x2))
✔️ 根据通用近似定理(Universal Approximation Theorem),一个两层的前馈神经网络(只要隐藏层足够大,且使用非线性激活函数),就可以逼近任意连续函数。 -
关于sigmoid激活函数,下列描述正确的是( )。
- 它是凸函数,凸函数无法解决非凸问题
- 它可以有负值
- 它无法配合交叉熵损失函数使用
- 当输入值过大或者过小时,梯度趋近于0,容易造成梯度消失问题
❌sigmoid函数在(−∞,0)上为凸函数,而在(0,∞)上为凹函数
❌sigmoid函数的值域为(0,1)
❌二者完全可以结合使用(sigmoid的输出作为交叉熵的概率输入)
✔️ 因为sigmoid导数σ′(x)=σ(x)(1−σ(x)),所以当∣x∣→∞时,σ′(x)→0,因而易造成梯度消失问题 -
下面对前馈神经网络这种深度学习方法描述不正确的是( )。
- 是一种端到端学习的方法
- 是一种监督学习的方法
- 实现了非线性映射
- 隐藏层数目大小对学习性能影响不大
❌原始输入直接到输出(无人工特征设计)
❌训练数据带标签,常用于分类/回归(注:基础的神经网络(CNN,RNN,GAN)均属于监督学习,无监督学习的神经网络包括VAE,对比学习模型等)
❌非单层感知机均属于非线性映射
✔️ 隐藏层数目太少会导致欠拟合,太多可能会导致梯度消失/爆炸或过拟合 -
以下全连接层和卷积层,各自的参数为多少?

(a) 35
(b) 3(a)全连接层参数为7×5=35;
(b)卷积层参数为3(对应红、绿、蓝三条线权重) -
请写出卷积维度计算公式(给定输入维度W,卷积核维度F,步长S,填充维度P)N=⌊SW+2P−F⌋+1
-
考虑神经网络中的一个神经元(如下图):

其接收两个输入x1,x2∈{0,1}2,计算其线性组合,并进入激活函数σ(z),具体如下:σ(z)={1,z≥00,otherwise.
偏置b=5。现需要用这个神经元实现与非门功能(当且仅当x1与x2均为1时,输出0)。请给出一组合适的权重w1与w2取值。
由题目要求可知,w1与w2需满足以下条件:
w1+w2+5<0w1+5≥0w2+5≥0
故−5≤w1<0,−5≤w2<−5−w1.(取w1=w2=−3即可)
-
关于长短时记忆网络的详细结构(可见LSTM),如下描述正确的是( )。
- 如果输入xt为0向量,则ht=ht−1
- 如果ft非常小或者为0,则误差不会被反向传播到较早的时间节点
- ft,it和ot的输出是非负数
- ft,it和ot的输出可以被看作是概率分布,其输出为非负数且和为1
❌ht=ot⊙tanh(ct)=ot⊙tanh(ft⊙ct−1+it⊙tanh(WXcXt+Whcht−1+bc)),Xt=0时ht=ht−1并不成立;
❌如果ft非常小或者为0,ct到ct−1的梯度流确实会被切断,但误差仍可通过其他门控单元回传至ht−1及更早状态;
✔️ 因为这些门控单元都经过一个sigmoid函数;
❌ 这三个门相互独立,没有和的限制 -
强化学习相关题目:
-
下面对强化学习、监督学习和深度卷积神经网络学习的描述正确的是( )
- 评估学习方式、有标注信息学习方式、端到端学习方式
- 有标注信息学习方式、端到端学习方式、端到端学习方式
- 评估学习方式、端到端学习方式、端到端学习方式
- 无标注学习、有标注信息学习方式、端到端学习方式
-
在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略?()
- 价值函数计算与动作-价值函数计算
- 动态规划与Q-Learning
- 贪心策略优化与Q-learning
- 策略优化与策略评估
策略迭代由策略优化与策略评估两个步骤交替组成,策略评估指在当前策略下,计算或估计每个状态的价值(即价值函数计算与动作-价值函数的计算,包括动态规划、蒙特卡洛采样、时序差分算法);策略优化是根据评估出的价值函数,对策略进行调整(常使用贪心策略优化,如Q-learning)。
-
与马尔可夫奖励过程相比,马尔可夫决策过程引入了哪一个新的元素?()
- 反馈
- 动作
- 终止状态
- 概率转移矩阵
MRP={S,Pr,R,γ},MDP={S,A,Pr,R,γ},其中A即为动作(Action),代表智能体与环境的交互。
-
将机器人寻路问题简化为下面的2×2的网格:

假设有位于位置的机器人拟从s1这一初始位置向s4这一目标位置移动。机器人每次只能向上或者向右移动一个方格,到达目标位置s4则会获得奖励且游戏终止,机器人在移动过程中如果越出方格(sd)则会被惩罚且被损坏,并且游戏终止。奖励值定义如下:当St+1=s4时奖励值为1,当St+1=sd时惩罚值为−1,其他情况下奖励值为0。若折扣因子γ=0.99,智能体在s1,s2,s3的策略都初始化为上,终止状态s4,sd的价值函数定义为0,试通过联立贝尔曼方程给出状态s1,s2,s3的价值函数。根据价值函数的贝尔曼方程联立方程组:
⎩⎨⎧Vπ(s1)=R(s1,上,s3)+γVπ(s3)=0+0.99×Vπ(s3)Vπ(s2)=R(s2,上,s4)+γVπ(s4)=1+0.99×Vπ(s4)Vπ(s3)=R(s3,上,sd)+γVπ(sd)=−1+0.99×Vπ(sd)Vπ(s4)=0Vπ(sd)=0
解得:
⎩⎨⎧Vπ(s1)=−0.99Vπ(s2)=1Vπ(s3)=−1
-
在上题中,若每个状态的价值函数都初始化为0,试优化智能体在状态s3的策略。(提示:使用策略优化定理)
首先计算状态s3选择上/右动作后分别所得动作-价值函数取值:
qπ(s3,上)qπ(s3,右)=s′∈S∑P(s′∣s3,上)[R(s3,上,s′)+γVπ(s′)]=1×(−1+0.99×0)+0×⋯=−1=s′∈S∑P(s′∣s3,右)[R(s3,右,s′)+γVπ(s′)]=1×(1+0.99×0)+0×⋯=1
根据动作-价值函数取值比较,智能体在s3应选择向右一个方格的动作,以获得更大回报。于是,经过策略优化后,状态s3处的新策略为π′(s3)=argmaxaqπ(s3,a)=右,则将s3处的策略从“上”更新为“右”。
-
在上上题中,设下图表示算法的初始状态:

其中a/b表示对应状态的动作-价值函数的取值,斜线左侧的a表示qπ(s,上),斜线右侧的b表示qπ(s,右)。若α=0.5,试给出Q-learning算法的一个片段的执行过程,并给出执行完该片段后每个状态的策略。根据Q-learning算法,s1为初始状态,根据当前策略求出智能体应该采取的动作a=argmaxaqπ(s1,a)=上,执行这个动作,得到奖励R=0和进入下一状态s′=s3,因此可如下更新对应的动作-价值函数:
qπ(s1,上)←qπ(s1,上)+α[R+γa′maxqπ(s′,a′)−qπ(s1,上)]=0.1+0.5×[0+0.99×max{0,0.1}−0.1]=0.0995
此时s1状态的q函数更新为0.0995/0。接着,令当前状态为s3,此时智能体应该采取的动作a=argmaxaqπ(s3,a)=上,执行这个动作,得到奖励R=−1和进入下一状态s′=sd,因此可如下更新对应的动作-价值函数:
qπ(s3,上)←qπ(s3,上)+α[R+γa′maxqπ(s′,a′)−qπ(s3,上)]=0.1+0.5×[−1+0.99×max{0,0.1}−0.1]=−0.4005
此时算法达到终止状态sd,该片段结束。此时s3状态的q函数更新为−0.4005/0,最终q函数为:
−0.4005/0 0/0 0.0995/0 0.1/0 此时每个状态的策略为:
→ ↑ ↑
