江苏开放大学机器学习作业答案

权威收录全国44所开放大学分部+20个专业学院全科目试题试卷,配套参考答案精准解析

江苏开放大学机器学习作业答案

分类: 江苏开放大学 时间:2025-03-28 06:01:07 浏览:19次 评论:0
摘要:江苏开放大学机器学习作业答案 机器学习 学校: 无
广告示例

想要快速找到正确答案?

立即关注 国开搜题微信公众号,轻松解决学习难题!

随机漂浮广告
江苏开放大学机器学习作业答案

作业论文指导

扫码关注
作业论文指导,轻松解决学习难题!

江苏开放大学机器学习作业答案

机器学习

学校: 无

问题 1: 1. 下列模型中属于回归模型的是?

选项:

A. 线性回归

B. ID3

C. 逻辑回归

D. DBSCAN

答案: 线性回归

问题 2: 2. 下列关于软投票说法错误的是?

选项:

A. 投票表决器可以组合不同的基分类器

B. 可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均

C. 使用概率平均的⽅式来预测样本类别

D. 软投票过程中每个基分类器都预测⼀个类别

答案: 软投票过程中每个基分类器都预测⼀个类别

问题 3: 3. 下列有关DBSCAN聚类算法的理解有误的⼀项是()

选项:

A. 不需要预先设置聚类数量k

B. 对数据集中的异常点敏感

C. 可以对任意形状的⾼密度数据集进⾏聚类,相对的, K-Means 之类的聚类算法⼀般只适⽤于凸数据 集

D. 调参相对于传统的K-Means 之类的聚类算法稍复杂,需要对距离阈值ϵ ,邻域样本数阈 值MinPts 联合调参,不同的参数组合对最后的聚类效果有较⼤影响

答案: 对数据集中的异常点敏感

问题 4: 4. 下列有关词袋表示法的理解有误的是()

选项:

A. 不考虑词语出现的顺序,每个出现过的词汇单独作为⼀列特征

B. 不重复的特征词汇集合为词表

C. 将每个⽂本对应词表转化为特征向量

D. 仅出现在少数本⽂的词汇,⼀般被标记为停⽤词不计⼊特征向量

答案: 仅出现在少数本⽂的词汇,⼀般被标记为停⽤词不计⼊特征向量

问题 5: 5. 下列有关特征抽取和特征选择的说法有误的⼀项是()

选项:

A. 特征抽取和特征选择是达到降维⽬的的两种途径

B. 特征选择的⽬标是从原始的d个特征中选择k个特征

C. PCA和LDA是特征选择的两种主要⽅法

D. 特征抽取的⽬标是根据原始的d个特征的组合形成k个新的特征,即将数据从d维空间映射到k维空间

答案: PCA和LDA是特征选择的两种主要⽅法

问题 6: 6. 若集成模型中,预测值表示为,真实值为,则Adaboost的损失函数(Loss Function) 表示为()

选项:

A.

B.

C.

D.

答案: 无信息

问题 7: 7. 以下四个算法中,哪个不属于Scikit-learn聚类的主要算法()

选项:

A. cluster.SpectralClustering

B. cluster.KMeans

C. cluster.AgglomerativeClustering

D. neighbors.KNeighborsRegressor

答案: 请关注公众号【江开搜题】查看答案

问题 8: 8. 下列有关过滤式特征选择的说法错误的是()

选项:

A. 过滤式特征选择的⽅法是评估单个特征和结果值之间的相关程度, 留下相关程度靠前的特征

B. 过滤式特征选择的评价指标主要有Pearson 相关系数, 互信息, 距离相关度等;其中卡⽅检 验(chi2) ,F检验回归(f_regression) , 互信息回归(mutual_info_regression) ⽤于回归问 题,F检验分类(f_classif) , 互信息分类(mutual_info_classif) ⽤于分类问题

C. 过滤式特征选择的缺点是只评估了单个特征对结果的影响,没有考虑到特征之间的相关作⽤,可能 剔除有⽤的相关特征

D. Scikit-learn中实现过滤式特征选择的SelectKBest 类可以指定过滤个数, SelectPercentile 类 可以指定过滤百分⽐

答案: 请关注公众号【江开搜题】查看答案

问题 9: 9. 箱线图是检测离群值的⽅法,下⾯关于箱线图的说法不正确的是?

选项:

A. 箱外的两条线(胡须)分别延伸到最⼩和最⼤⾮异常点

B. 四分位距IQR = 1.5 ( Q3-Q1 ),其中Q3为上四分位数, Q1为下四分位数

C. 箱中⾼于上边缘和低于下边缘的值为离群点

D. 箱线图中框的上边线表示上四分位数,框的下边线表示下四分位数

答案: 请关注公众号【江开搜题】查看答案

问题 10: 10. 下图给出了三个节点的相关信息,请给出特征A1、A2及A3的特征重要性递减排序()

选项:

A. A3>A1>A2

B. A1>A2>A3

C. 所给信息不⾜。

D. A2>A3>A1

答案: 请关注公众号【江开搜题】查看答案

问题 11: 11. 兰德系数和轮廓系数都是常⽤的聚类分析指标,以下对兰德系数和轮廓系数说法错误的是

选项:

A. 轮廓系数适⽤于实际类别信息未知的情况

B. 兰德系数取值为[0,1],越⼤聚类结果与真实情况越接近

C. 在聚类结果随机产⽣的情况下,兰德系数不能保证系数接近于0

D. 调整兰德系数取值范围为[-1,1],负数代表结果不好,越接近于0越好

答案: 请关注公众号【江开搜题】查看答案

问题 12: 12. 下列有关ROC曲线与AUC的描述错误的是

选项:

A. AUC的⼏何意义为ROC曲线与横轴FPR之间的⾯积

B. ROC曲线可以⽤来考察模型的预测能⼒

C. ROC曲线越靠近(0, 1)证明模型整体预测能⼒越差

D. AUC的取值为[0.5, 1]

答案: 请关注公众号【江开搜题】查看答案

问题 13: 13. 关于线性回归模型的正则化,下列选项叙述不正确的是:

选项:

A. 正则化的常⽤⽅法为岭回归和LASSO,主要区别在于岭回归的⽬标函数中添加了L2惩罚函数,⽽ LASSO的⽬标函数中添加的是L1惩罚函数

B. 在求解LASSO时,常⽤的求解算法包括坐标下降法、LARS算法和ISTA算法等

C. 对⽐岭回归和LASSO,岭回归更容易得到稀疏解

D. 正则化可以减⼩线性回归的过度拟合和多重共线性等问题

答案: 请关注公众号【江开搜题】查看答案

问题 14: 14. 关于三种常⻅的稳健性回归⽅法--Huber回归、RANSAC回归和泰尔森回归,下列选项说法 正确的是:

选项:

A. 泰尔森回归⽐RANSAC回归在样本数量上的伸缩性(适应性)好

B. 从回归的速度上看,⼀般来说,Huber回归最快,其次是RANSAC回归,最慢的是泰尔森回归

C. Huber回归可以更好地应对X⽅向的中等⼤⼩的异常值,但是这个属性将在⾼维情况下消失

D. ⼀般情况下,泰尔森回归可以更好地处理y⽅向的⼤值异常点

答案: 请关注公众号【江开搜题】查看答案

问题 15: 15. 下列关于特征选择⽬的和原则的说法错误的是( )

选项:

A. ⽅差较⾼的特征应该被剔除

B. 与⽬标特征相关性⾼的特征应该优先被选择

C. 特征选择可以有效提升模型性能

D. 特征选择能有效降低特征维度,简化模型

答案: 请关注公众号【江开搜题】查看答案

问题 16: 16. 下列有关轮廓系数的说法错误的是()

选项:

A. 某个样本的轮廓系数接近1,说明该样本聚类结果合理

B. 所有样本的轮廓系数均值为聚类结果的轮廓系数,是该聚类是否合理、有效的度量

C. 某个样本的轮廓系数近似为0,说明该样本在两个簇的边界上

D. 某个样本的轮廓系数的绝对值接近1,说明该样本聚类结果合理

答案: 请关注公众号【江开搜题】查看答案

问题 17: 17. 以下程序语句有误的是()

选项:

A. clf=LogisticRegression(penalty='l1',random_state=10,solver='liblinear')

B. clf=LogisticRegression(penalty='l1',random_state=10,solver='lbfgs')

C. clf=LogisticRegression(penalty='l2',solver='newton-cg')

D. clf=LogisticRegression(penalty='l2',random_state=10,solver='liblinear')

答案: 请关注公众号【江开搜题】查看答案

问题 18: 18. 将连续型特征离散化后再建⽴逻辑回归模型,这样做对模型有什么影响( )

选项:

A. 易于模型的快速迭代

B. 计算结果⽅便存储,容易扩展。

C. 起到简化逻辑回归模型的作⽤

D. 离散化后的特征对异常数据敏感

答案: 请关注公众号【江开搜题】查看答案

问题 19: 19. 现有⼀个垃圾邮件分类问题,⽤N个关键词汇X1,X2,...,XN作为特征,将所有的邮件分类为垃圾邮件C1与正常邮件C2。m1为出现了关键词汇X1的垃圾邮件数量,m为垃圾邮件总数,M 为所有邮件总数,则下列加⼊Laplace平滑(平滑系数为1)的概率公式表示正确的是( )

选项:

A.

B.

C.

D.

答案: 请关注公众号【江开搜题】查看答案

问题 20: 20. 下列哪些⽅法可以解决数据集的线性不可分问题( )

选项:

A. 软间隔SVM

B. 硬间隔SVM

C. 多项式核SVM

D. ⾼斯核SVM

答案: 请关注公众号【江开搜题】查看答案

问题 21: 21. 分类正确率、混淆矩阵是评价分类模型效果的重要依据,下列编程语句有错误的是( ) (其 中x , y 是训练集和训练集标签,分别为DataFrame对象和Series对象)

选项:

A. 语句(1)

B. 语句(2)

C. 语句(3)

D. 语句(4)

答案: 请关注公众号【江开搜题】查看答案

问题 22: 22. 以下关于集成模型中提升法(boosting)与装袋法(bagging)的⽐较,说法正确的是()

选项:

A. Boosting的学习器可并⾏训练,⽆顺序;Bagging的学习器需要串⾏进⾏,有顺序。

B. Boosting⼀般采⽤整个训练集训练学习器;Bagging则采⽤部分训练集,没⽤到的数据可⽤于测 试。

C. Boosting主要⽤于⽤于抑制过拟合;⽽Bagging主要⽤于优化弱分类器。

D. Adaboost是⼀种Boosting⽅法;Random Forest是⼀种Bagging⽅法。

答案: 请关注公众号【江开搜题】查看答案

问题 23: 23. 下列关于缺失值处理的说法错误的是( )

选项:

A. 连续型特征可以使⽤众数来插补缺失值

B. 可以将缺失值作为预测⽬标建⽴模型进⾏预测,以此来插补缺失值

C. 离散型特征可以使⽤平均值来插补缺失值

D. 根据经验,可以⼿动对缺失值进⾏插补

答案: 请关注公众号【江开搜题】查看答案

问题 24: 24. 下列关于软投票说法正确的是?(多选)

选项:

A. 可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均

B. 投票表决器可以组合不同的基分类器

C. 使用概率平均的⽅式来预测样本类别

D. 软投票过程中每个基分类器都预测⼀个类别

答案: 请关注公众号【江开搜题】查看答案

问题 25: 25. 下列关于⽂本特征抽取中TF-IDF ⽅法理解正确的是()

选项:

A. TF-IDF ⽅法有效过滤掉不常⻅的词语

B. IDF 即逆⽂本频率:词频的权重调整系数

C. TF 即词频:某词汇在该⽂本中出现的频率

D. TF-IDF = TF * IDF

答案: 请关注公众号【江开搜题】查看答案

问题 26: 26. 关于sklearn中的KNeighborsClassifier 算法类,下列说法正确的是()

选项:

A. 参数'n_neighbors' 的取值应该越⼤越好

B. 距离度量附属参数p 可设置为p =2“euclidean”(欧式距离)、p =1为“manhattan”(曼哈顿距离),默认为2

C. K近邻算法通过对以样本a为圆⼼,半径为k的圆内的训练样本进⾏多数投票来确定样本a的类别。

D. 当样本分布较乱,预测效果不好时,可将weights 设置为“distance”,将距离⽬标更近的近邻点赋 予更⾼的权重,来改善预测效果

答案: 请关注公众号【江开搜题】查看答案

收藏


评论留言请发表您的神机妙论……

昵称

邮箱

地址

私密评论
评论列表(共有0条评论)