当前位置：主页 > 电大/国开/云开正文

国家开放大学（软件学院）24秋《电子商务数据分析与应用》形考作业6【形考作业】

09-25 电大/国开/云开

国开（软件学院）24秋《电子商务数据分析与应用》形考作业6【国开作业】形考任务6

试卷总分:100 得分:null

1.一、单选题

1、关于Series结构，下列描述正确的是（）。

A.Series是一个类似于二维数组的对象

B.Series由一组数据和与之相关的索引两部分构成

C.Series只能保存整数和字符串类型的数据

D.Series的索引默认是从1开始

2.2、Pandas在执行算术运算时，没有对齐的位置会使用（）进行补齐。

A.Null

B.0

C.NaN

D.null_values

3.3、下列关于Pandas库的说法中正确的是（）。

A.Pandas中只有两种数据结构

B.Pandas不支持读取文本数据

C.Pandas是在NumPy基础上建立的新程序库

D.Pandas中Series和DataFrame可以解决数据分析中一切的问题

4.4、在进行算术运算时，如果希望一次性输出多个统计指标可以使用（）方法。

A.statistics()

B.describe()

C.all()

D.results()

5.5、关于Pandas中数据排序，下列说法正确的是（）。

A.即可以按照行索引排序，也可以按照列索引排序

B..sort_index()方法表示按照值进行排序

C..sort_values()方法表示按照索引进行排序

D.默认情况下，sort_index()方法按照降序排列

6.6、下列关于DataFrame说法正确的是（）。

A.DataFrame结构是由索引和数据组成

B.DataFrame的行索引位于最右侧

C.创建一个DataFrame对象时需要指定索引

D.DataFrame每列的数据类型必须是相同的

7.7、下面哪种算法防过拟合的能力相对较好（）

A.逻辑回归

B.决策树

C.神经网络

D.支持向量机

8.8、逻辑回归与多元回归分析有哪些不同？（）

A.逻辑回归预测某事件发生的概率

B.逻辑回归有较高的拟合效果

C.逻辑回归回归系数的评估

D.以上全选

9.9、下面哪个超参数的增加可能会造成随机森林数据过拟合？（）

A.树的数量

B.树的深度

C.学习速率

D.样本数量

10.10、下列属于无监督学习的是（）

A.K-means

B.SVM

C.逻辑回归

D.神经网络

11.11、下列哪些情况有可能造成过拟合（）

A.特征过多

B.样本过多

C.参数过多

D.都不是

12.12、下列哪个算法是Bagging的集成学习算法（）

A.GBDT

B.Random Forest

C.xgboost

D.都不是

13.13、对k-means聚类算法解释正确的是（）

A.能自动识别类的个数，随机挑选初始点为中心点计算

B.能自动识别类的个数，不是随机挑选初始点为中心点计算

C.不能自动识别类的个数，随机挑选初始点为中心点计算

D.不能自动识别类的个数，不是随机挑选初始点为中心点计算

14.14、在以下不同的场景中,使用的分析方法不正确的有（）

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

15.15、在以下不同的场景中,使用的分析方法不正确的有（）

A.根据商家最近一年的经营及服务数据,用聚类算法判断出天猫商家在各自主营类目下所属的商家层级

B.根据商家近几年的成交数据,用聚类算法拟合出用户未来一个月可能的消费金额公式

C.用关联规则算法分析出购买了汽车坐垫的买家,是否适合推荐汽车脚垫

D.根据用户最近购买的商品信息,用决策树算法识别出淘宝买家可能是男还是女

16.16、关联规则算法有（）

A.决策树、对数回归、关联模式

B.K均值法、SOM 神经网络

C.Apriori算法、FP-Tree 算法

D.RBF神经网络、K 均值法、决策树

17.17、逻辑回归算法适用于以下哪些分析场景（）

A.文本识别

B.客户流失预测

C.客户分层

D.财务收入预测

18.18、以下哪些方法不可以直接来对文本分类？ ( )

A.Kmeans

B.决策树

C.支持向量机

D.KNN

19.19、以下哪个算法，既可实现连续值得目标，也可实现分类目标的预测（）

A.C4.5

B.线性回归

C.聚类分析

D.C&RT

20.20、某超市研究销售纪录数据后发现，买啤酒的人很大概率也会购买尿布，这种属于数据挖掘的哪类问题？()

A.关联规则发现

B.聚类

C.分类

D.自然语言处理

21.21、下面属于用来降维的一种方法的是： ( )

A.主成分分析

B.特征提取

C.特征加权

D.离散化

22.22、以下哪些算法是分类算法，（）

A.DBSCAN

B.C4.5

C.K-Mean

D.EM

23.23、以下有关随机森林算法的说法错误的是（）

A.随机森林算法的分类精度不会随着决策树数量的增加而提高

B.随机森林算法对异常值和缺失值不敏感

C.随机森林算法不需要考虑过拟合问题

D.对于不平衡的分类样本集来说，随机森林可以平衡误差

24.24、下面哪一项用决策树法训练大量数据集最节约时间?（）

1. 增加树的深度

2. 增加学习率

3. 减少数的深度

4..减少树的个数

A.2

B.1 and 2

C.3

D.3 and 4

25.25、以下哪种业务问题可以用聚类算法？（）

A.客户流失

B.交叉销售

C.客户细分

D.倾向性分析

26.二、判断题

1、使用pip命令也可以查看Anconda安装的包。

27.2、Pandas是一个基于NumPy的数据分析包，它是为了解决数据分析任务而创建的。

28.3、Pandas既可以按照索引排序也可以按照数据排序。

29.4、Series和DataFrame都支持切片操作。

30.5、在操作DataFrame对象时，可以通过指定索引名的方式获取数据。

31.6、Pandas只有Series和DataFrame两种数据结构。

32.7、DataFrame的结构是由索引和数据组成的。

33.8、过拟合是有监督学习的挑战，而不是无监督学习。

34.9、如果一个训练模型在测试集上精度达到100%，那么在另一个测试集上精度也能达到100%。

35.10、如果一个训练模型在测试集上精度达到100%，那么在另一个测试集上精度也能达到100%（）

36.11、K-means算法中聚类的个数K是由用户自定义的（）

37.12、集成学习的效果一定把单个分类器的效果更好 (）

38.13、NumPy是高性能科学计算和数据分析的基础包。

39.14、对于Pandas索引操作，索引对象是可修改的。

40.15、下列Pandas方法中，用于求最大值和最小值的是max和min。

41.16、关于读写excel文件，.to_excel()方法表示将结构化数据读取到DataFrame中。

42.17、从训练样本中是否含有标注好的目标变量，可以将机器学习分为：

43.18、Xgboost不属于集成学习算法。

44.19、决策树属于机器学习的无监督算法。

45.20、线性回归是使用历史数据进行预测。

46.21、下列图形是在相同的训练数据上具有相同回归的三个不同的模型，图3的回归模型拟合得最好，因为它的训练错误最小。

47.22、在一个包含5000个特征及超过一百万个观测值的数据集上建立一个机器学习的模型，从数据集中随机抽取样本来建立模型、使用在线学习算法、使用主成分分析法（PCA）对数据降维都能更高效地训练模型。

48.23、一个回归模型存在多重共线问题。在不损失过多信息的情况下，我们可以计算方差膨胀因子（variance inflation factor)来检查存在的多重共线性并采取相应的措施。

49.24、聚类算法属于机器学习的无监督算法。

50.25、DBSCAN属于聚类算法。

版权保护: 本文由奥鹏/电大作业答案-泽学网-专业的毕业论文辅导网原创，转载请保留链接: https://www.zexuewang.nethttps://www.zexuewang.net/guokai/36481.html

国家开放大学（软件学院）24秋《电子商务数据分析与应用》形考作业6【形考作业】

推荐文章

热门文章

标签

友情链接

关于本站

联系我

辅助咨询