当前位置：主页 > 在线作业正文

北京语言大学23年秋《大数据技术与应用》作业2【奥鹏作业答案】

11-11 在线作业

《大数据技术与应用》作业2

共25道题总分：100分

一、单选题(共15题，60分)

1.用训练好的LOF实例判断数据是否异常，正常样本用1表示，异常样本用-1表示的语句

A、from sklean.neighbors import LocalOutlierFactor

B、clf=LocalOutlierFactor(n_neighbors=20)

C、y_pred=clf.fit_predict(X)

D、X_scores = clf.negative_outlier_factor_

2.利用pandas处理数据缺失值时，用于填充缺失值的函数为

A、isnull

B、head

C、fillna

D、dropna

3.决策树生成过程中，以信息增益作为特征选择准则生成决策树的算法是

A、ID3

B、C4.5

C、CART

D、以上都不对

4.决策树的生成是一个递归过程，在决策树基本算法中，满足哪种情形，会导致递归过程返回停止

A、特征选择次数超过一定限制

B、当前属性集为空，或所有样本在所有属性上取值相同

C、决策树深度超过2

D、以上都不对

5.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示

A、训练数据集

B、测试数据集

C、训练数据的类别标签数组

D、测试数据的类别标签数组

6.以下不属于大数据分析方法的是（）

A、统计分析

B、数学模型

C、机器学习

D、人工智能

7.用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是

A、from sklean.ensemble import IsolationForest

B、LocalOutlierFactor

C、clf= IsolationForest(max_samples=100,random_state=0)

D、clf.fit(X_train)

E、y_pred=clf.fit_predict(X)

F、y_pred_test = clf.predict(X_test)

8.用训练好的模糊C均值聚类实例对数据进行聚类操作的语句是

A、from fcmeans import FCM

B、fcm=FCM(n_clusters=3)

C、fcm.fit(X)

D、fcm_labels=fcm.u.argmax(axis=1)

9.数据集{1,2,2,2,3,4}的众数是

A、1

B、2

C、3

D、4
北京语言大学泽学网微信：zexue66

10.不包含任何项的项集是指

A、项

B、空集

C、超项集

D、子项集

11.利用Sklearn构建KNN分类器，用于KNN分类器训练的程序为

A、knn.fit(X_train,y_train)

B、y_pred=knn.predict(X_test)

C、knn=KNeighborsClassifier(n_neighbors=k)

D、以上都不对

12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为

A、2

B、4

C、6

D、8

13.关联规则 X→Y 表示中X称为

A、前件

B、后件

C、中间件

D、以上都不对

14.从软件库中导入模糊C均值聚类算法类的语句是

A、from fcmeans import FCM

B、fcm=FCM(n_clusters=3)

C、fcm.fit(X)

D、fcm_labels=fcm.u.argmax(axis=1)

15.如果一个项集包含K个项，则该项集称为

A、项

B、空集

C、超项集

D、K项集

二、多选题(共5题，20分)

1.数据集中趋势分析的常用指标包括

A、平均值

B、中位数

C、众数

D、四分位数

2.以下哪些是数据可视化图表

A、柱状图

B、折线图

C、饼图

D、散点图

3.分箱法包括

A、等深分箱

B、众数分箱

C、等宽分箱

D、以上都不对

4.在数据清洗过程中，用于处理噪声值的方法包括

A、盖帽法

B、分箱法

C、聚类法

D、以上都不对

5.定性数据包括

A、有序数据

B、无序数据

C、定类等级数据

D、定性等级数据

三、判断题(共5题，20分)

1.回归算法的目的是寻找决策边界

A、对

B、错

2.描述性数据分析属于比较高级复杂的数据分析手段

A、对

B、错

3.盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除

A、对

B、错

4.定性数据包括离散数据和连续数据

A、对

B、错

5.等宽分箱方法是指每个分箱中样本数量一致

A、对

B、错

《大数据技术与应用》作业2

共25道题总分：100分

一、单选题(共15题，60分)

1.用训练好的LOF实例判断数据是否异常，正常样本用1表示，异常样本用-1表示的语句

A、from sklean.neighbors import LocalOutlierFactor

B、clf=LocalOutlierFactor(n_neighbors=20)

C、y_pred=clf.fit_predict(X)

D、X_scores = clf.negative_outlier_factor_

2.利用pandas处理数据缺失值时，用于填充缺失值的函数为

A、isnull

B、head

C、fillna

D、dropna

3.决策树生成过程中，以信息增益作为特征选择准则生成决策树的算法是

A、ID3

B、C4.5

C、CART

D、以上都不对

4.决策树的生成是一个递归过程，在决策树基本算法中，满足哪种情形，会导致递归过程返回停止

A、特征选择次数超过一定限制

B、当前属性集为空，或所有样本在所有属性上取值相同

C、决策树深度超过2

D、以上都不对

5.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示

A、训练数据集

B、测试数据集

C、训练数据的类别标签数组

D、测试数据的类别标签数组

6.以下不属于大数据分析方法的是（）

A、统计分析

B、数学模型

C、机器学习

D、人工智能

7.用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是

A、from sklean.ensemble import IsolationForest

B、LocalOutlierFactor

C、clf= IsolationForest(max_samples=100,random_state=0)

D、clf.fit(X_train)

E、y_pred=clf.fit_predict(X)

F、y_pred_test = clf.predict(X_test)

8.用训练好的模糊C均值聚类实例对数据进行聚类操作的语句是

A、from fcmeans import FCM

B、fcm=FCM(n_clusters=3)

C、fcm.fit(X)

D、fcm_labels=fcm.u.argmax(axis=1)

9.数据集{1,2,2,2,3,4}的众数是

A、1

B、2

C、3

D、4

10.不包含任何项的项集是指

A、项

B、空集

C、超项集

D、子项集

11.利用Sklearn构建KNN分类器，用于KNN分类器训练的程序为

A、knn.fit(X_train,y_train)

B、y_pred=knn.predict(X_test)

C、knn=KNeighborsClassifier(n_neighbors=k)

D、以上都不对

12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为

A、2

B、4

C、6

D、8

13.关联规则 X→Y 表示中X称为

A、前件

B、后件

C、中间件

D、以上都不对

14.从软件库中导入模糊C均值聚类算法类的语句是

A、from fcmeans import FCM

B、fcm=FCM(n_clusters=3)

C、fcm.fit(X)

D、fcm_labels=fcm.u.argmax(axis=1)

15.如果一个项集包含K个项，则该项集称为

A、项

B、空集

C、超项集

D、K项集

二、多选题(共5题，20分)

1.数据集中趋势分析的常用指标包括

A、平均值

B、中位数

C、众数

D、四分位数

2.以下哪些是数据可视化图表

A、柱状图

B、折线图

C、饼图

D、散点图

3.分箱法包括

A、等深分箱

B、众数分箱

C、等宽分箱

D、以上都不对

4.在数据清洗过程中，用于处理噪声值的方法包括

A、盖帽法

B、分箱法

C、聚类法

D、以上都不对

5.定性数据包括

A、有序数据

B、无序数据

C、定类等级数据

D、定性等级数据

三、判断题(共5题，20分)

1.回归算法的目的是寻找决策边界

A、对

B、错

2.描述性数据分析属于比较高级复杂的数据分析手段

A、对

B、错

3.盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除

A、对

B、错

4.定性数据包括离散数据和连续数据

A、对

B、错

5.等宽分箱方法是指每个分箱中样本数量一致

A、对

B、错

《大数据技术与应用》作业2

共25道题总分：100分

一、单选题(共15题，60分)

1.用训练好的LOF实例判断数据是否异常，正常样本用1表示，异常样本用-1表示的语句

A、from sklean.neighbors import LocalOutlierFactor

B、clf=LocalOutlierFactor(n_neighbors=20)

C、y_pred=clf.fit_predict(X)

D、X_scores = clf.negative_outlier_factor_

2.利用pandas处理数据缺失值时，用于填充缺失值的函数为

A、isnull

B、head

C、fillna

D、dropna

3.决策树生成过程中，以信息增益作为特征选择准则生成决策树的算法是

A、ID3

B、C4.5

C、CART

D、以上都不对

4.决策树的生成是一个递归过程，在决策树基本算法中，满足哪种情形，会导致递归过程返回停止

A、特征选择次数超过一定限制

B、当前属性集为空，或所有样本在所有属性上取值相同

C、决策树深度超过2

D、以上都不对

5.:from sklearn.tree import DecisionTreeClassifiernclf = DecisionTreeClassifier()nclf.fit(Xtrain,Ytrain) npredictions = clf.predict(Xtest)n上面代码第4行中Xtest表示

A、训练数据集

B、测试数据集

C、训练数据的类别标签数组

D、测试数据的类别标签数组

6.以下不属于大数据分析方法的是（）

A、统计分析

B、数学模型

C、机器学习

D、人工智能

7.用训练好的孤立森林isolation forest实例对数据进行异常值检测的语句是

A、from sklean.ensemble import IsolationForest

B、LocalOutlierFactor

C、clf= IsolationForest(max_samples=100,random_state=0)

D、clf.fit(X_train)

E、y_pred=clf.fit_predict(X)

F、y_pred_test = clf.predict(X_test)

8.用训练好的模糊C均值聚类实例对数据进行聚类操作的语句是

A、from fcmeans import FCM

B、fcm=FCM(n_clusters=3)

C、fcm.fit(X)

D、fcm_labels=fcm.u.argmax(axis=1)

9.数据集{1,2,2,2,3,4}的众数是

A、1

B、2

C、3

D、4

10.不包含任何项的项集是指

A、项

B、空集

C、超项集

D、子项集

11.利用Sklearn构建KNN分类器，用于KNN分类器训练的程序为

A、knn.fit(X_train,y_train)

B、y_pred=knn.predict(X_test)

C、knn=KNeighborsClassifier(n_neighbors=k)

D、以上都不对

12.数据集{2,2,4,4,4,4,6,6,8,8,12,14,16,20,22,28,30,44}的中四分位数为

A、2

B、4

C、6

D、8

13.关联规则 X→Y 表示中X称为

A、前件

B、后件

C、中间件

D、以上都不对

14.从软件库中导入模糊C均值聚类算法类的语句是

A、from fcmeans import FCM

B、fcm=FCM(n_clusters=3)

C、fcm.fit(X)

D、fcm_labels=fcm.u.argmax(axis=1)

15.如果一个项集包含K个项，则该项集称为

A、项

B、空集

C、超项集

D、K项集

二、多选题(共5题，20分)

1.数据集中趋势分析的常用指标包括

A、平均值

B、中位数

C、众数

D、四分位数

2.以下哪些是数据可视化图表

A、柱状图

B、折线图

C、饼图

D、散点图

3.分箱法包括

A、等深分箱

B、众数分箱

C、等宽分箱

D、以上都不对

4.在数据清洗过程中，用于处理噪声值的方法包括

A、盖帽法

B、分箱法

C、聚类法

D、以上都不对

5.定性数据包括

A、有序数据

B、无序数据

C、定类等级数据

D、定性等级数据

三、判断题(共5题，20分)

1.回归算法的目的是寻找决策边界

A、对

B、错

2.描述性数据分析属于比较高级复杂的数据分析手段

A、对

B、错

3.盖帽法是将某连续变量均值上下三倍标准差范围外的数值全部删除

A、对

B、错

4.定性数据包括离散数据和连续数据

A、对

B、错

5.等宽分箱方法是指每个分箱中样本数量一致

A、对

B、错

版权保护: 本文由奥鹏作业答案-泽学网-专业的奥鹏作业毕业论文辅导网原创，转载请保留链接: https://www.zexuewang.nethttps://www.zexuewang.net/zaixianzuoye/29417.html

北京语言大学23年秋《大数据技术与应用》作业2【奥鹏作业答案】

推荐文章

热门文章

标签

友情链接

关于本站

联系我

特别鸣谢