相关试卷
-
1、下列关于大数据在各领域应用的描述,错误的是( )A、物流行业利用大数据优化物流网络 B、金融行业利用大数据评估用户信用等级 C、公共安全领域利用大数据消灭犯罪 D、保险行业利用大数据进行欺诈行为分析和精细化运营
-
2、下列大数据服务中,应用了医疗大数据的是( )A、股价预测 B、临床决策支持 C、智能投资顾问 D、农业灾害预警
-
3、智能运动手环应用中,心率监测数据、步数统计数据的来源是( )A、网络爬虫 B、API接口 C、统计报表 D、传感器
-
4、下列大数据服务中,应用了交通大数据的是( )A、医疗误诊预警 B、个性化商品推荐 C、出行路线规划 D、土壤智能监测
-
5、小张收集了近段时间要学习的英文单词,存储为“data.txt" 文件,格式如图所示。

data. txt 记事本
他处理“data.txt”文件中英文单词的Python程序段如下:
file='data.txt'
word_ c=[]
n=0
for word in open(file):
if word[0:1]=='c':
word_c. append(word)
print(word)
print('字母c开头的单词个数:',n)
(1)、划线处的代码为。(2)、该程序段运行后,列表word_c中的数据为。 -
6、下列数据处理中,不属于文本数据处理的是( )A、对简历数据进行关键信息提取,构建人才画像,匹配精准岗位 B、分析消费者的意见数据,挖掘用户观点,辅助运营决策 C、实时监测景区的人流数据,及时导流、限流 D、解析大量合同文档,有效监控风险条款,节省人力和时间成本
-
7、文本数据处理的主要应用有( )
①搜索引擎②自动摘要③论文查重④成绩查询⑤自动应答
A、①④⑤ B、①②③⑤ C、②③④ D、②③④⑤ -
8、使用百度搜索关键词“春节”,将采集到的结果数据存储为chj.txt文件,如图1所示。处理chj.txt文件中的数据后生成chjfc.txt文件,如图2所示。
请回答下列问题:
(1)、文件chj.txt中的数据为(选填:“结构化数据”或“非结构化数据”)。(2)、处理文件chj.txt中的数据生成chjfc.txt文件的过程,一般称为 。(3)、编写如下Python程序,读取chjf.txt文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数。在划线处填写合适代码,完善程序。txt = open('chjfc. txt', 'r', encoding='utf-8'). read( )
words-txt. split( )
word_ counts={ }
for word in words:
if len(word)==1:
continue
else:
① #可以为1行或多行代码
#使用word_counts计算词语word在words中出现的次数
word_ list=list(word_counts. items( )) #返回所有键值对信息,生成列表
word_ list. sort(key-lambda x:x[1], reverse=True) #按词语出现次数降序排序
for i in range(20):
word, times= ②
print(word, times)
程序中划线①处应填写的代码是
程序中划线②处应填写的代码是
(4)、去除步骤(3)程序的统计结果中的非特征词(如代词介词连词等)后,制作的标签云如图所示,标签云中最能表现文件chj.txt中文本特征的词有(写出3~5个)。
-
9、下列数据分析中可能涉及文本情感分析的是( )A、用户评论内容分析 B、用户年龄分布分析 C、评论发布设备分析 D、用户男女比例分析
-
10、分析某水果的用户评论内容,创建的标签云如图所示。
其中用作文本的特征项的是( )
A、字 B、词 C、句子 D、段落 -
11、文本数据处理的主要步骤包括:
①结果呈现②特征提取③分词④数据分析⑤文本数据获取
正确的顺序是( )
A、⑤②④① B、⑤③①④ C、⑤③②④① D、⑤①③②④ -
12、数据文件“data.csv"中包含“ 商品编号”“售出日期”“售出价格”“售出数量”“业务员编号”5个数据列、20000个行数据,下列Python程序段用于统计每件商品的销售总量,并绘制垂直柱形图呈现销售量前10的商品编号。程序中①②③处应填写的代码依次为( )
import pandas as pd
import matplotlib. pyplot as plt
df=pd. read_ csv(data. csv)
①
②
③
A、plot data = df. groupby('售出数量')['商品编号']. sum( ) plot data. sort_ values( )[-10:]. plot(kind='bar') plt. show() B、plot _data = df. groupby('商品编号')['售出数量']. sum() plot_data. sort_ values( )[- 10:]. plot(kind "bar') plt. show( ) C、plot_data = df. groupby('售出数量')[商品编号']. sum( ) plot_ _data. sort values( )[:10]. plot(kind='bar') plt. legend( ) D、plot_ data = df. groupby('商品编号')['售出数量']. sum( ) plot_ data. sort values( )[:10]. plot(kind='bar') plt. legend( ) -
13、编写如下 Python程序研究随机数值的分布情况,某次运行时绘制的图形如图所示。
import numpy as np
import matplotlib.pyplot as plt
plt. figure(figsize=(9,6))
n=5000
x=np. random. randn(1,n) #返回n个随机数,具有标准正态分布
y=np. random. randn(1,n)
t=np. arctan2(x,y) #函数arctan2(x,y)返回给定的坐标值的反正切值
plt. scatter(x,y,c=t,s= 15,alpha=0.5,marker='o')
# s:散点的大小,t:散点的颜色, alpha:是透明程度
请回答下列问题:
(1)、每次运行程序绘制的数据点个数为 。(2)、每次运行程序绘制的散点图 (选填:“相同” 或“不同”)。(3)、本次绘制的散点图中,数据点的分布有什么特征? -
14、采集某市某辆出租车2007年2月20日全天行驶轨迹的数据集,如图所示。该数据集特征包括:出租车ID、时间、经度、纬度、夹角角度、出租车的瞬时速度和出租车载客状态。
(1)、图所示数据集文件名为 , 出租车ID、时间、经度、纬度、夹角角度、出租车的瞬时速度和出租车载客状态数据的间隔符为 , 经度、纬度的数据类型为。(2)、绘制该数据集中出租车行驶轨迹的Python程序如下,请在方框中填写合适的代码,完善程序。import matplotib. pyplot as plt
def track(file): #绘制GPS坐标轨迹
jd=[ ] #经度
wd=[ ] #纬度
for line in open(file):
#切分行数据生成列表
line_data=line. split(',')
#取轨迹坐标
jd. append(x)
wd. append(y)
plt. plot(jd, wd)
filename='Taxi_ 105. txt'
track(filename)
plt. show( )
(3)、运行程序,绘制的图形如图所示。说说你从图中发现了什么。
(4)、尝试编写Python程序,从该数据集中挖掘其他你感兴趣的信息。 -
15、使用Python编程研究一组幂函数的图象问题,程序如下。
import matplotlib.pyplot as plt
import numpy as np
# numpylinspace(start, stop, num=50)
#产生从start到stop的等差数列,num为元素个数,默认50个
x = np. linspace(-1,1,50)
forn in [1/3,1/2,1,2,3]:
y=x**n
plt. show( )
请回答下面问题:
(1)、划线处应填写的语句是。(2)、程序运行后,绘制了个函数的图象,分别为。 -
16、下列Python程序用于研究数学函数的图象,绘制的图形如图所示。程序中①②③处应填写的代码为( )
import matplotlib.pyplot as plt
import numpy as np
# numpy. linspace(start, stop, num=50)
#产生从start到stop的等差数列,num为元素个数,默认50个
x = np.linspace(0, 1, 50)
y1=x**2
y1=**2
y2 = np.sqrt(x)
y3=x**5
plt.figure( )
①
②
③
plt.legend( )
plt.show( )
A、①plt. plot(x, y1) ②plt. scatter(x, y2) ③plt. scatter(x, y3) B、①plt. plot(x, y1, label="y1 = x**2") ②plt. scatter(x, y2, label="y2 = np. sqrt(x)") ③plt. satter(x, y3, label="y3 = x**5") C、①plt. scatter(x, y, label="y1=x**2") ②plt. plot(x, y2, labe1="y2 = np. sqrt(x)") ③plt. scatter(x, y3, label="y3=x**5") D、①plt. scatter(x, y1) ②plt. scatter(x, y2) ③plt. plot(x, y3) -
17、有如下Python程序段。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plot_ data = pd. DataFrame(np. random. randn(50, 2), columns -['A', B'])
# np. random. randn(50, 2)产生两列、每列50个随机数
plot_ _data. sort values('A')[- 10:]plot(kind='bar')
plt. title('tail 10')
plt. xlabel('x')
plt. ylabel('y')
plt. show( )
该程序段运行后绘制的图形为( )
A、
B、
C、
D、
-
18、某组织将关于春节期间人们主要支出的调查数据进行可视化分析,其结果如图所示,下列分析错误的是( )
A、不同年龄段的人群“买年货”的支出都比较多 B、在“娱乐活动”的支出中,23~30岁人群的花费最多 C、60岁以上人群支出最多的是“压岁钱”,支出最少的是“交通费” D、在“走亲访友的礼物”支出中,51岁以上人群的花费比较多 -
19、下列关于数据可视化的描述中,错误的是( )A、可视化将数据以图形图像等形式表示 B、可视化降低了数据的解释力与吸引力 C、可视化可以直观地呈现数据中蕴含的信息 D、可视化可以帮助人们快速理解数据、发现数据知识
-
20、某DataFrame对象df,包含“商品编码”“销售价格”“销售日期”等数据列。下列语句中,能将df对象中的数据以“商品编码"为关键字降序排序的是( )A、df.sort_ index( axis=1, ascending=True) B、df.sort _values('商品编码', ascending =False) C、df.sort _values('商品编码', ascending=True, inplace=True) D、df.sort_ values('商品编码', ascending=False, inplace=True)