相关试卷
-
1、小张收集了近段时间要学习的英文单词,存储为“data.txt" 文件,格式如图所示。

data. txt 记事本
他处理“data.txt”文件中英文单词的Python程序段如下:
file='data.txt'
word_ c=[]
n=0
for word in open(file):
if word[0:1]=='c':
word_c. append(word)
print(word)
print('字母c开头的单词个数:',n)
(1)、划线处的代码为。(2)、该程序段运行后,列表word_c中的数据为。 -
2、下列数据处理中,不属于文本数据处理的是( )A、对简历数据进行关键信息提取,构建人才画像,匹配精准岗位 B、分析消费者的意见数据,挖掘用户观点,辅助运营决策 C、实时监测景区的人流数据,及时导流、限流 D、解析大量合同文档,有效监控风险条款,节省人力和时间成本
-
3、文本数据处理的主要应用有( )
①搜索引擎②自动摘要③论文查重④成绩查询⑤自动应答
A、①④⑤ B、①②③⑤ C、②③④ D、②③④⑤ -
4、使用百度搜索关键词“春节”,将采集到的结果数据存储为chj.txt文件,如图1所示。处理chj.txt文件中的数据后生成chjfc.txt文件,如图2所示。
请回答下列问题:
(1)、文件chj.txt中的数据为(选填:“结构化数据”或“非结构化数据”)。(2)、处理文件chj.txt中的数据生成chjfc.txt文件的过程,一般称为 。(3)、编写如下Python程序,读取chjf.txt文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数。在划线处填写合适代码,完善程序。txt = open('chjfc. txt', 'r', encoding='utf-8'). read( )
words-txt. split( )
word_ counts={ }
for word in words:
if len(word)==1:
continue
else:
① #可以为1行或多行代码
#使用word_counts计算词语word在words中出现的次数
word_ list=list(word_counts. items( )) #返回所有键值对信息,生成列表
word_ list. sort(key-lambda x:x[1], reverse=True) #按词语出现次数降序排序
for i in range(20):
word, times= ②
print(word, times)
程序中划线①处应填写的代码是
程序中划线②处应填写的代码是
(4)、去除步骤(3)程序的统计结果中的非特征词(如代词介词连词等)后,制作的标签云如图所示,标签云中最能表现文件chj.txt中文本特征的词有(写出3~5个)。
-
5、下列数据分析中可能涉及文本情感分析的是( )A、用户评论内容分析 B、用户年龄分布分析 C、评论发布设备分析 D、用户男女比例分析
-
6、分析某水果的用户评论内容,创建的标签云如图所示。
其中用作文本的特征项的是( )
A、字 B、词 C、句子 D、段落 -
7、文本数据处理的主要步骤包括:
①结果呈现②特征提取③分词④数据分析⑤文本数据获取
正确的顺序是( )
A、⑤②④① B、⑤③①④ C、⑤③②④① D、⑤①③②④ -
8、数据文件“data.csv"中包含“ 商品编号”“售出日期”“售出价格”“售出数量”“业务员编号”5个数据列、20000个行数据,下列Python程序段用于统计每件商品的销售总量,并绘制垂直柱形图呈现销售量前10的商品编号。程序中①②③处应填写的代码依次为( )
import pandas as pd
import matplotlib. pyplot as plt
df=pd. read_ csv(data. csv)
①
②
③
A、plot data = df. groupby('售出数量')['商品编号']. sum( ) plot data. sort_ values( )[-10:]. plot(kind='bar') plt. show() B、plot _data = df. groupby('商品编号')['售出数量']. sum() plot_data. sort_ values( )[- 10:]. plot(kind "bar') plt. show( ) C、plot_data = df. groupby('售出数量')[商品编号']. sum( ) plot_ _data. sort values( )[:10]. plot(kind='bar') plt. legend( ) D、plot_ data = df. groupby('商品编号')['售出数量']. sum( ) plot_ data. sort values( )[:10]. plot(kind='bar') plt. legend( ) -
9、编写如下 Python程序研究随机数值的分布情况,某次运行时绘制的图形如图所示。
import numpy as np
import matplotlib.pyplot as plt
plt. figure(figsize=(9,6))
n=5000
x=np. random. randn(1,n) #返回n个随机数,具有标准正态分布
y=np. random. randn(1,n)
t=np. arctan2(x,y) #函数arctan2(x,y)返回给定的坐标值的反正切值
plt. scatter(x,y,c=t,s= 15,alpha=0.5,marker='o')
# s:散点的大小,t:散点的颜色, alpha:是透明程度
请回答下列问题:
(1)、每次运行程序绘制的数据点个数为 。(2)、每次运行程序绘制的散点图 (选填:“相同” 或“不同”)。(3)、本次绘制的散点图中,数据点的分布有什么特征? -
10、采集某市某辆出租车2007年2月20日全天行驶轨迹的数据集,如图所示。该数据集特征包括:出租车ID、时间、经度、纬度、夹角角度、出租车的瞬时速度和出租车载客状态。
(1)、图所示数据集文件名为 , 出租车ID、时间、经度、纬度、夹角角度、出租车的瞬时速度和出租车载客状态数据的间隔符为 , 经度、纬度的数据类型为。(2)、绘制该数据集中出租车行驶轨迹的Python程序如下,请在方框中填写合适的代码,完善程序。import matplotib. pyplot as plt
def track(file): #绘制GPS坐标轨迹
jd=[ ] #经度
wd=[ ] #纬度
for line in open(file):
#切分行数据生成列表
line_data=line. split(',')
#取轨迹坐标
jd. append(x)
wd. append(y)
plt. plot(jd, wd)
filename='Taxi_ 105. txt'
track(filename)
plt. show( )
(3)、运行程序,绘制的图形如图所示。说说你从图中发现了什么。
(4)、尝试编写Python程序,从该数据集中挖掘其他你感兴趣的信息。 -
11、使用Python编程研究一组幂函数的图象问题,程序如下。
import matplotlib.pyplot as plt
import numpy as np
# numpylinspace(start, stop, num=50)
#产生从start到stop的等差数列,num为元素个数,默认50个
x = np. linspace(-1,1,50)
forn in [1/3,1/2,1,2,3]:
y=x**n
plt. show( )
请回答下面问题:
(1)、划线处应填写的语句是。(2)、程序运行后,绘制了个函数的图象,分别为。 -
12、下列Python程序用于研究数学函数的图象,绘制的图形如图所示。程序中①②③处应填写的代码为( )
import matplotlib.pyplot as plt
import numpy as np
# numpy. linspace(start, stop, num=50)
#产生从start到stop的等差数列,num为元素个数,默认50个
x = np.linspace(0, 1, 50)
y1=x**2
y1=**2
y2 = np.sqrt(x)
y3=x**5
plt.figure( )
①
②
③
plt.legend( )
plt.show( )
A、①plt. plot(x, y1) ②plt. scatter(x, y2) ③plt. scatter(x, y3) B、①plt. plot(x, y1, label="y1 = x**2") ②plt. scatter(x, y2, label="y2 = np. sqrt(x)") ③plt. satter(x, y3, label="y3 = x**5") C、①plt. scatter(x, y, label="y1=x**2") ②plt. plot(x, y2, labe1="y2 = np. sqrt(x)") ③plt. scatter(x, y3, label="y3=x**5") D、①plt. scatter(x, y1) ②plt. scatter(x, y2) ③plt. plot(x, y3) -
13、有如下Python程序段。
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
plot_ data = pd. DataFrame(np. random. randn(50, 2), columns -['A', B'])
# np. random. randn(50, 2)产生两列、每列50个随机数
plot_ _data. sort values('A')[- 10:]plot(kind='bar')
plt. title('tail 10')
plt. xlabel('x')
plt. ylabel('y')
plt. show( )
该程序段运行后绘制的图形为( )
A、
B、
C、
D、
-
14、某组织将关于春节期间人们主要支出的调查数据进行可视化分析,其结果如图所示,下列分析错误的是( )
A、不同年龄段的人群“买年货”的支出都比较多 B、在“娱乐活动”的支出中,23~30岁人群的花费最多 C、60岁以上人群支出最多的是“压岁钱”,支出最少的是“交通费” D、在“走亲访友的礼物”支出中,51岁以上人群的花费比较多 -
15、下列关于数据可视化的描述中,错误的是( )A、可视化将数据以图形图像等形式表示 B、可视化降低了数据的解释力与吸引力 C、可视化可以直观地呈现数据中蕴含的信息 D、可视化可以帮助人们快速理解数据、发现数据知识
-
16、某DataFrame对象df,包含“商品编码”“销售价格”“销售日期”等数据列。下列语句中,能将df对象中的数据以“商品编码"为关键字降序排序的是( )A、df.sort_ index( axis=1, ascending=True) B、df.sort _values('商品编码', ascending =False) C、df.sort _values('商品编码', ascending=True, inplace=True) D、df.sort_ values('商品编码', ascending=False, inplace=True)
-
17、有Python程序段如下:
import pandas as pd#第1行
s=pd. Series([ 166,178,1 80],index-["S1","S2","S3"]) #第2行
s[1]=168#第3行
print(s)#第4行
该程序段运行后输出结果为( )
A、[168 178 180] B、[166 168 180] C、
D、
-
18、2018年我国流通领域重要生产资料市场价格数据的示例如图所示。编写Python程序,统计每个产品的最高价格和平均价格。

请回答下列问题:
(1)、数据文件“data.asv"包含的数据列有 , 本次分析主要涉及的数据列有。(2)、实现上述功能的Python程序如下,在划线处填入合适的代码。import pandas as pd
df= pd. read _csv("data.csv")
df_ g=
df_ max=df_ _g["价格(元)"].max( )
df_ mean=
print(df_ max)
print(df_ mean)
-
19、有Python程序段如下:
import pandas as pd
df1=pd. DataFrame([[10, 20], [30, 40]], columns=['A','B'])
df2=pd. DataFrame([50, 60], [70, 80]], columns=['A',B'])
df=df1. append(df2,ignore_ index= True)
print(df)
该程序段运行后输出结果为( )
A、
B、
C、
D、
-
20、某DataFrame对象df,包含“准考证号”“学校”“姓名”“数学”“语文”等数据列,下列语句中,可以以学校为单位,统计出各校学生“数学”成绩平均值的有( )
①df. groupby('学校').mean( )
②df. groupby('数学').mean( )
③df. groupby('学校').数学.mean( )
④df. groupby('学校').describe( )
A、①②③ B、①②④ C、①③④ D、②③④