相关试卷
-
1、有Python程序段如下:
import pandas as pd#第1行
s=pd. Series([ 166,178,1 80],index-["S1","S2","S3"]) #第2行
s[1]=168#第3行
print(s)#第4行
该程序段运行后输出结果为( )
A、[168 178 180] B、[166 168 180] C、
D、
-
2、2018年我国流通领域重要生产资料市场价格数据的示例如图所示。编写Python程序,统计每个产品的最高价格和平均价格。

请回答下列问题:
(1)、数据文件“data.asv"包含的数据列有 , 本次分析主要涉及的数据列有。(2)、实现上述功能的Python程序如下,在划线处填入合适的代码。import pandas as pd
df= pd. read _csv("data.csv")
df_ g=
df_ max=df_ _g["价格(元)"].max( )
df_ mean=
print(df_ max)
print(df_ mean)
-
3、有Python程序段如下:
import pandas as pd
df1=pd. DataFrame([[10, 20], [30, 40]], columns=['A','B'])
df2=pd. DataFrame([50, 60], [70, 80]], columns=['A',B'])
df=df1. append(df2,ignore_ index= True)
print(df)
该程序段运行后输出结果为( )
A、
B、
C、
D、
-
4、某DataFrame对象df,包含“准考证号”“学校”“姓名”“数学”“语文”等数据列,下列语句中,可以以学校为单位,统计出各校学生“数学”成绩平均值的有( )
①df. groupby('学校').mean( )
②df. groupby('数学').mean( )
③df. groupby('学校').数学.mean( )
④df. groupby('学校').describe( )
A、①②③ B、①②④ C、①③④ D、②③④ -
5、Data.csv文件中数据包含“图书编号”“购入价格”“购入日期"等字段、若干个数据行,下列程序段执行后对象books_ data 中的数据将( )
import pandas as pd
books_ data=pd.read_ _csv('data.csv')
books_ data.drop("购入价格",axis=1)
books_ data.sort_ _values("图书编号",inplace=True)
A、按“图书编号”升序排列 B、仅包含“图书编号”“购入日期"数据列 C、减少“购入价格”数据列 D、增加一个数据行,其中“购入价格”值为“1” -
6、某DataFrame对象df中包含“id" "name"等8个数据列、22个数据行,下列语句中能读取df对象中某些数据列中所有数据的是( )A、df['id'] B、df.tail( ) C、df.columns D、df[2:5]
-
7、有Python程序段如下:
import pandas as pd
s1 = pd.Series(range(1,10,2))
print(s1)
该程序段运行后输出结果为( )
A、
B、
C、
D、
-
8、下列关于流数据的描述,不正确的是( )A、数据必须采集完成后处理 B、数据价值随着时间的流逝降低 C、可以采用流计算进行实时分析 D、实时分析流数据可以得到更有价值的结果
-
9、应用“分治”思想,从某大型搜索引擎网站某天的访问日志数据文件(大数据集)中提取出访问该网站次数最多的IP。(1)、IP地址是一个32位的二进制数,通常被分割为4个“8位二进制数”。IP地址通常用“点分十进制"表示成a.b.c.d的形式,其中a,b,c,d均为0~255之间的十进制整数。如:点分十进制IP地址100.4.5.6,实际上是32位二进制数01100100.00000100.00000101.0000110。IP地址最多有种取值。(2)、IP日志数据量非常大,不能完全加载到内存中处理。可以采用“分治”思想,把IP日志数据分别存储到1024个小文件中,则每个小文件最多包含个IP地址的数据。(3)、同时统计每个小文件中出现次数最多的IP地址和出现次数。若小文件中IP地址数据格式如图所示,统计小文件中出现次数最多的IP地址的Python代码如下,在方框中补充合适代码,完善程序。
file = open("1.log')
ips= []
for line in file:
ip = line.split( )[0] #split( )分割后,返回的列表中第一个值就是IP地址
ips.append(ip)
def showmax(list): #返回一个列表中出现次数最多的元素及其出现次数
print(showmax(ips))
(4)、汇总每个小文件中出现次数最多的IP地址和出现次数数据,可以得到至少个IP地址。对这些IP地址按出现次数排序或求最大值,最终得到总体上出现次数最多的IP。 -
10、实时处理与批处理整合的优势有( )
①增加了系统开销
②有利于降低使用成本
③可以在同一个平台做批处理计算和流计算
④缩短了批处理计算和流计算之间的切换延时
A、①②③ B、①②④ C、①③④ D、②③④ -
11、下列属于图数据处理软件的是( )A、MapReduce B、Twitter Storm C、Yahoo!S4 D、Google Pregel
-
12、下列关于分布式数据库HBase的理解,不正确的是( )A、HBase是谷歌BigTable数据库的开源实现 B、建立在HDFS提供的底层存储基础上 C、采用基于行的存储方式,可管理PB级的大数据 D、主要用于存储非结构化数据和半结构化数据
-
13、目前,云盘的底层一般采用的文件系统是( )A、HDFS B、FAT32 C、NTFS D、Ext4
-
14、下列应用中涉及流数据处理的是( )A、统计店铺的月交易量 B、实时更新导航线路 C、查询历史话费账单 D、分析上年的地铁客流数据
-
15、22018年2~12月的移动应用程序(APP)数量分类占比情况如图所示,分析并描述图中数据的特征和规律(写出两条)。
① ②
-
16、下列关于数据整理的说法,正确的是( )A、数据集中的缺失值一般用任意值填充 B、数据集中的异常数据须直接删除或忽略 C、数据集中的重复数据可进行合并或删除 D、数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
-
17、使用Excel软件处理“2019年4月流通领域重要生产资料市场价格变动情况”数据,如图所示。
(1)、计算表中下旬价格相比上期价格的涨跌幅(%):选择G4单元格输入公式,然后用自动填充功能完成其他单元格的计算则G4单元格中可使用的公式为。(2)、若要对比分析图中的上、下旬价格的变化情况,写出一种分析方法。 -
18、下列选项中的相关软件都是主要用于表格数据处理的有( )A、《记事本》《录音机》程序 B、PowerPoint、SAS软件 C、Excel、SPSS软件 D、MATLAB,Word软件
-
19、小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示。
现要分析不同年龄、性别的用户购买商品种类、数量的情况。分析前,小张对数据进行了以下整理,下列操作恰当的是( )
①删除“birthday"列数据
②删除“电话”列数据
③删除“购买日期”列数据
④修改“user_ id"birthday”列名称为中文名称
⑤修改单元格D6中的数据为M
⑥修改“birthday”列日期格式与G列一致
A、①②③⑤ B、②④⑤⑥ C、①④⑤⑥ D、③④⑤⑥ -
20、下列关于数据整理目的的描述,错误的是( )A、减少数据量 B、检测和修正错漏的数据 C、整合数据资源 D、提高数据质量