相关试卷
-
1、Data.csv文件中数据包含“图书编号”“购入价格”“购入日期"等字段、若干个数据行,下列程序段执行后对象books_ data 中的数据将( )
import pandas as pd
books_ data=pd.read_ _csv('data.csv')
books_ data.drop("购入价格",axis=1)
books_ data.sort_ _values("图书编号",inplace=True)
A、按“图书编号”升序排列 B、仅包含“图书编号”“购入日期"数据列 C、减少“购入价格”数据列 D、增加一个数据行,其中“购入价格”值为“1” -
2、某DataFrame对象df中包含“id" "name"等8个数据列、22个数据行,下列语句中能读取df对象中某些数据列中所有数据的是( )A、df['id'] B、df.tail( ) C、df.columns D、df[2:5]
-
3、有Python程序段如下:
import pandas as pd
s1 = pd.Series(range(1,10,2))
print(s1)
该程序段运行后输出结果为( )
A、
B、
C、
D、
-
4、下列关于流数据的描述,不正确的是( )A、数据必须采集完成后处理 B、数据价值随着时间的流逝降低 C、可以采用流计算进行实时分析 D、实时分析流数据可以得到更有价值的结果
-
5、应用“分治”思想,从某大型搜索引擎网站某天的访问日志数据文件(大数据集)中提取出访问该网站次数最多的IP。(1)、IP地址是一个32位的二进制数,通常被分割为4个“8位二进制数”。IP地址通常用“点分十进制"表示成a.b.c.d的形式,其中a,b,c,d均为0~255之间的十进制整数。如:点分十进制IP地址100.4.5.6,实际上是32位二进制数01100100.00000100.00000101.0000110。IP地址最多有种取值。(2)、IP日志数据量非常大,不能完全加载到内存中处理。可以采用“分治”思想,把IP日志数据分别存储到1024个小文件中,则每个小文件最多包含个IP地址的数据。(3)、同时统计每个小文件中出现次数最多的IP地址和出现次数。若小文件中IP地址数据格式如图所示,统计小文件中出现次数最多的IP地址的Python代码如下,在方框中补充合适代码,完善程序。
file = open("1.log')
ips= []
for line in file:
ip = line.split( )[0] #split( )分割后,返回的列表中第一个值就是IP地址
ips.append(ip)
def showmax(list): #返回一个列表中出现次数最多的元素及其出现次数
print(showmax(ips))
(4)、汇总每个小文件中出现次数最多的IP地址和出现次数数据,可以得到至少个IP地址。对这些IP地址按出现次数排序或求最大值,最终得到总体上出现次数最多的IP。 -
6、实时处理与批处理整合的优势有( )
①增加了系统开销
②有利于降低使用成本
③可以在同一个平台做批处理计算和流计算
④缩短了批处理计算和流计算之间的切换延时
A、①②③ B、①②④ C、①③④ D、②③④ -
7、下列属于图数据处理软件的是( )A、MapReduce B、Twitter Storm C、Yahoo!S4 D、Google Pregel
-
8、下列关于分布式数据库HBase的理解,不正确的是( )A、HBase是谷歌BigTable数据库的开源实现 B、建立在HDFS提供的底层存储基础上 C、采用基于行的存储方式,可管理PB级的大数据 D、主要用于存储非结构化数据和半结构化数据
-
9、目前,云盘的底层一般采用的文件系统是( )A、HDFS B、FAT32 C、NTFS D、Ext4
-
10、下列应用中涉及流数据处理的是( )A、统计店铺的月交易量 B、实时更新导航线路 C、查询历史话费账单 D、分析上年的地铁客流数据
-
11、22018年2~12月的移动应用程序(APP)数量分类占比情况如图所示,分析并描述图中数据的特征和规律(写出两条)。
① ②
-
12、下列关于数据整理的说法,正确的是( )A、数据集中的缺失值一般用任意值填充 B、数据集中的异常数据须直接删除或忽略 C、数据集中的重复数据可进行合并或删除 D、数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
-
13、使用Excel软件处理“2019年4月流通领域重要生产资料市场价格变动情况”数据,如图所示。
(1)、计算表中下旬价格相比上期价格的涨跌幅(%):选择G4单元格输入公式,然后用自动填充功能完成其他单元格的计算则G4单元格中可使用的公式为。(2)、若要对比分析图中的上、下旬价格的变化情况,写出一种分析方法。 -
14、下列选项中的相关软件都是主要用于表格数据处理的有( )A、《记事本》《录音机》程序 B、PowerPoint、SAS软件 C、Excel、SPSS软件 D、MATLAB,Word软件
-
15、小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示。
现要分析不同年龄、性别的用户购买商品种类、数量的情况。分析前,小张对数据进行了以下整理,下列操作恰当的是( )
①删除“birthday"列数据
②删除“电话”列数据
③删除“购买日期”列数据
④修改“user_ id"birthday”列名称为中文名称
⑤修改单元格D6中的数据为M
⑥修改“birthday”列日期格式与G列一致
A、①②③⑤ B、②④⑤⑥ C、①④⑤⑥ D、③④⑤⑥ -
16、下列关于数据整理目的的描述,错误的是( )A、减少数据量 B、检测和修正错漏的数据 C、整合数据资源 D、提高数据质量
-
17、小明设计了一个加密程序,对于任意输入的一个字符串,运行程序后会输出相应的密文。其中,字符串加密算法的思路如下:
⑴只针对英文字符和数字进行加密,其余字符保持不变;
⑵将原文中的小写字母转换成大写字母;
⑶根据第2步所得结果,若是英文字符,则逐个后移4位(例如“A”→“E”,“Z”→“D”);若是数字,则逐个前移2位(例如:“3”→“1”,“1”→“9”)。
实现上述要求的某Python程序如下,但程序加框处代码有误,请修改。
s1=input("请输入明文:")
s2="
for i in range(len(s1)):
s=""
if s1[i]>="a" and s1[i]<="z":
s=chr(ord(s1[i])-32)
s=chr((ord(s)-ord("A")+4) % 26 +ord("A"))
elif s1[i]>="A" and s1[i]<= "Z":
s=chr((ord(s1[i])-ord("A")+4)%26 +ord("A"))
elif s1[i]>="0" and s1[i]<="9":
#①else:
#②s2=s2+s
print("得到的密文是:",s2)
-
18、在平面坐标系中,给定一组有序的点 。从原点出发,依次用线段连接这些点,构成一条折线,要求编写一个“计算折线长度”的Python程序,该Python程序代码编写思路如下:
①输入各点的坐标(最后一个点的坐标后不加逗号),存人变量a中;
②将原点坐标加到坐标序列a的最前端;
③以逗号为界从a中取出各点的坐标,存入列表b中;其中列表b中的第一个和第二个数字为第一个点的x坐标和y坐标,第三个和第四个数字为第二个点的x坐标和y坐标,以此类推;
④计算折线长度。若以b[]标记为相邻两个点中前者的x坐标,则b[i+2]为后者的x坐标,b[i+1]为前者的y坐标,b[i+3]为后者的y坐标。i最小值为0,最大值为len(b)-4,步长为2。运用for语句求折线长度。
程序如下:
from math import sqrt
a=input("请输入各点的坐标:")
① #补上原点坐标
b=a.splt(",") #取出各点的坐标
if len(b) %2== 1:
print("输入的坐标有误")
else:
s=0
for i in range(0, len(b)-2, ② ):
s=s+sqt((int(b[i+2])-int(b[i])* *2+(int(b[i+3])-int(b[i+1])**2)
else:
print("折线长度为:", s)
(1)、若三个点的坐标为(5,10),(8,12),(6,17),则输入为。(2)、程序中划线处的代码为①;②。 -
19、编写“字符串生成”的Python程序。程序功能:输入由多个正整数组成的字符串t1(这些正整数以“,”为分割符和结束符),并以这些整数为位置信息,依次从字典内容(t2)中提取相应字符并连接成字符串(s),最后将字符串(s)显示输出。其中,字典内容(2)从文件“dictionary.txt"中读取。
例如:
输入的t1="2,8,15,"
字典内容(t2)从文件“dictionary.txt”中读取的内容为“python is a programming language.”
程序最终输出的字符串(s)为:yio
实现上述功能的某Python程序如下:
f=open('dictionary.txt', 'r')
t1=input('字符位置:')
t2=f.read( )
s=' '
t=' '
for i in range ① :
c=t1[i]
if c==',':
p=int(t)
s=s+t2[p-1]
t="
else:
②
print(生成内容:',s)
f.close
为了使程序能正确运行,上述程序中划线处的代码分别为:①
②
-
20、有如下Python程序。
import turtle
str1=input("请输入一个二进制整数:")
str1_ len=len(str1)
s=0
for i in range(str1_ len):
a=int(str1[i])
b=2**(str1_ len-i-1)
x=a*b
s+=x
print(s)
运行该程序,输入1101110,程序结果为( )
A、110 B、111 C、220 D、1101110