相关试卷

  • 1、Data.csv文件中数据包含“图书编号”“购入价格”“购入日期"等字段、若干个数据行,下列程序段执行后对象books_ data 中的数据将(     )

    import pandas as pd

    books_ data=pd.read_ _csv('data.csv')

    books_ data.drop("购入价格",axis=1)

    books_ data.sort_ _values("图书编号",inplace=True)

    A、按“图书编号”升序排列 B、仅包含“图书编号”“购入日期"数据列 C、减少“购入价格”数据列 D、增加一个数据行,其中“购入价格”值为“1”
  • 2、某DataFrame对象df中包含“id" "name"等8个数据列、22个数据行,下列语句中能读取df对象中某些数据列中所有数据的是(    )
    A、df['id'] B、df.tail( ) C、df.columns D、df[2:5]
  • 3、有Python程序段如下:

    import pandas as pd

    s1 = pd.Series(range(1,10,2))

    print(s1)

    该程序段运行后输出结果为(    )

    A、 B、 C、 D、
  • 4、下列关于流数据的描述,不正确的是(    )
    A、数据必须采集完成后处理 B、数据价值随着时间的流逝降低 C、可以采用流计算进行实时分析 D、实时分析流数据可以得到更有价值的结果
  • 5、应用“分治”思想,从某大型搜索引擎网站某天的访问日志数据文件(大数据集)中提取出访问该网站次数最多的IP。
    (1)、IP地址是一个32位的二进制数,通常被分割为4个“8位二进制数”。IP地址通常用“点分十进制"表示成a.b.c.d的形式,其中a,b,c,d均为0~255之间的十进制整数。如:点分十进制IP地址100.4.5.6,实际上是32位二进制数01100100.00000100.00000101.0000110。IP地址最多有种取值。
    (2)、IP日志数据量非常大,不能完全加载到内存中处理。可以采用“分治”思想,把IP日志数据分别存储到1024个小文件中,则每个小文件最多包含个IP地址的数据。
    (3)、同时统计每个小文件中出现次数最多的IP地址和出现次数。若小文件中IP地址数据格式如图所示,统计小文件中出现次数最多的IP地址的Python代码如下,在方框中补充合适代码,完善程序。

    file = open("1.log')

    ips= []

    for line in file:

        ip = line.split( )[0]    #split( )分割后,返回的列表中第一个值就是IP地址

        ips.append(ip)

    def showmax(list):   #返回一个列表中出现次数最多的元素及其出现次数

    print(showmax(ips))

    (4)、汇总每个小文件中出现次数最多的IP地址和出现次数数据,可以得到至少个IP地址。对这些IP地址按出现次数排序或求最大值,最终得到总体上出现次数最多的IP。
  • 6、实时处理与批处理整合的优势有(    )

    ①增加了系统开销

    ②有利于降低使用成本

    ③可以在同一个平台做批处理计算和流计算

    ④缩短了批处理计算和流计算之间的切换延时

    A、①②③ B、①②④ C、①③④ D、②③④
  • 7、下列属于图数据处理软件的是(    )
    A、MapReduce B、Twitter Storm C、Yahoo!S4 D、Google Pregel
  • 8、下列关于分布式数据库HBase的理解,不正确的是(    )
    A、HBase是谷歌BigTable数据库的开源实现 B、建立在HDFS提供的底层存储基础上 C、采用基于行的存储方式,可管理PB级的大数据 D、主要用于存储非结构化数据和半结构化数据
  • 9、目前,云盘的底层一般采用的文件系统是(    )
    A、HDFS B、FAT32 C、NTFS D、Ext4
  • 10、下列应用中涉及流数据处理的是(    )
    A、统计店铺的月交易量 B、实时更新导航线路 C、查询历史话费账单 D、分析上年的地铁客流数据
  • 11、22018年2~12月的移动应用程序(APP)数量分类占比情况如图所示,分析并描述图中数据的特征和规律(写出两条)。

     ② 

  • 12、下列关于数据整理的说法,正确的是(    )
    A、数据集中的缺失值一般用任意值填充 B、数据集中的异常数据须直接删除或忽略 C、数据集中的重复数据可进行合并或删除 D、数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
  • 13、使用Excel软件处理“2019年4月流通领域重要生产资料市场价格变动情况”数据,如图所示。

    (1)、计算表中下旬价格相比上期价格的涨跌幅(%):选择G4单元格输入公式,然后用自动填充功能完成其他单元格的计算则G4单元格中可使用的公式为
    (2)、若要对比分析图中的上、下旬价格的变化情况,写出一种分析方法。
  • 14、下列选项中的相关软件都是主要用于表格数据处理的有(    )
    A、《记事本》《录音机》程序 B、PowerPoint、SAS软件 C、Excel、SPSS软件 D、MATLAB,Word软件
  • 15、小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示。

    现要分析不同年龄、性别的用户购买商品种类、数量的情况。分析前,小张对数据进行了以下整理,下列操作恰当的是(    )

    ①删除“birthday"列数据

    ②删除“电话”列数据

    ③删除“购买日期”列数据

    ④修改“user_ id"birthday”列名称为中文名称

    ⑤修改单元格D6中的数据为M

    ⑥修改“birthday”列日期格式与G列一致

    A、①②③⑤ B、②④⑤⑥ C、①④⑤⑥ D、③④⑤⑥
  • 16、下列关于数据整理目的的描述,错误的是(    )
    A、减少数据量 B、检测和修正错漏的数据 C、整合数据资源 D、提高数据质量
  • 17、小明设计了一个加密程序,对于任意输入的一个字符串,运行程序后会输出相应的密文。其中,字符串加密算法的思路如下:

    ⑴只针对英文字符和数字进行加密,其余字符保持不变;

    ⑵将原文中的小写字母转换成大写字母;

    ⑶根据第2步所得结果,若是英文字符,则逐个后移4位(例如“A”→“E”,“Z”→“D”);若是数字,则逐个前移2位(例如:“3”→“1”,“1”→“9”)。

    实现上述要求的某Python程序如下,但程序加框处代码有误,请修改。

    s1=input("请输入明文:")

    s2="

    for i in range(len(s1)):

         s=""

        if s1[i]>="a" and s1[i]<="z":

            s=chr(ord(s1[i])-32)

            s=chr((ord(s)-ord("A")+4) % 26 +ord("A"))

        elif s1[i]>="A" and s1[i]<= "Z":

            s=chr((ord(s1[i])-ord("A")+4)%26 +ord("A"))

        elif s1[i]>="0" and s1[i]<="9":

                 #①

        else:

                  #②

        s2=s2+s

    print("得到的密文是:",s2)

  • 18、在平面坐标系中,给定一组有序的点 。从原点出发,依次用线段连接这些点,构成一条折线,要求编写一个“计算折线长度”的Python程序,该Python程序代码编写思路如下:

    ①输入各点的坐标(最后一个点的坐标后不加逗号),存人变量a中;

    ②将原点坐标加到坐标序列a的最前端;

    ③以逗号为界从a中取出各点的坐标,存入列表b中;其中列表b中的第一个和第二个数字为第一个点的x坐标和y坐标,第三个和第四个数字为第二个点的x坐标和y坐标,以此类推;

    ④计算折线长度。若以b[]标记为相邻两个点中前者的x坐标,则b[i+2]为后者的x坐标,b[i+1]为前者的y坐标,b[i+3]为后者的y坐标。i最小值为0,最大值为len(b)-4,步长为2。运用for语句求折线长度。

    程序如下:

    from math import sqrt

    a=input("请输入各点的坐标:")

        ①            #补上原点坐标

    b=a.splt(",")      #取出各点的坐标

    if len(b) %2== 1:

        print("输入的坐标有误")

    else:

        s=0

        for i in range(0, len(b)-2,      ②      ):

            s=s+sqt((int(b[i+2])-int(b[i])* *2+(int(b[i+3])-int(b[i+1])**2)

        else:

            print("折线长度为:", s)

    (1)、若三个点的坐标为(5,10),(8,12),(6,17),则输入为
    (2)、程序中划线处的代码为①;②
  • 19、编写“字符串生成”的Python程序。程序功能:输入由多个正整数组成的字符串t1(这些正整数以“,”为分割符和结束符),并以这些整数为位置信息,依次从字典内容(t2)中提取相应字符并连接成字符串(s),最后将字符串(s)显示输出。其中,字典内容(2)从文件“dictionary.txt"中读取。

    例如:

    输入的t1="2,8,15,"

    字典内容(t2)从文件“dictionary.txt”中读取的内容为“python is a programming language.”

    程序最终输出的字符串(s)为:yio

    实现上述功能的某Python程序如下:

    f=open('dictionary.txt', 'r')

    t1=input('字符位置:')

    t2=f.read( )

    s=' '

    t=' '

    for i in range     ①     

        c=t1[i]

        if c==',':

            p=int(t)

            s=s+t2[p-1]

            t="

        else:

               ②     

    print(生成内容:',s)

    f.close

    为了使程序能正确运行,上述程序中划线处的代码分别为:①

  • 20、有如下Python程序。

    import turtle

    str1=input("请输入一个二进制整数:")

    str1_ len=len(str1)

    s=0

    for i in range(str1_ len):

        a=int(str1[i])

        b=2**(str1_ len-i-1)

        x=a*b

        s+=x

    print(s)

    运行该程序,输入1101110,程序结果为(     )

    A、110 B、111 C、220 D、1101110
上一页 1026 1027 1028 1029 1030 下一页 跳转