相关试卷

  • 1、有Python程序段如下:

    import pandas as pd#第1行

    s=pd. Series([ 166,178,1 80],index-["S1","S2","S3"])    #第2行

    s[1]=168#第3行

    print(s)#第4行

    该程序段运行后输出结果为(     )

    A、[168 178 180] B、[166 168 180] C、 D、
  • 2、2018年我国流通领域重要生产资料市场价格数据的示例如图所示。编写Python程序,统计每个产品的最高价格和平均价格。

    请回答下列问题:

    (1)、数据文件“data.asv"包含的数据列有 , 本次分析主要涉及的数据列有
    (2)、实现上述功能的Python程序如下,在划线处填入合适的代码。

    import pandas as pd

    df= pd. read _csv("data.csv")

    df_ g=

    df_ max=df_ _g["价格(元)"].max( )

    df_ mean=

    print(df_ max)

    print(df_ mean)

  • 3、有Python程序段如下:

    import pandas as pd

    df1=pd. DataFrame([[10, 20], [30, 40]], columns=['A','B'])

    df2=pd. DataFrame([50, 60], [70, 80]], columns=['A',B'])

    df=df1. append(df2,ignore_ index= True)

    print(df)

    该程序段运行后输出结果为(    )

    A、 B、 C、 D、
  • 4、某DataFrame对象df,包含“准考证号”“学校”“姓名”“数学”“语文”等数据列,下列语句中,可以以学校为单位,统计出各校学生“数学”成绩平均值的有(     )

    ①df. groupby('学校').mean( )

    ②df. groupby('数学').mean( )

    ③df. groupby('学校').数学.mean( )

    ④df. groupby('学校').describe( )

    A、①②③ B、①②④ C、①③④ D、②③④
  • 5、Data.csv文件中数据包含“图书编号”“购入价格”“购入日期"等字段、若干个数据行,下列程序段执行后对象books_ data 中的数据将(     )

    import pandas as pd

    books_ data=pd.read_ _csv('data.csv')

    books_ data.drop("购入价格",axis=1)

    books_ data.sort_ _values("图书编号",inplace=True)

    A、按“图书编号”升序排列 B、仅包含“图书编号”“购入日期"数据列 C、减少“购入价格”数据列 D、增加一个数据行,其中“购入价格”值为“1”
  • 6、某DataFrame对象df中包含“id" "name"等8个数据列、22个数据行,下列语句中能读取df对象中某些数据列中所有数据的是(    )
    A、df['id'] B、df.tail( ) C、df.columns D、df[2:5]
  • 7、有Python程序段如下:

    import pandas as pd

    s1 = pd.Series(range(1,10,2))

    print(s1)

    该程序段运行后输出结果为(    )

    A、 B、 C、 D、
  • 8、下列关于流数据的描述,不正确的是(    )
    A、数据必须采集完成后处理 B、数据价值随着时间的流逝降低 C、可以采用流计算进行实时分析 D、实时分析流数据可以得到更有价值的结果
  • 9、应用“分治”思想,从某大型搜索引擎网站某天的访问日志数据文件(大数据集)中提取出访问该网站次数最多的IP。
    (1)、IP地址是一个32位的二进制数,通常被分割为4个“8位二进制数”。IP地址通常用“点分十进制"表示成a.b.c.d的形式,其中a,b,c,d均为0~255之间的十进制整数。如:点分十进制IP地址100.4.5.6,实际上是32位二进制数01100100.00000100.00000101.0000110。IP地址最多有种取值。
    (2)、IP日志数据量非常大,不能完全加载到内存中处理。可以采用“分治”思想,把IP日志数据分别存储到1024个小文件中,则每个小文件最多包含个IP地址的数据。
    (3)、同时统计每个小文件中出现次数最多的IP地址和出现次数。若小文件中IP地址数据格式如图所示,统计小文件中出现次数最多的IP地址的Python代码如下,在方框中补充合适代码,完善程序。

    file = open("1.log')

    ips= []

    for line in file:

        ip = line.split( )[0]    #split( )分割后,返回的列表中第一个值就是IP地址

        ips.append(ip)

    def showmax(list):   #返回一个列表中出现次数最多的元素及其出现次数

    print(showmax(ips))

    (4)、汇总每个小文件中出现次数最多的IP地址和出现次数数据,可以得到至少个IP地址。对这些IP地址按出现次数排序或求最大值,最终得到总体上出现次数最多的IP。
  • 10、实时处理与批处理整合的优势有(    )

    ①增加了系统开销

    ②有利于降低使用成本

    ③可以在同一个平台做批处理计算和流计算

    ④缩短了批处理计算和流计算之间的切换延时

    A、①②③ B、①②④ C、①③④ D、②③④
  • 11、下列属于图数据处理软件的是(    )
    A、MapReduce B、Twitter Storm C、Yahoo!S4 D、Google Pregel
  • 12、下列关于分布式数据库HBase的理解,不正确的是(    )
    A、HBase是谷歌BigTable数据库的开源实现 B、建立在HDFS提供的底层存储基础上 C、采用基于行的存储方式,可管理PB级的大数据 D、主要用于存储非结构化数据和半结构化数据
  • 13、目前,云盘的底层一般采用的文件系统是(    )
    A、HDFS B、FAT32 C、NTFS D、Ext4
  • 14、下列应用中涉及流数据处理的是(    )
    A、统计店铺的月交易量 B、实时更新导航线路 C、查询历史话费账单 D、分析上年的地铁客流数据
  • 15、22018年2~12月的移动应用程序(APP)数量分类占比情况如图所示,分析并描述图中数据的特征和规律(写出两条)。

     ② 

  • 16、下列关于数据整理的说法,正确的是(    )
    A、数据集中的缺失值一般用任意值填充 B、数据集中的异常数据须直接删除或忽略 C、数据集中的重复数据可进行合并或删除 D、数据集中格式不一致的数据,一般保留一种格式的数据,删除其他格式的数据
  • 17、使用Excel软件处理“2019年4月流通领域重要生产资料市场价格变动情况”数据,如图所示。

    (1)、计算表中下旬价格相比上期价格的涨跌幅(%):选择G4单元格输入公式,然后用自动填充功能完成其他单元格的计算则G4单元格中可使用的公式为
    (2)、若要对比分析图中的上、下旬价格的变化情况,写出一种分析方法。
  • 18、下列选项中的相关软件都是主要用于表格数据处理的有(    )
    A、《记事本》《录音机》程序 B、PowerPoint、SAS软件 C、Excel、SPSS软件 D、MATLAB,Word软件
  • 19、小张合并商品购买表和用户信息表得到新数据集,部分数据如图所示。

    现要分析不同年龄、性别的用户购买商品种类、数量的情况。分析前,小张对数据进行了以下整理,下列操作恰当的是(    )

    ①删除“birthday"列数据

    ②删除“电话”列数据

    ③删除“购买日期”列数据

    ④修改“user_ id"birthday”列名称为中文名称

    ⑤修改单元格D6中的数据为M

    ⑥修改“birthday”列日期格式与G列一致

    A、①②③⑤ B、②④⑤⑥ C、①④⑤⑥ D、③④⑤⑥
  • 20、下列关于数据整理目的的描述,错误的是(    )
    A、减少数据量 B、检测和修正错漏的数据 C、整合数据资源 D、提高数据质量
上一页 1044 1045 1046 1047 1048 下一页 跳转