相关试卷

  • 1、小张收集了近段时间要学习的英文单词,存储为“data.txt" 文件,格式如图所示。

    data. txt 记事本

    他处理“data.txt”文件中英文单词的Python程序段如下:

    file='data.txt'

    word_ c=[]

    n=0

    for word in open(file):

        if word[0:1]=='c':

           word_c. append(word)

           print(word)

                    

    print('字母c开头的单词个数:',n)

    (1)、划线处的代码为
    (2)、该程序段运行后,列表word_c中的数据为
  • 2、下列数据处理中,不属于文本数据处理的是(    )
    A、对简历数据进行关键信息提取,构建人才画像,匹配精准岗位 B、分析消费者的意见数据,挖掘用户观点,辅助运营决策 C、实时监测景区的人流数据,及时导流、限流 D、解析大量合同文档,有效监控风险条款,节省人力和时间成本
  • 3、文本数据处理的主要应用有(    )

    ①搜索引擎②自动摘要③论文查重④成绩查询⑤自动应答

    A、①④⑤ B、①②③⑤ C、②③④ D、②③④⑤
  • 4、使用百度搜索关键词“春节”,将采集到的结果数据存储为chj.txt文件,如图1所示。处理chj.txt文件中的数据后生成chjfc.txt文件,如图2所示。

    请回答下列问题:

    (1)、文件chj.txt中的数据为(选填:“结构化数据”或“非结构化数据”)。
    (2)、处理文件chj.txt中的数据生成chjfc.txt文件的过程,一般称为 。
    (3)、编写如下Python程序,读取chjf.txt文件中的数据,并统计其中各词语(2个及以上文字构成)出现的次数。在划线处填写合适代码,完善程序。

    txt = open('chjfc. txt', 'r', encoding='utf-8'). read( )

    words-txt. split( )

    word_ counts={ }

    for word in words:

        if len(word)==1:

        continue

    else:

              ①            #可以为1行或多行代码

        #使用word_counts计算词语word在words中出现的次数

    word_ list=list(word_counts. items( ))      #返回所有键值对信息,生成列表

    word_ list. sort(key-lambda x:x[1], reverse=True)     #按词语出现次数降序排序

    for i in range(20):

        word, times=      ②       

        print(word, times)

    程序中划线①处应填写的代码是

    程序中划线②处应填写的代码是

    (4)、去除步骤(3)程序的统计结果中的非特征词(如代词介词连词等)后,制作的标签云如图所示,标签云中最能表现文件chj.txt中文本特征的词有(写出3~5个)。

  • 5、下列数据分析中可能涉及文本情感分析的是(    )
    A、用户评论内容分析 B、用户年龄分布分析 C、评论发布设备分析 D、用户男女比例分析
  • 6、分析某水果的用户评论内容,创建的标签云如图所示。

    其中用作文本的特征项的是(    )

    A、 B、 C、句子 D、段落
  • 7、文本数据处理的主要步骤包括:

    ①结果呈现②特征提取③分词④数据分析⑤文本数据获取

    正确的顺序是(    )

    A、⑤②④① B、⑤③①④ C、⑤③②④① D、⑤①③②④
  • 8、数据文件“data.csv"中包含“ 商品编号”“售出日期”“售出价格”“售出数量”“业务员编号”5个数据列、20000个行数据,下列Python程序段用于统计每件商品的销售总量,并绘制垂直柱形图呈现销售量前10的商品编号。程序中①②③处应填写的代码依次为(     )

    import pandas as pd

    import matplotlib. pyplot as plt

    df=pd. read_ csv(data. csv)

       ①  

       ②  

       ③  

    A、plot data = df. groupby('售出数量')['商品编号']. sum( ) plot data. sort_ values( )[-10:]. plot(kind='bar') plt. show() B、plot _data = df. groupby('商品编号')['售出数量']. sum() plot_data. sort_ values( )[- 10:]. plot(kind "bar') plt. show( ) C、plot_data = df. groupby('售出数量')[商品编号']. sum( ) plot_ _data. sort values( )[:10]. plot(kind='bar') plt. legend( ) D、plot_ data = df. groupby('商品编号')['售出数量']. sum( ) plot_ data. sort values( )[:10]. plot(kind='bar') plt. legend( )
  • 9、编写如下 Python程序研究随机数值的分布情况,某次运行时绘制的图形如图所示。

    import numpy as np

    import matplotlib.pyplot as plt

    plt. figure(figsize=(9,6))

    n=5000

    x=np. random. randn(1,n)    #返回n个随机数,具有标准正态分布

    y=np. random. randn(1,n)

    t=np. arctan2(x,y)    #函数arctan2(x,y)返回给定的坐标值的反正切值

    plt. scatter(x,y,c=t,s= 15,alpha=0.5,marker='o')

    # s:散点的大小,t:散点的颜色, alpha:是透明程度

    请回答下列问题:

    (1)、每次运行程序绘制的数据点个数为 。
    (2)、每次运行程序绘制的散点图 (选填:“相同” 或“不同”)。
    (3)、本次绘制的散点图中,数据点的分布有什么特征?
  • 10、采集某市某辆出租车2007年2月20日全天行驶轨迹的数据集,如图所示。该数据集特征包括:出租车ID、时间、经度、纬度、夹角角度、出租车的瞬时速度和出租车载客状态。

    (1)、图所示数据集文件名为 , 出租车ID、时间、经度、纬度、夹角角度、出租车的瞬时速度和出租车载客状态数据的间隔符为 , 经度、纬度的数据类型为
    (2)、绘制该数据集中出租车行驶轨迹的Python程序如下,请在方框中填写合适的代码,完善程序。

    import matplotib. pyplot as plt

    def track(file):     #绘制GPS坐标轨迹

         jd=[ ]      #经度

         wd=[ ]       #纬度

         for line in open(file):

             #切分行数据生成列表

             line_data=line. split(',')

             #取轨迹坐标

            

             jd. append(x)

             wd. append(y)

         plt. plot(jd, wd)

    filename='Taxi_ 105. txt'

    track(filename)

    plt. show( )

    (3)、运行程序,绘制的图形如图所示。说说你从图中发现了什么。

    (4)、尝试编写Python程序,从该数据集中挖掘其他你感兴趣的信息。
  • 11、使用Python编程研究一组幂函数的图象问题,程序如下。

    import matplotlib.pyplot as plt

    import numpy as np

    # numpylinspace(start, stop, num=50)

    #产生从start到stop的等差数列,num为元素个数,默认50个

    x = np. linspace(-1,1,50)

    forn in [1/3,1/2,1,2,3]:

        y=x**n

                   

    plt. show( )

    请回答下面问题:

    (1)、划线处应填写的语句是
    (2)、程序运行后,绘制了个函数的图象,分别为
  • 12、下列Python程序用于研究数学函数的图象,绘制的图形如图所示。程序中①②③处应填写的代码为( )

    import matplotlib.pyplot as plt

    import numpy as np

    # numpy. linspace(start, stop, num=50)

    #产生从start到stop的等差数列,num为元素个数,默认50个

    x = np.linspace(0, 1, 50)

    y1=x**2

    y1=**2

    y2 = np.sqrt(x)

    y3=x**5

    plt.figure( )

        ①   

        ②   

        ③   

    plt.legend( )

    plt.show( )

    A、①plt. plot(x, y1) ②plt. scatter(x, y2) ③plt. scatter(x, y3) B、①plt. plot(x, y1, label="y1 = x**2") ②plt. scatter(x, y2, label="y2 = np. sqrt(x)") ③plt. satter(x, y3, label="y3 = x**5") C、①plt. scatter(x, y, label="y1=x**2") ②plt. plot(x, y2, labe1="y2 = np. sqrt(x)") ③plt. scatter(x, y3, label="y3=x**5") D、①plt. scatter(x, y1) ②plt. scatter(x, y2) ③plt. plot(x, y3)
  • 13、有如下Python程序段。

    import pandas as pd

    import numpy as np

    import matplotlib.pyplot as plt

    plot_ data = pd. DataFrame(np. random. randn(50, 2), columns -['A', B'])

    # np. random. randn(50, 2)产生两列、每列50个随机数

    plot_ _data. sort values('A')[- 10:]plot(kind='bar')

    plt. title('tail 10')

    plt. xlabel('x')

    plt. ylabel('y')

    plt. show( )

    该程序段运行后绘制的图形为(      )

    A、 B、 C、 D、
  • 14、某组织将关于春节期间人们主要支出的调查数据进行可视化分析,其结果如图所示,下列分析错误的是(    )

    A、不同年龄段的人群“买年货”的支出都比较多 B、在“娱乐活动”的支出中,23~30岁人群的花费最多 C、60岁以上人群支出最多的是“压岁钱”,支出最少的是“交通费” D、在“走亲访友的礼物”支出中,51岁以上人群的花费比较多
  • 15、下列关于数据可视化的描述中,错误的是(    )
    A、可视化将数据以图形图像等形式表示 B、可视化降低了数据的解释力与吸引力 C、可视化可以直观地呈现数据中蕴含的信息 D、可视化可以帮助人们快速理解数据、发现数据知识
  • 16、某DataFrame对象df,包含“商品编码”“销售价格”“销售日期”等数据列。下列语句中,能将df对象中的数据以“商品编码"为关键字降序排序的是(    )
    A、df.sort_ index( axis=1, ascending=True) B、df.sort _values('商品编码', ascending =False) C、df.sort _values('商品编码', ascending=True, inplace=True) D、df.sort_ values('商品编码', ascending=False, inplace=True)
  • 17、有Python程序段如下:

    import pandas as pd#第1行

    s=pd. Series([ 166,178,1 80],index-["S1","S2","S3"])    #第2行

    s[1]=168#第3行

    print(s)#第4行

    该程序段运行后输出结果为(     )

    A、[168 178 180] B、[166 168 180] C、 D、
  • 18、2018年我国流通领域重要生产资料市场价格数据的示例如图所示。编写Python程序,统计每个产品的最高价格和平均价格。

    请回答下列问题:

    (1)、数据文件“data.asv"包含的数据列有 , 本次分析主要涉及的数据列有
    (2)、实现上述功能的Python程序如下,在划线处填入合适的代码。

    import pandas as pd

    df= pd. read _csv("data.csv")

    df_ g=

    df_ max=df_ _g["价格(元)"].max( )

    df_ mean=

    print(df_ max)

    print(df_ mean)

  • 19、有Python程序段如下:

    import pandas as pd

    df1=pd. DataFrame([[10, 20], [30, 40]], columns=['A','B'])

    df2=pd. DataFrame([50, 60], [70, 80]], columns=['A',B'])

    df=df1. append(df2,ignore_ index= True)

    print(df)

    该程序段运行后输出结果为(    )

    A、 B、 C、 D、
  • 20、某DataFrame对象df,包含“准考证号”“学校”“姓名”“数学”“语文”等数据列,下列语句中,可以以学校为单位,统计出各校学生“数学”成绩平均值的有(     )

    ①df. groupby('学校').mean( )

    ②df. groupby('数学').mean( )

    ③df. groupby('学校').数学.mean( )

    ④df. groupby('学校').describe( )

    A、①②③ B、①②④ C、①③④ D、②③④
上一页 1025 1026 1027 1028 1029 下一页 跳转