2系统的实现
访问量的多少是衡量网站是否成功的重要标准,但对于图书馆网站是远远不够的,图书馆需要获取完整的读者访问流量统计数据,来对图书馆信息资源的使用情况进行分析,网络信息计量学方法是目前网络界普遍采用的网站绩效评估计量法,被认为是可以用科学的方法检验网站访问数据的一种工具。它的目的包括了解网络读者的行为、确定网站是否吸引适当的读者来访、评定网站建设策略是否得当。其实施步骤可分为三个阶段:
(1)记录网站的访问数据;
(2)分析记录数据;
(3)为网站建设策略的改进提供依据。
2.1系统原理
由于网络发布站点和数据库本身具备了访问计量功能,各自的信息资源收藏状况便于人们掌握,并且能自动记录读者访问的登录情况,如登录名、登录时间、浏览文件、读者的来源地址等,这些数据资料能够准确反映读者访问信息和来源分布等情况,所以依据图书馆网络读者访问统计的工作内容,制定相应的分析指标,并收集网络读者访问图书馆信息资源发布站点形成的日志文件,然后利用日志统计工作软件定时对日志文件进行处理,得到统计数据,并动态生成各种表达形式的能满足图书馆各项统计分析工作的报表。最后把生成的分析报表导入到发布数据库中发布出去。
图书馆各个网络资源站点建设人员可通过浏览网络读者访问流量统计分析报告,分析和了解读者的访问需求,从而做好网络信息资源的建设工作。
读者行为分析研究则可通过对分析报告进行质化研究,并结合一般调查法、咨询研究法对读者的信息寻求行为进行研究。
本系统还可利用统计分析的结果来对系统自身工作进行评估和调整。
2.2分析指标
传统图书馆的分析指标和计量方法,虽然和数字化图书馆有很多不同,但使用的目的及计量的准则并没有太大实质性差异[4]。
参考传统图书馆的分析指标以及国内外类似的研究结果选定了下列10个分析指标:
(1)读者到访人数和潜在读者人数的百分比;
(2)到访读者表现了阅读的兴趣的百分比(采取明显的`阅读行动);
(3)可能的读者转为经常的读者的百分比(经常阅读、下载资料);
(4)读者的持续度(重复到访读者);
(5)读者的忠诚度(网页浏览次数、再度到访的次数及时间长度);
(6)读者停止阅读行为的百分比(阅读行为半途中止);
(7)读者耗损率(现有读者中停止阅读行为者的百分比);
(8)读者动摇率(耗损的读者/到访读者的总数);
(9)读者最近到访时间(据上次到访的间隔时间);
(10)读者到访频率(多久到访一次)。
就此参数,我们可以从一个客观的角度来观察和评估图书馆网络读者访问情况。
2.3系统框图
网络读者流量统计分析系统功能框图
2.4工作方法
本系统工作方法主要是采集网络读者访问过程日志进行量化分析法,它的优缺点见表1。
读者访问过程日志分析法优缺点
量化分析法重视量的分析,本系统通过对访问过程日志以量的方法加以统计分析,首先根据为了研究读者需求分布和需求增长情况这一目的将研究内容归类成若干分析单元,接着将分析单元以数量的方式加以表达,进而以此为解释读者信息寻求行为的依据。
2.5技术实现
(1)系统结构
本系统是以浏览器/服务器/数据库体系结构作为基本架构,通过ASP方式实现交互式、动态的读者访问日志统计分析系统。系统结构框架如图2所示:
读者访问日志统计分析系统结构框图
(2)系统组成模块
本系统有六个模块组成:访问日志入库、访问流量分析、被访页面分析、来访读者分析和统计分析图表。
(3)系统运行环境与开发平台
本系统运行环境和开发平台如表2。
读者访问日志统计分析系统模块
(4)程序流程与代码实现
该系统由main.asp(主界面程序)、flux.asp(小时、日、星期流量分析)、target.asp(被访页面分析)、visitor.asp(来访读者分析)、chart.asp(统计分析图表)五个组成。
我们以“被访页面分析”模块的程序流程和代码说明系统组成模块的实现过程,该模块程序流程图如图4。
“被访页面分析”程序流程图
相应代码:
<table
<tdclass=定义的表格形式及表头>
Setconn=server.creatobjectl("adodb.connection")
conn.open"dsn=dsn_dbs;uid=xxx;pwd=xxx"
Setre=server.creatobject("adodb.recorderset")
re.activeconnection=conn
dbname=Application("logtime")——数据表名称
re.open“QL语句”
dowhilenotre.eof
执行Recordset操作,服务器进行统计计算
response.write——写入统计表
re.movenext
loop
re.close
程序中一些代码说明:
①Recordset的Open方法:允许用户向数据库发出请求,通常是运行sql命令。如:Sqlquery="selectlogtimefromintemetlogwhereday(logtime)=day(getdate())andmonth(logtime)=month(getdate())andyear(logtime)=year(getdate())"Dbrs.opensqlquery,dbconnection,3,3
②Recordset的RecordCount属性:可以取得当前在Recordset对象中的记录条数。如:setdbrs=server.createobject("ADODB.recordset")amount=dbrs.recordcount
③Recordset的MoveNext方法:移动指针到Recordset对象的下一条数据。如:Dbrs.movenext
④Response的Write方法:负责将字符串信息输出的用户端。如:Response.write“页面总访问量:“&amount&”<br>
⑤Recordset的Close方法:可以用来关闭指定的Recordset对象。如:Dbrs.close
2.6系统运行过程
下面以西安交通大学图书馆网站为统计分析对象说明该系统运行过程。
首先我们用FTP工具抓取网址为的服务器,时间段为2003/01/01到2003/12/31的访问日志导入到数据库中,该服务器完成图书馆网站的部分功能:门户信息、OPAC、馆际互借、电子期刊、网络数据库、网络资源、参考服务等。
对日志分析系统进行运行参数设置:读者访问时间间隔设为20分钟;从最新QQ显IP版软件中导出读者IP地址分配资料,转换格式后导入到日志分析系统的地址表中,以便对读者分群;设置过滤规格文件滤掉一些无用的访问信息,如背景图片、图书馆Logo,页面美化图片和服务器漏洞扫描日志等日志信息,然后对服务器访问日志进行初步统计分析,保存统计分析结果准备进行进一步统计分析。
最后利用精致多样的统计分析方法对初步统计结果进行统计分析,统计分析出的数据有:一年内资源点击与访问计数;一年内网站中最常使用的资源与服务;一年内点击次数最多的读者;一年内务分群读者的点击次数比例;一年内点击次数与阅读次数的变化;一年内上网的读者与累积成长趋势;一周各天的平均点击次数;一天内各时段的平均点击次数;校内各区读者点击次数比例;各项相关资源被使用的情形等等。这些数据可用Eexel软件生成直观的统计分析图表,部分图表详见实际应用一节中。本系统的研究主要采用访问过程日志分析法,以内容分析法、问卷调查法辅助研究。主要考虑:一是这种方法在电子商务和其它网络应用的量化分析,已经有许多研究成果,可使我们的研究更为便利;二是可以经济的,较具体客观的分析到网络读者信息需求特性;三是通过定量的计算,定质的分析,形成一种综合分析的方式,以求分析结果更为客观和科学。