您好, 访客   登录/注册

浅谈数据挖掘技术在网络广告中的应用

来源:用户上传      作者: 范丽萍

  摘 要 介绍web主动数据挖掘技术对于网络广告的重要性,对网络使用数据挖掘模式的情况进行分析,针对挖掘模式工作多且事务识别不够准确,提出新的解决方法从网络广告的逻辑结构、模式挖掘所需的数据结构等方面研究主动数据收集技术。
  关键词 数据挖掘 网络广告 数据收集
  中图分类号:TP393 文献标识码:A
  1网络广告和Web挖掘
  网络广告是随着国际互联网的发展而逐步兴起的,它具有传统媒介广告所有优点,又具有传统媒介所无法比拟的优势。网络广告主要有传播对象面广、表现手段丰富多彩、内容种类繁多,信息面广、精确性强等特点。
  网络广告所具有的四个本质特征,网络广告需要依附于有价值的信息和服务载体;网络广告的核心思想在于引起用户关注和点击;网络广告具有强制性和用户主导性的双重属性;网络广告应体现出用户、广告客户和网络媒体三者之间的互动关系。
  数据挖掘(DataMining)是伴随着数据仓库技术的发展而逐步完善起来的。数据挖掘主要是为了帮助商业用户处理大量存在的数据,发现其后隐含的规律性,同时将其模型化,来完成辅助决策的作用。它要求从大量的、不完全的、有噪声的、模糊的和随机的数据中,提取人们事先不知道的但又是潜在有用的信息和知识。
  数据挖掘技术在网路广告上的应用,正是为了更加有效的掌握信息,服务于顾客,数据挖掘技术的路径分析、关联规则发现、序列模式发现、分类规则的发现、聚类分析等方法,可以应用于发现潜在顾客、改进站点链接结构设计、对顾客进行聚类分级从而分析组中顾客的共同特征,并为相应的顾客提供优质个性化服务,使顾客在浏览信息时有针对性,节省时间成本、精神成本、体力成本等,最终使总顾客成本得以降低。
  Web数据有三种类型:HTML标记的Web文档数据,Web文档内连接的结构数据和用户访问数据。按照对应的数据类型,Web挖掘可以分为三类:(1)Web内容挖掘:就是从Web文档或其描述中筛选知识的过程。(2)Web结构挖掘:就是从Web的组织结构和链接关系中推导知识。它的目的是通过聚类和分析网页的链接,发现网页的结构和有用的模式,找出权威网页。(3)Web使用记录挖掘:就是指通过挖掘存储在Web上的访问日志,来发现用户访问Web页面的模式及潜在客户等信息的过程。
  Web使用挖掘,它通过挖掘Web日志记录来发现用户访问Web页面的模式,通过分析和探究Web日志记录中的规律,可以识别电子商务的潜在客户,增强对最终用户的因特网信息服务的质量和交付,并改进Web服务器系统的性能和结构。
  2网路广告中使用数据挖掘技术存在的问题
  2.1目前Web使用挖掘的状况
  网络信息挖掘技术主要分为三个阶段:数据准备、挖掘操作、结果表达。就数据准备而言,网络广告主所需的数据主要来自两个方面:一方面是用户的背景信息,这部分信息主要来自于用户的登记表;而另外一部分数据主要来自用户的点击流,这部分数据主要用于考察用户的行为表现。人们在访问某网站的同时,便提供了个人对网站内容的反馈信息:点击了哪一个链接,在哪里浏览时间最多,用了哪个搜索项、总体浏览时间、个人姓名和住址等。所有这些信息都被保存在一个数据库中,生成大量的记录文件和登记表,利用这些数据进行分析、挖掘,充分了解用户的喜好、购买模式,不仅可以使网站设计出满足不同用户群体需要的个性化网页,增加竞争力,而且可以为广告主提出行之有效的广告方案,实现商家渴望的个性化市场营销。
  目前几乎所有的Web使用挖掘,都是从服务器端的日志记录和用户的个人信息中自动发现隐藏在数据中的模式信息,了解系统的访问模式以及用户的行为模式,从而做出预测性分析。
  这种数据挖掘模式,挖掘之前工作量巨大繁重。首先,数据清洗(data cleaning)解决“脏数据(dirty data)”问题,消解数据中的不一致性,并将多个数据源中的数据统一成一个数据存储。然后,事务识别中,用户Session的识别问题是一个难点。如多个用户访问同一页面,在Proxy服务器日志中可能只列出一次;同时Internet服务提供商如采用动态分配IP将使得用户识别变得困难。最后,还要将数据集成到数据库中。
  2.2解决方法及其优点
  我们将上述基于日志的Web挖掘中的数据收集方法称为被动数据收集。不难看出为了得到模式挖掘的输入数据,经过了很多的步骤,而且更重要的是结果有些并不一定准确。
  现在我们提出主动的数据收集方法,也就是通过JsP页面中的JavaBean调用用于数据收集的java包中的类,并传入Web服务器已经构造好的Request和Response对象,然后将用户Session信息保存到数据库,并在浏览器端添加用户信息的Cookie。
  这样做的优点有:(1)不用进行数据清洗。最后保存到数据库中的信息,不会包括对一些非主页面请求的信息,如,不会包括对图片的请求;因为不存在多个数据源,所以也不存在数据的不一致性。(2)不用进行费时而且不准确的事务识别。因为Web服务器将为我们做这些工作,而且是在用户访问时做,它所识别的Session几乎是完全正确。(3)不用进行数据集成。因为用户浏览完页面之后,数据就已经持久化到数据库中了。(4)可以识别多个Session来自同一台主机。因为我们放置了Cookie在浏览器端。(5)留有和主商务逻辑的接口。也就是可以将事务识别的Session和主商务逻辑中的客户联系起来,即使用户在不同的机器登陆。(6)一个浏览器端有多个客户登陆,也可进行一定的Session和客户之间的对应。
  本文通过讨论数据挖掘工具及其实现模式,结合当前web使用挖掘的问题,提出了解决方法,以期使网络广告充分利用数据挖掘技术,真正提高网络广告的投放效果。
  参考文献
  [1] 周曦.数据挖掘技术在网络营销中的作用[J].电脑知识与技术,2011(11).
转载注明来源:https://www.xzbu.com/8/view-5088361.htm