您好、欢迎来到现金彩票网!
当前位置:双彩网 > 信息检索 >

时态信息检索研究综述

发布时间:2019-06-19 21:00 来源:未知 编辑:admin

  研究发现时态信息检索研究存在着如下问题和挑战:国外对时态检索研究比较多,而国内的相关研究甚少;利用表征时间信息的实体与事件演化信息识别文档关注时间的相关研究不足;缺乏对非周期变化查询的意图预测;时态信息检索模型实验的可重复性有待提高。

  ②通过挖掘Wikipedia层级结构识别查询随时间所包含的潜在主题,如Whiting等[62]指出包含时间驱动主题的查询包含高度可变的子主题,提出从由Wikipedia层级结构构建的结构化数据中识别查询中所包含的可能子主题;Zhou等[63]通过统计用户浏览Wikipedia消歧网页次数随时间变化情况分析查询子主题的时间动态性,再利用计算机仿真探讨查询子主题动态对多样化评价的影响。

  总体来说,相对时态意图识别研究来说,目前查询动态子主题识别研究比较少。其中,在基于日志方法中,时态意图变化趋势预测研究只能预测周期性变化查询的意图,还缺乏对非周期性变化查询意图的预测研究;在基于文档集方法中,如何能获得有效的能表征查询时态属性的文档集是该研究中关键问题之一。

  文档排序是检索系统最核心的部分,在很大程度上决定了检索系统的质量好坏与用户满意度。与一般检索系统排序不同的是,时态信息检索需将文档与查询中的时态信息融合到检索排序模型中。综合已有研究,时态检索排序方法主要分为近因敏感排序与时间依赖性排序两类[16]。

  近因敏感排序(Recency-based Ranking)的目的是为查询返回最新文档集,即在主题同等相关的条件下,越新的文档排序越靠前。其研究方法主要有三类:

  (1)融合文档新颖性的排序模型。现有的代表性工作是将时间信息作为文档先验概率融入统计语言检索模型。作为近因排序算法的最早研究者,Li等[64]在扩展一般语言模型[65]基础之上提出了时间语言模型,即在考虑文档先验概率P(d)时,不同创建时间文档的权值P(d|Td)不同,越是最新文档其权值越高;Efron等[66]扩展了Li等[64]的研究工作,认为指数分布参数在不同查询背景下取值不一样,故提出了基于查询的语言模型,且该模型在TERC和微博数据上取得了更优的结果;Jatowt等[65]假设被频繁更新的文档更有可能包含新颖内容,故在主题相关性一致的情况下,被频繁更新或更新幅度较大的文档更有可能排名靠前;Elsas等[67]为探讨文档动态性与相关性排序之间的关系,先根据词的时间属性对其加权,再利用语言模型进行文档排序,其实验结果表明该方法有助于导航类检索性能的提升;Aji等[68]提出一种新的词加权模型即校正历史分析(Revision History Analysis,RHA)模型,在该模型中查询词权值与该词出现在文档不同版本中次数相关,且设定该词出现在较老版本中权值高于出现在较新版本中的权值,然后将RHA模型应用到BM25与生成统计语言模型中对文档进行排序;Nguyen等[55]在已有查询多样化排序的基础上提升最新文档的权重,以此实现近因敏感的多样化排序;Daiz[69]通过融合一些新闻网页内容实现近因敏感检索问题。

  (2)基于网络中文档链接结构的排序模型。Berberich等[70]基于链接分析,提出T-Light与T-Rank两种排序方法,这两种方法均利用网页的新颖度(即最近更新文档的时间标识)与更新频率来检索最新文档;Cho等[71]为解决PageRank算法中无法提高新创建网页权值的问题,通过分析网络链接结构与分析其结构演化情况提出一种新的排序方法;Li等[72]尝试根据文档最新时间,为PageRank设置非固定的阻尼因子;Zhang等[73]提出若文档的标题、URL以及锚文本中出现了最新时态特征,则这些文档应该赋予更高的权值;Dai等[74]根据网页随时间的变化性以及被链接网页的新颖性来衡量网页的权威性,并将这些信息融合到时间排序概率模型中;

  (3)基于机器学习的排序模型。首先通过人工标注查询及其与之相关的文档集(即query-url对),根据查询与文档之间的相关性级别为每个query-url标注相关的相关性分数,这些相关性分数将作为排序学习模型最终的分类类别,最后选取分类特征表示每个query-url对,训练分类模型预测结果相关性分数:Dong等[50]首先识别出近因敏感查询,通过选取近因相关特征(如时间标识相关特征、链接相关特征、WebBuzz相关特征与网分类相关特征)训练分类模型对近因查询的结果进行排序,而对非近因查询采取另外的排序方法;与以上方法不同的是,Dai等[75]首先通过伪相关反馈思想为每个查询构建时间伪文档,再根据每个查询时间伪文档信息为文档赋予不同权值,该方法降低了因意图识别的不准确性给最终实验结果造成的影响。

  时间依赖性排序(Time-dependent Ranking)的目的是为查询返回不同时间段的文档,其核心技术是如何将时间段信息融合到排序模型。研究内容主要包括:融合时态表达式的排序模型、时态多样化检索与特定类型信息中时间信息排序。

  (1)排序模型中融合时态表达式的相关研究有:Arikan等[76]从1997年至2000年的Wikipedia数据集文档中抽取与查询词相关的时态表达式并将其融合到语言模型中,该方法的核心是计算如何从文档查询表达式中生成查询中时态表达式;Berberich等[77]分别利用纽约时报(New York Time)的标注语料(1987~2007年)以及Wikipedia(2009)数据集中的时态表达式,再将其融合到查询似然语言模型中,即查询中的文本和时间部分分别由文档中的文本和时间部分独立地生成;Brucato等[78]在不借助任何概率模型的情况下,通过计算查询与文档之间关键词相似性来融合查询与文档之间的时间相似性实现时间信息检索;Jin等[79]通过线性插值三因素(文本相似度、时间相似度和网页重要性)对查询结果进行排序,其中文本相似度主要考虑查询出现在文档集中的频率以及位置,时间相似度表示查询中时间与文档集中时间的交集,网页重要性通过PageRank算法计算;Metzler等[1]从查询日志中识别出查询可能包含的年份限制,通过计算查询与文档中时间相似性实现排序;Kanhabua等[80]借助纽约时报标注语料(1987~2007年)提出基于学习排序(Learning-toRank)技术的时间敏感排序模型,为训练该模型提出了基于时间与实体的两类特征,最终实验结果表明SVM MAP Learning-to-Rank模型优于Berberich等提出的方法[77];Chang等[81]利用从查询日志中获取的用户时间点击信息,根据用户在不同时间段的意图实现对查询结果进行重排序;Costa等[82]提出时间相关的排序模型,即首先识别出为期14年的网页数据集可能涉及的时间区间,且为每个时间区间构建一系列查询-文档特征向量,再为每个时间区间训练相关排序模型;Alonso等[83]提出根据查询出现在显式、隐式与相对时间表达式中的频率对某个类簇文档进行排序;Str

  tgen等[84]提出利用BM25模型融合查询中情景、时间与地理因素在某文档中的距离为文档进行排序;Mishra等[85]通过计算地理与时间表达式在查询最初返回结果中的次数对查询结果进行重排序。

http://indiacrazy.com/xinxijiansuo/281.html
锟斤拷锟斤拷锟斤拷QQ微锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷锟斤拷微锟斤拷
关于我们|联系我们|版权声明|网站地图|
Copyright © 2002-2019 现金彩票 版权所有