智能语义Web搜索引擎 - 好文

摘要

万维网(WWW)允许人们从大型数据库存储库中共享全球范围内的信息(数据)。信息量增长了数十亿个数据库。我们需要将信息专门化。而这些工具就是通用搜索引擎。今天有许多搜索引擎，检索出有意义的信息是很困难的。然而，为了克服这个问题，在搜索引擎中检索有意义的信息。智能化，语义化web技术正在发挥重要作用。本文对搜索引擎进行了研究。并说明一代又一代的搜索引擎在智能网络和语义搜索技术中的作用。

关键词:信息检索，智能检索，搜索引擎，语义网络。

1.引言

语义Web是当前Web的一个扩展，它允许信息的含义要根据人们所理解的明确词汇来精确描述电脑。在语义Web信息上使用一种新的W3C标准来描述资源描述框架（RDF）。语义Web搜索是一个搜索引擎语义网。目前的网站可以被人们和计算机用来精确定位并收集在语义网上发布的信息。本体是其中之一在语义Web基础结构中使用的重要概念，以及RDF（S）（资源描述）框架/架构）和OWL（Web本体语言）是两个W3C推荐的数据用于表示本体的表示模型。语义Web将支持更高效的数据发现，自动化，集成和重用，并提供支持互操作性问题，目前的网络技术无法解决。目前作为传统搜索的语义网络搜索引擎的研究正处于起步阶段像谷歌，雅虎和Bing（MSN）等引擎仍然主导着目前的市场的搜索引擎大多数搜索引擎搜索关键字来回答用户的查询。搜索引擎通常在网页上搜索所需的信息。但是他们过滤页面从使用高级算法搜索不必要的页面。这些搜索引擎可以通过开发先进的算法来高效有效地回答主题明智的查询。但是，由于依赖性，它们在回答用户的智能查询时容易受到攻击他们的结果在网页上可用的信息。这些搜索引擎的主要重点是在很短的时间内使用大量研究解决这些查询，并以接近准确的结果算法。要么用这种方法或表演显示不准确的结果准确但（可能）不可靠的结果。使用他们通常提供的基于关键字的搜索国际期刊Web和语义技术（IJWesT）。

用户不能满意这些结果是由于缺乏对博客的信任等。为了克服搜索引擎中的这个问题以语义网络技术处理的方式智能地检索相关且有意义的信息一个伟大的角色。
智能语义技术通过搜索给出更接近期望的结果引擎给用户。

在本文中，我们将对已有的智能文献进行初步调查语义搜索引擎和语义网络搜索。通过将文献分为几个主要部分我们分别回顾它们的特征。
此外，审查中的问题智能语义搜索方法和引擎在分析和总结基础观点。

2.背景

通过在网络上搜索信息进行信息检索并不是一个全新的想法，而是有所不同与一般信息检索相比较时面临挑战。不同的搜索引擎返回由于索引和搜索过程的变化导致不同的搜索结果。谷歌，雅虎和Bing已经在那里处理关键字后处理查询。他们只搜索网页上提供的信息，最近，一些研究组开始交付结果从他们的基于语义的搜索引擎，然而他们大多数都处于初始阶段。直到没有搜索引擎来关闭索引整个网络内容，更不用说了整个互联网。当前的网络是缺乏语义结构的最大全球数据库因此机器难以理解用户提供的信息。当信息在网上发布时，我们在搜索中存在两种研究问题发动机即搜索引擎如何将查询映射到信息可用的文档，但是不能以智能的方式检索完整的信息？搜索引擎生成的查询结果分布在不同的文档中可能与超链接有关。
搜索引擎如何有效地识别这样的一个分布式结果？

语义化web，可以解决Web中用语义注释产生的第一个问题通过使用查询接口机制和本体的信息，提供智能且有意义的信息。
其他一个可以通过基于图形的查询模型来解决。语义web需要解决在知识表示，自然语言等方面非常困难的问题。下图描述了它也被称为语义Web框架的工作

W3C提供的语义网页层次结构。

图1 语义Web框架

2.1当前Web和限制

目前万维网是缺乏语义存在的最长的全球数据库结构，因此机器难以理解所提供的信息由用户以搜索字符串的形式提供。至于结果，搜索引擎返回含糊不清

或部分不明确的结果数据集; 语义网正在被开发来克服这个问题

以下是目前网络的问题。

(1)网络内容缺乏关于信息表示的适当结构。

(2)由于信息互联不良导致信息含糊不清。

(3)缺乏自动信息传输。

(4)可处理大量用户和内容，确保各级信任。

Hakia是一个通用语义搜索引擎，用于搜索维基百科等结构化文本。Hakia称自己是“基于意义的（语义）搜索引擎”。
他们正在努力提供基于意义匹配的搜索结果，而不是搜索词的普及。该展示的新闻，博客，可信和画廊都是由hakia专有的核心语义处理的技术称为QDEXing。
它可以通过其语义等级来处理任何种类的数字人造物技术使用第三方API提要。由于缺乏机器人而无法理解所提供的信息通用格式。

3.智能语义网

3.1智能搜索引擎

目前，一些智能搜索引擎的设计和实施有所不同工作环境以及实现这些搜索引擎的机制是截然不同的。Fu-Ming Hung和Jenn-Hwa
Yang提出了一个带语义的智能搜索引擎技术。本研究将描述逻辑推理系统与数字图书馆结合起来本体完成智能搜索引擎。根据搜索引擎机制，提出可以解决的需求和评估现有相关技术的一个公式提升搜索引擎的效率，制定智慧搜索引擎的需求。如果使用描述逻辑推理系统来整合数字图书馆本体进行国际期刊Web和语义技术（IJWesT）2011年1月，随着用户需求的推断，并结合内容搜索机制和知识推理完成智能搜索引擎的研究。Inamdar和Shinde
[11]讨论了基于智能体的网络挖掘智能搜索引擎系统。

大多数网络搜索引擎仅在网页上使用文本。代理人习惯于代表计算机系统的用户执行一些行动或活动。每个用户都有协助他/她自己的私人代理来搜索网络。每个个人代理的主要目标是提出建议对其用户和其他代理人链接到被认为与其搜索相关的网页的链接。个人代理可以使用不同的内部和外部信息来源。个人代理是运行在服务器上的软件代理。Patrick
Lambrix和Nahid Shahmehri和Niclas
Wahllof提出了一个搜索引擎描述为解决提高检索精度和召回率的问题文档。他们在这里应用的主要技术是使用包含信息和使用默认信息。包含信息的使用允许检索包含有关所需主题的信息的文档以及有关更多信息具体主题。默认信息的使用允许检索包括的文档关于主题的典型内容信息。严格的和默认的信息用一个表示可以处理默认值的描述逻辑的扩展。已经对系统进行了测试小规模的数据库，结果令人满意。Satya
Sai
Prakash等人介绍了新一代搜索的架构和设计规范引擎强调了搜索引擎对智能的需求并给出了知识框架捕捉直觉。仿真方法学来研究搜索引擎的行为和性能被描述。模拟研究使用模糊满意函数和启发式搜索准则，建模客户端行为和网络动态。Dan
Meng，徐黄讨论了一个基于用户的交互式智能搜索引擎模型信息偏好。这种模式可以成为实现这一目标的有效和有效的方式个性化信息搜索不同的用户信息偏好。这个模型框架工作中，使用了一些人工智能方法和技术来提高质量和信息检索的有效性。夏炯沉燕徐俊阳于克璋向前迈进了一个智能搜索引擎信息检索模型是在FCA（形式概念分析）的正式语境中找到的结合基于概念格的这种系统的浏览机制。测试数据验证了它的可行性，并且FCA搜索引擎的实现表明了概念格的FCA是支持根据文件灵活管理的有用方式概念关系。

4.类型的语义搜索引擎

语义是沟通足够的意义以产生行动的过程。一系列的符号可以用来传达意义，然后这种沟通可以影响行为。语义学一直在推动下一代网络成为语义网，在那里成为焦点是关于利用Web资源的自动化方法的语义角色。“语义”也表明网络上数据的含义不仅可以被人发现，还可以被发现通过电脑。然后创建语义网来扩展网络并使数据易于重用到处。

正在开发语义网以克服当前Web的以下主要限制：

（1）网络内容缺乏关于信息表示的适当结构。

（2）由于信息互联不良导致的信息模糊不清。

（3）缺乏自动信息传输。

（4）无法处理大量的用户和确保各级信任的内容。

（5）机器无法理解由于缺少a提供的信息通用格式。

4.1语义搜索引擎

目前很多语义搜索引擎都是在不同的工作环境中开发和实施的环境，这些机制可以投入使用，以实现目前的搜索引擎。Alcides Calsavara和Glauco
Schmidt提出并定义了一种新颖的服务语义搜索引擎。语义搜索引擎存储关于Web的语义信息资源，并能够解决复杂的查询，并考虑Web的上下文资源是有针对性的，以及如何使用语义搜索引擎来允许客户获得关于商业产品和服务的信息，以及关于卖家和客户的信息服务提供者可以分层组织[18]。语义搜索引擎可能因为它是基于电子商务应用程序开发的，所以它对电子商务应用程序的开发有着重要的贡献强大的理论和广泛接受的标准。Sara
Cohen Jonathan
Mamou等人提出了XML的语义搜索引擎（XSEarch）。它有一个简单的查询语言，适合一个天真的用户。它返回语义相关文件片段满足用户的查询。查询答案使用扩展进行排名信息检索技术，并按类似于排名的顺序生成。高级索引技术的开发是为了促进XSEarch的有效实施。该测量不同技术的表现以及召回和精确度实验。这些实验表明XSEarch是高效的，可扩展的并且可以提高质量结果很好。Bhagwat和Polyzotis提出了一个基于语义的文件系统搜索引擎Eureka，它使用建立文件之间链接的推理模型和文件等级度量标准来对文件进行排序根据它们的语义重要性。

尤里卡有两个主要部分：a）提取的履带来自文件系统的文件，并生成两种索引：记录关键字的索引来自搜寻文件的关键字以及记录文件的文件等级度量的等级索引;
b）当输入搜索字词时，查询引擎会将搜索字词与关键字'索引，并通过基于信息检索的度量和文件等级度量来确定匹配的文件集及其排序顺序。

Wang等人预测语义搜索方法从正常表中检索信息，

它有三个主要步骤：识别表格单元之间的语义关系;转换表格以数据库的形式转换为数据;通过查询语言检索客观数据。该作者定义的研究目标是如何使用给定的表和给定的域通过语义将表转换成数据库表的知识。作者的方法是通过布局语法语法来表示布局并与之匹配

用给定的模板来表示可以用来分析表格单元的语义的变量。然后语义保存转换用于将表转换为数据库格式。Kandogan等人开发一个结合了传统文本的语义搜索引擎 -
阿凡达搜索引擎使用本体注释。阿凡达有两个主要功能：a）提取

和表示 - 通过UIMA框架，这是一个工作流组成的链从文档中提取并存储在注释库中的注释器; b）解释 -
a自动将关键字搜索转换为多个精确搜索的过程。阿凡达由两个主要部分组成：语义优化器和用户交互引擎。当查询是进入前者，它将输出查询的排名解释列表;那么顶级的排名解释被传递给后者，这将显示解释和解释从解释中检索文档。

4.2本体搜索引擎

Maedche等人设计了一种用于本体搜索，重用和更新的集成方法。在

其架构，本体论注册表被设计用于存储关于本体和元数据的元数据本体服务器存储本体。分布式本体服务器中的本体可以是创造，复制和发展。本体论注册中的本体论元数据可以被查询和当创建新的本体时注册。本体注册表中的本体搜索被执行在两个条件下
- 查询例子是限制搜索字段和搜索项，而查询???字段是限制搜索条件的下标。乔治加达林等人。讨论了一个SEWISE
[24]是一个基于本体的Web信息系统支持Web信息描述和检索。根据领域本体论，SEWISE可以将来自各种Web源的文本信息映射到一个统一的XML结构中并进行制作在程序中可以访问的文本中隐藏了语义。感兴趣的文本信息是自动的由Web
Wrappers从各种Web源中提取，然后使用文本挖掘技术，如分类和汇总用于处理检索到的文本信息。

5.一些常见问题

我们已经讨论了对智能语义中现有和动态领域的初步调查搜索引擎和方法。虽然我们还没有声称这个调查是全面的，有些目前语义搜索引擎和方法中常见的问题总结如下：

* 精度低，召回率高

一些智能语义搜索引擎无法显示其重要的性能提高精度并降低召回率。在Ding的语义Flash搜索引擎中，资源的搜索引擎是基于谷歌返回的前50名结果，这不是一种语义搜索引擎，这可能是低精度和高召回。

b）用户的身份意图

用户意图识别在智能语义搜索引擎中起着重要作用。例如，在李洪恩介绍了一种分析请求条件的方法适合用户的使用意愿，以便提供的服务更适合用户。

c）个人用户模式可以外推给全球用户。

在早期的搜索引擎中，为搜索字词提供消歧。用户可以输入一个搜索词是不明确的（例如Java），搜索引擎会返回一个列表替代品（咖啡，编程语言，南海岛屿）。

d）不准确的查询。

我们有用户通常特定领域的知识。用户不包括所有潜力查询中的同义词和变体，实际上用户有问题，但不知道如何去做短语。

6.结论

在本文中，我们对现有的关于智能语义的文献进行了简要的调查搜索技术。我们分别回顾他们的特点。
另外，内部的问题回顾了智能语义搜索方法和引擎的基础上，设计师和用户观念之间的视角差异，静态知识结构，精度低，召回率高，缺乏实验测试。未来，我们的工作将集中在智能领域更深入更广泛的研究语义搜索，目的在于总结现场情况并提升智能语义搜索引擎技术的进一步发展。

热门工具换一换