4.2. Машины поиска Интернет - Дисциплина «Инженерия знаний» Реферат Агенты и мультиагентные системы. Системы поиска в Интернет

^ 4.2. Машины поиска Интернет.


4.2.1. WebCrawler

WebCrawler начинает процесс поиска новых сайтов с известных ему документов и переходит поссылкам на другие страницы. Он рассматривает сетевое пространство как ориентированный граф и использует алгоритм обхода графа, работая в следующем цикле:

Поисковый механизм работает в двух режимах: поиск документов в реальном времени и индексирование документов.

Этим сервисом определяется, какие документы и какие ьтипы документов нужно найти и извлечь из сети. Звуковые файлы, картинки, двоичные файлы и т.п. – не извлекаются. Ошибочно извлеченные файлы будут проигнорированы н а стадии индексирования. В режиме индексирования система строит индекс информации из найденных документов, в режиме поиска – находит документы, максимально соответствующие запросу пользователя.

Агенты в системе WebCrawler отвечают за извлечение документов из сети. Для выполнения этой работы поисковый механизм находит свободного агента и передает ему задание на поиск. Агент приступает к работе и возвращает либо содержание документа, либо обьяснение, почему данный документ нельзя доставить. Агенты запускаются как отдельные процессы, что позволяет изолироавть основной процесс работы системы от ошибок и проблем с памятью. Одновременно используется до 15 агентов.

^ 4.2.2. Неспециализированные и специализированные поисковые агенты.

Неспециализированные агенты, в первую очередь, обеспечивают поиск по ключевым словам и устойчивым словосочетаниям.

Специализированные агенты поиска, как следует уже из их названия, приспособлены искать информацию, например, только про музыку, или только про книги, или только про котировки акций и т.д. Большинство таких агентов устроено жестко. Они умеют очень хорошо работать на определенных сайтах с определенным форматом данных. При этом даже адреса этих сайтов могут быть зашиты в агентов.

^ 4.2.3. Системы интеллектуальных поисковых агентов

Сегодня в развитии систем поиска и обработки Интернет-ресурсов наметился явный сдвиг в сторону использования средств ИИ, в частности представления знаний и вывода на знаниях, интеллектуальных механизмов обучения, анализа естесственно-языковых текстов и некоторых других. В качестве примера таких систем агентов можно привести системмы Autonomy и WebCompass.

^ 4.2.4. Проект системы MARRI.

Система MARRI разработана для поиска Web-страниц, релевантных запросам в определенной предметной области. Для решения поставленных задач система использует знания, представленные в виде онтологии, которая в данном случае понимается как множество концептов и связей между ними. Базисное предположение разработчиков состоит в том, что релевантные тексты состоят из значимых для предметной области предложений, содержащих фрагменты, «сопоставимые» с онтологие предметной области. Предполоагается, что одни агенты – агенты сети – для предварительного отбора используют стандартные машины поиска, а другие – специализированные агенты – осуществляют поверхностный анализ Web-страниц, затем проверяют их на соответствие так называемому онтологическому тесту и возвращают пользователю лишь те страницы, которые успешно прошли данный тест.

С архитектурной т.з. система MARRI, по сегодняшним меркам, является почти традиционной. Ее отличительная черта – представление агентов автономными Java-программами с собственными сетевыми адресами, что неявно предполагает их мобильность и/или распределенность по сети.

^ 4.2.5. Прототип системы OntoSeek.

Разработка и реализация прототипа системы «содержательного» доступа к WWW-ресурсам – результат части работы проекта по поиску и повторному использованию програмных компонентов. Система разработана для содержательного извлечения информации из доступных в режиме on-line «желтых» страниц и каталогов. В рамках системы совместно используются механизмы поиска по содержанию, управляемые соответствующей онтологией, и достаточно мощный формализм представления.

На этапе планирования проекта вместо разработки собственной лингвистической онтологии были проанализированы доступные Интернет-ресурсы и выбрана онтология Sensus, которая обладает простой таксонометрической структурой, имеет обьем около 50000 узлов, в основном выделенных из тезауруса WordNet, а так же доступна в исследовательских целях в свободном режиме.

^ 4.2.6. (ONTO)2 – агент поиска и выбора онтологий.

Целью разработки интеллектуального WWW-брокера выбора онтологий на Web было решение проблеммы асистирования при выборе онтологий. Для этого потребоваось сформировать перечень свойств, которые позволяют охарактеризовать онтологию с т.з. ее будущего пользователя и предложить единую логическую структуру соответствующих описаний, разаработать специальную ссылочную онтологию (Reference Ontology), в рамках которой представлены описания существующих на Web онтологий; реализовать интеллектуального агента (ONTO)2, использующего ссылочную онтологию в качестве источника знания для поиска онтологий, удовлетворяющих заданному множеству ограничений.

При решении задачи разработки ссылочной онтологии авторы (ONTO)2 использовали технологию METODOLOGY и инструментарий ODE. При этом, в соответствии с общими тенденциями по созданию разделяемых онтологий , по-видимому, в силу того, что один из авторов обсуждаемой работы (Gomez-Perez) является провайдер-агентом международного проекта по построению разделяемых баз знаний, Reference Ontology была «имплантирована» в онтологию Product инициативы (KA)2.

В качестве источников знаний для построения ссылочной онтологии была использована таксономия свойств, концептуальная модель (KA)2 и свойства, выделенные в рааамках разработки онтологии исследовательских систем (Research Topic) инициативы (KA)2.


Заключение

Все вышесказанное показывает, что использование агентов при сборе, поиске и анализе информации имеет ряд преимуществ, основные из которых сводятся к следующему:

Именно поэтому с применением и развитием агентных технологий на основе методов и средств искусственного интеллекта связываются самые серьезные перспективы перехода от пространства данных к пространствам знаний в глобальных и локальных сетях. Мобильные агенты являются переспективными для МАС, но в настоящее время нет единых стандартов их разработки и все еще остается нерешенным ряд проблем, таких, как легальные способы перемещения агентов по сети, верификация агентов ( в частности, защита от предаваемых по сети вирусов), соблюдения агентами прав частной собственности и сохранение конфидициальности информации, которой они обладают, перенаселение сети агентами, а так же совместимость кода агента и програмно-аппаратных средств сетевой машины, где он исполняется.




Литература


  1. Горелова, Хорошевский «Базы знаний»

  2. Модель мультиагентной системы информационного поиска в глобальной сети ( А.Г.Дубинский),

dubinsky.nm.ru/99/t6/99t6.htm

  1. Система интеллектуального управления ИТ,

www.webmagazine.ru/pcworld/2000/06/060.htm

  1. Интеллектуальные агенты в Интернете ,

webagents.report.ru



1821685843093780.html
1821847589324123.html
1822005181305212.html
1822086655024641.html
1822182470507037.html