Строит иерархическое дерево по страницам сайта основываясь на sitemap.xml
Создает семантический корпус по заданному списку страниц
Анализирует текст, ищет ключевые слова
Анализирует HTTP Заголовки страницы
Информация о доменном имени
Ищет страницы удовлетворяющие условиям