О распределённом поиске YaCy, или бороться и искать, найти и не сдаваться.

Сеть YaCy Peer
Сеть YaCy Peer

И таки здравствуйте, дражайший читатель.

Сегодня речь пойдёт о такой специфичной для Web вещи, как поиск по интернетам. Да, все мы безусловно знаем и кошерный Google, и трефной Yandex. А ещё кучу всяких поисков помельче — рамблер, апорт, за рубежом популярен ещё Yahoo. Вроде бы — поиск да поиск, что тут такого? Алгоритмы индексации там, все дела — у всех почти всё одинаковое, и кто-то ищет получше, кто-то похуже, а кто-то и вовсе как яндекс выдаёт на первое место рекламу, и, возможно, проплаченные позиции. Но это лирика. У всех этих поисковых систем есть серьёзный недостаток (при наличии весьма большого числа достоинств). Знаете какой? А это фильтрация поиска. Вам дают то, что разрешено искать. Скажем, если вы попытаетесь найти что-то, что в этом поиске запрещено, то он вам ничего не покажет. За примерами я ходить не буду — сами найдите, но факт в том, что поисковики тесно сотрудничают со всеми заинтересованными лицами, и по их требованию/заказу удаляют из индекса массу кошерных вещей. Печально? Таки да, дражайший читатель. И что же делать?

Я уже не удивлён, что весьма интересные вещи из области технологий децентрализации придуманы в Германии. Стране жареных сосисок, отличного пива, и благоприятной, до некоторых пор, политики иммиграции. Знаете, есть старый такой прикол, и я кажется писал его уже где-то тут, о четырёх правовых моделях: английской — можно всё, кроме того, что нельзя; немецкой — нельзя ничего, кроме того, что можно; французской — можно всё, даже то, чего нельзя; и русской — нельзя ничего, даже то, что можно. Так вот, в странах с наиболее жёсткими моделями (к их числу относится и эта ваша франция, которая, как и все европейские страны, понемногу скатывается к немецкой модели), рождаются поистине гениальные решения по обходу «нельзя ничего, кроме…». Да, дражайший читатель, как ты уже возможно догадался — немцы придумали распределённый поиск — распределённый поисковый движок, если точнее. Называется он — YaCy (читается как ya see). Работает он по технологии, весьма близкой к торрентам — у каждого пользователя (т.н. YaCy Peer’а) есть локальный поисковый робот, индексатор, база. А также небольшой веб-интерфейс для доступа к результатам поиска. Поисковый робот шарится по интернетам, со ссылки на ссылку, с сайта на сайт, и собирает контент, после чего индексирует его через так называемый Reverse Word Index (RWI) и складывает в локальную поисковую базу. Плюс данная система относится также и к очень мной любимым оверлеям.

Читать далее О распределённом поиске YaCy, или бороться и искать, найти и не сдаваться.

Поисковик в I2P сети.

05.08.2010 в I2P сети появился поисковик, работающий только внутри этой сети. По принципу действия подобен Google. На данный момент в индексе около 10000 страниц и 100 000 слов. Никакой фильтрации поисковой выдачи или индексации не происходит — всё как есть. Называется он — Эякулятор (соответственно процесс поиска внутри сети, равно как и процесс поисковой выдачи вполне можно назвать эякуляцией). Название родилось в связи с именем поискового движка, на котором работает ресурс: yacy. Соответственно, по-английски пишется как Eyacylator. Он доступен по ссылкам:

Addresshelper ссылка.

B32 ссылка.

А это он на скриншотах: Читать далее Поисковик в I2P сети.