Mojeek — это не поисковый агрегатор
Колин Хейхерст (Colin Hayhurst) — новый генеральный директор конфиденциальной поисковой системы Mojeek. Был управляющим и одним из основателей стартапов в области высокопроизводительных вычислений, машинного обучения и веб-инфраструктуры. Одна из его компаний вошла в когорту известного акселератора Y Combinator в 2012 году.
Mojeek — это поисковой движок, а не поисковый агрегатор. Что это означает на практике и что именно необходимо для создания поисковой системы с нуля?
Это означает, что мы больше ориентированы на продукт, чем на маркетинг. Это меняет многое и отличает нас от компаний, занимающихся метапоисковыми системами — от DuckDuckGo, Ecosia, Startpage или Qwant.
Мы непрерывно сканируем Интернет, обновляя наш собственный ссылочный граф, базу данных веб-страниц и алгоритм ранжирования. Код был написан с нуля на языке C, и до недавнего времени почти весь он был создан Марком Смитом, нашим основателем. На разработку у него ушло 16 лет.
Единственный открытый исходный код, который мы используем, — это cURL, совсем недавно мы тестировали LMDB. Все остальное, включая наши поисковые базы данных, было разработано с нуля, поэтому вы можете себе представить, какую невероятную работу проделал Марк.
Это означает, что мы можем предоставлять результаты поиска, не зависящие от Google, Microsoft и «Яндекс».
Какую технологию вы используете?
Наши собственные серверы на “голом” железе размещены в самом экологичном центре обработки данных Великобритании, Custodian. У нас есть собственный робот MojeekBot, который сканирует Интернет. Собранные нами просканированные страницы организуются в базу данных или индекс с возможностью поиска. С учетом того, что проиндексированы миллиарды страниц, нам пришлось написать нашу технологию баз данных, чтобы справиться с нестандартными запросами.
Наши веб-службы используют язык программирования PHP. Мы не отслеживаем пользователей, и, хотя мы используем JavaScript во внешнем интерфейсе, на нашем сайте он отключен. Это важно для людей, которые отключают JavaScript из соображений безопасности.
Используемые нами операционные инструменты в основном размещаются на собственном хостинге и включают Nextcloud, FastMail, Zulip и Gitlab.
Каков текущий размер вашего индекса? Какая цель на будущее?
В настоящее время наш индекс составляет 3,26 миллиарда страниц. У нас есть цель достичь 5,7 млрд к июню 2021 года.
Какие варианты конфигурации вы предлагаете? Как вы планируете их расширять?
Мы известны благодаря поисковой системе mojeek.com. Однако мы также предлагаем поиск по сайту. Усовершенствования, внесенные в недавний проект с издателем, теперь доступны любой организации. Мы также предлагаем API, позволяющий разработчикам создавать собственные поисковые решения.
Благодаря недавним инвестициям и растущей команде мы планируем расширить услуги, например, добавить карты и данные о компаниях. Для нас большая краткосрочная задача — лучше понять, чего хотят пользователи. Мое участие позволит Марку, в частности, уделять больше времени созданию, и мы сможем оптимизировать нашу карту развития.
Как конфиденциальная поисковая система вы не отслеживаете своих пользователей. Поскольку вы не можете использовать сбор данных для определения вероятных потребностей пользователя, как вы справляетесь с трудностью предоставления точных результатов по запросу с неоднозначными условиями поиска?
Конечно, когда люди используют поисковую систему, они ищут информацию в различных вариациях. Таким образом, используемые поисковые запросы почти всегда имеют некий скрытый смысл.
Прогнозирование потребностей и желаний на основе собранных личных данных, на наш взгляд, носит манипулятивный характер. Этот механизм нужен компаниями, занимающимися рекламными технологиями и Big Data, не столько для улучшения своих услуг, сколько для оптимизации доходов от рекламы.
В некоторых случаях это помогает повысить релевантность, но может иметь последствия, наиболее заметным из которых является пузырь фильтров (предвзятый или персонализированный поиск). Направлять на релевантный контент с разных точек зрения также важно, как и использовать предположения о том, что ищет пользователь.
Вот почему мы считаем важным наличие независимого поискового индекса и алгоритма. Когда почти каждая поисковая система получает свои результаты из Google и Bing, именно Google и Bing формируют большую часть информации, которую может увидеть человек.
Как пользователи Mojeek могут самостоятельно убедиться, что их конфиденциальность действительно соблюдается?
Это отличный вопрос, и честный ответ — никак. Все сводится к вопросу доверия. Даже с открытым исходным кодом или при проведении независимых аудитов проверка этих вопросов не является гарантией. На практике компания может использовать другую версию своего исходного кода, включать или отключать функции во время аудита.
Mojeek — официальная британская компания с четкой и краткой политикой конфиденциальности. Мы точно определяем, какую очень ограниченную информацию мы регистрируем. Например, мы не регистрируем IP-адреса. При этом мы открыты для изучения способов, позволяющих нашим пользователям быть более уверенными в этом вопросе.
Как вы видите Mojeek через пять лет?
Наша цель — сделать так, чтобы сервисы на базе Mojeek стали надежной альтернативой Google, Bing и «Яндекс». Эти три поисковые системы имеют индекс выше нашего. Наличие независимой технической базы означает, что мы и будущие партнеры можем предложить реальную альтернативу поиску, который предлагается крупными технологиями Китая, России и США. К тому времени мы также построим устойчивый бизнес.
Фото Nick Wessaert, Unsplash.