Горячее предложение
Перспективы развития поисковых систем контекста |
|
Поисковые системы не анализируют смысл, мы же не ищем не ключевые слова, мы ищем смысл, информацию. Сделать поисковую систему, которая понимала бы смысл невозможно – все предложения многозначны. Попытки создания таких систем были, в лучшем случае среднеудачные, в худшем – провальные. Что такое карта для поиска? Эта карта – Википедия, уникальное огромное собрание информации, которая прекрасно структурирована. Это «совокупность всех заблуждений мира». Неидеальность Википедии – это именно та неидеальность общества, которая нужна поисковой системе. Если пользоваться ей как картой смысла, то мы будем в одной фазе с обществом. Википедия отображает термины по тематикам. На сегодня есть тестовая среда, которая умеет делать следующее: на базе Википедии она делает дерево категорий. Эта структура построена для русского языка и для русского языка в ней 32,000 позиций. На свете нет ни одного текста, который был бы в одной категории. Любой документ содержит 2-3 темы. Система находит все возможные темы и выдает индекс, насколько хорошо представлена тема. Также система умеет общаться с пользователем. Если вы неправильно задали запрос к любой поисковой системе, вам выдают документы, в которых есть никому не нужное слово. Массив информации, с которой никак нельзя работать. Решением является постепенное изменение запроса. Наша поисковая система выполняет простую вещь – она может отсеять результаты по категориям ( например, «про химию» и «про Францию» при запросе «франций»). Если человек не в состоянии владеть темой, можно получить поисковую среду, которая сама будет вести его по смыслу, давая подсказки (как пример ключ – музыкальный, информационный, от замка). Этот инструмент, который работает с уже найденным. Можно также работать до поиска – предложить тематики поиска не по слову, а по смыслу. Система находит варианты смыслов, предлагая варианты запросов, найденные в одной категории и близкие по значению. Выбираются тематики, которые одновременно попадают под нужную категорию. До нас люди создавали Тезаурус, систему синонимов. В это системе все города России были синонимом слова «Россия», что однозначно неверно. При таком подходе сильно увеличивается объем выдачи, но качество нет. Поэтому, не надо ее расширять, а надо уточнять. Система как продукт началась с задачи сделать таргетированную рекламу. Персонализированную рекламу, которая знает: Во-первых, заполнение профилей в социальных сетях не консистентно, кто-то укажет, что он мужчина, а кто-то, что не курит; во вторых, хранение информации о пользователях, напрямую не связанной с бизнесом, незаконно. Система должна была знать, о чем думают пользователи, что им продать, без персональной информации. Есть: след человека url , сайты, из них нужно выудить интересы человека. Нужно было проанализировать страницу и узнать ее смысл. Если человек с утра до вечера читает про удочки, а сегодня зашел на памперсы, значит, что-то в его жизни произошло. Интегрирование этой информации дает долговременные интересы человека, дифференцирование – локальные всплески интереса. Если интерес долговременен – товары по нему можно будет показывать вечно, на протяжение практически всей жизни. Сейчас ПС хорошо справляются только с краткосрочными интересами, которые быстро исчерпываются. Важно при этом: его анонимность, потому что завязанность рекламы на соцдем странна – можно собрать девушек-студенток, у них будут какие-то общие интересы, но их будет крайне не много. Система на сейчас: база 48 млн, пресса всей России, промышленный уровень системы. Если эту систему присоединить к системе контекстной рекламы, это будет совершенно новый продукт. Вопрос из зала: слово порно будет самым популярным. Это и так общеизвестно. Зачем тогда система? Ответ: люди интересуются порно, но покупают магнитофоны.Это просто шум, который нужно фильтровать. Мы продиагностировали посты ЖЖ. Убрав половину спама, мы смогли проанализировать смысл оставшегося контента. |