Чтение онлайн

на главную - закладки

Жанры

Блог. Создать и раскрутить
Шрифт:

Оператор «плюс» (+). Тем не менее бывают ситуации, когда надо принудительно включить в текст какое-либо слово, которое может иметь варианты написания. В хэлпе Гугла приводится пример с запросом «Star Wars Episode I», где римская единица представляет собой латинскую букву I (Ай).

ПРИМЕР

Запрос 1: [Star Wars Episode I]

Результат поиска: 1–10 примерно из 3 150 000 для Star Wars Episode I.

В том числе в выдаче появятся слова «Episode II», «Episode IV» и т. п.

Запрос 2: [Star Wars Episode +I]

Результат поиска: 1–10 примерно из 2 810 000 для Star Wars Episode +I.

И в него войдут только тексты, содержащие слово «Episode I».

Морфология слов. Гугл официально подтвердил, что

поддерживает морфологию русского языка. Правда, делает он это не так, как многие другие поисковые машины. С одной стороны, алгоритм поддержки русского языка Гуглом дает возможность видеть не только словоформы, но и другие части речи, а с другой стороны, не все словоформы редких слов поддерживаются на практике. О плюсах этого алгоритма сотрудник Гугла Александр Грушецкий на официальном блоге заявил следующее.

Сейчас… мы умеем обращаться с морфологией и знаем другие особенности русского. Поэтому когда это нужно, мы ищем не только слова из вашего запроса, но и их различные формы. Реализовать морфологию было довольно просто, но традиционные подходы имеют множество недостатков. Мы же выбираем алгоритмы, которые в первую очередь улучшают качество результатов реальных пользовательских запросов и избавляют вас как от необходимости набирать различные варианты одного запроса, так и от просмотра множества не интересующих вас страниц. Мы постоянно изменяем и совершенствуем наши алгоритмы и пополняем арсенал трюков по обработке слов. Например, традиционная реализация русской морфологии не поддерживает множество других полезных преобразований слов. Теперь же, например, для запроса как лечить ожог будут также найдены страницы, содержащие лечение ожогов, для звон колокола – колокольный звон, для футбол английский чемпионат – чемпионат Англии по футболу, а для русификация ICQ – русификатор ICQ.

Также чрезмерное увлечение морфологией чаще вредит, чем помогает. Поэтому мы стараемся использовать словоформы там и тогда, где это действительно нужно, и делать это как можно аккуратнее. Например, «готов к войне» не имеет отношения к запросу «война с готами», ответом на вопрос кто такие таты будет явно не тату, а для запроса мыть кошку больше подойдет мытье кошек, чем моя кошка. Кстати, вы всегда можете полностью отключить использование форм слова, поставив оператор «+» перед словом или взяв его в кавычки. Например, для запроса звон + колокола или звон «колокола», будет найдено только точное вхождение слова колокола, а вот колокольный звон найден не будет.

Но на самом деле вам не нужно знать все эти тонкости. Вам просто нужно искать, как вы обычно это делаете, а мы найдем то, что вам нужно.

Ограничение возможностей работы Гугла со словоформами редких слов видно на примере словосочетания «глоклая куздра» [24] .

ПРИМЕР

Запрос 1: [глоклая куздра]

Результат поиска: 1–10 примерно из 50 для глоклая куздра.

Запрос 2: [глоклую куздру]

Результат поиска: 1–3 из 3 для глоклую куздру.

Запрос 3: [глоклой куздре]

Результат поиска: 1–6 из 6 для глоклой куздре.

24

Официальный блог Гугл // googlerussiablog.blogspot.com/2006/09/blog-post_18.html

Просто для сравнения приведем результат Яндекса. По всем трем запросам о глоклой куздре Яндекс давал на момент написания книги одинаковый результат.

Результат поиска: страниц – 52, сайтов – не менее 22.

Мы рекомендуем в ответственных случаях вводить важные слова в разных словоформах вручную, чтобы избежать ошибок.

Ниже будут показаны случаи, когда даже по общеупотребительным словам Гугл словоформы обрабатывает не вполне корректно.

ПРИМЕР

Запрос 1: [журавль]

Результат поиска: 1–10 примерно из 656 000

для журавль.

В выдаче: ЖУРАВЛЬ СЕРЫЙ

ЖУРАВЛЬ СЕРЫЙ (Grus grus) это как раз тот самый журавль, чьи звонкие крики мы сльшим высоко в небе весной и осенью. Это крупная птица ростом около 125 см и… www.floranimal.ru/pages/animal/zh/1325.html – 22k.

Запрос 2: [журавль -журавль]

Результат: 1–10 из примерно 322 000 для журавль –журавль.

В выдаче: Гамзатов, Расул.

ЖУРАВЛИ Мне кажется порою, что солдаты, С кровавых не пришедшие полей… Сегодня, предвечернею порою, Я вижу, как в тумане журавли Летят своим… www.litera.ru/stixiya/authors/gamzatov/mne-kazhetsya-poroyu.html – 6k.

Улучшение запроса во время поиска. По мере того как вы проводите поиск, в найденных текстах обнаруживаются слова, которые вы упустили из виду, создавая запрос. В ряде случаев результаты станут точнее, если по этим словам проводить поиск дополнительно, составляя отдельные запросы. Подчеркнем особо – это должны быть именно отдельные запросы. Если же добавлять эти слова к уже имеющемуся запросу, то можно иногда излишне сузить диапазон результатов – ведь Гугл будет пытаться выдать документ, в котором содержатся все слова запроса.

Исключение слов из запроса. Логическое «НЕ». Как известно, при составлении запроса часто встречается информационный мусор. Чтобы его удалить, стандартно используются операторы исключения – логическое «НЕ». В Гугле такой оператор представлен знаком «минус» – идентичным оператору Яндекса «двойная тильда» (~~). Используя этот оператор, можно исключать из результатов поиска те страницы, которые содержат в тексте определенные слова.

ПРИМЕР

Запрос 1: [Журавль колодец]

Результат поиска:1–10 из примерно 91 200 для Журавль колодец.

Запрос 2: [ Журавль колодец -птица ]

Результат поиска: 1–10 из примерно 40 400 для Журавль колодец-птица. Запрос 3: [Журавль колодец -птица]

Результат 1–10 из примерно 508 000 для Журавль -колодец -птица.

Кстати, в этом запросе также проявилось, на наш взгляд, несовершенство поддержки морфологии русского языка Гуглом. Так, в момент написания книги в выдаче присутствовал текст, содержащий слово «птицы»: СЕМЕЙСТВО ЖУРАВЛИ.

ПРИМЕР

Семейство ЖУРАВЛИ (Gruidae). К семейству журавлиных относятся крупные длинноногие птицы с длинной шеей и прямым копьевидным клювом…

www.floranimal.ru/families/4295.html – 16k.

Запрос 3: [Журавль -колодец -птица -птицы]

Результат поиска: 1–10 примерно из 450 000 для Журавль -колодец -птица -птицы.

И в результатах по этому запросу документа со словом «птицы», приведенного выше, не оказалось.

Запрос 4: [Журавль -колодец -птица -птицы -журавли]

Результат поиска: 1–10 примерно из 432 000 для Журавль -колодец -птица -птицы -журавли.

Поиск точной фразы. Точная фраза на практике, как мы уже говорили, требуется либо при поиске текста определенного произведения, либо при поиске определенных продуктов или компаний, в которых название или часть описания представляет собой стабильно повторяющееся словосочетание.

Чтобы справиться с поиском точной фразы при помощи Гугла, требуется заключить запрос в двойные кавычки.

ПРИМЕР

Забавным, но показательным примером может быть задание из учебника русского языка для седьмого класса под редакцией Н. М. Шанского. На странице 45 приведено задание разделить текст на абзацы. Фрагмент взят из произведения М. Шолохова (название не указано):

«За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки».

Введем этот текст в кавычках в Гугл.

ПРИМЕР

Результат поиска: 1–3 из 3 для «За Доном в лесу прижилась тихая, ласковая осень. С шелестом падали с тополей сухие листья. Кусты шиповника стояли, будто объятые пламенем, и красные ягоды в редкой листве их пылали, как огненные язычки». Как выяснилось, это отрывок из «Тихого Дона» (книги четвертой). А забавность примера в том, что у Шолохова этот текст оказался вообще не разбитым на абзацы.

Поделиться:
Популярные книги

Черный дембель. Часть 2

Федин Андрей Анатольевич
2. Черный дембель
Фантастика:
попаданцы
альтернативная история
4.25
рейтинг книги
Черный дембель. Часть 2

Кодекс Крови. Книга ХIV

Борзых М.
14. РОС: Кодекс Крови
Фантастика:
попаданцы
аниме
фэнтези
5.00
рейтинг книги
Кодекс Крови. Книга ХIV

Магия чистых душ 3

Шах Ольга
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Магия чистых душ 3

Жестокая свадьба

Тоцка Тала
Любовные романы:
современные любовные романы
4.87
рейтинг книги
Жестокая свадьба

Усадьба леди Анны

Ром Полина
Любовные романы:
любовно-фантастические романы
5.00
рейтинг книги
Усадьба леди Анны

Измена. Возвращение любви!

Леманн Анастасия
3. Измены
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Измена. Возвращение любви!

Два лика Ирэн

Ром Полина
Любовные романы:
любовно-фантастические романы
6.08
рейтинг книги
Два лика Ирэн

Опасная любовь командора

Муратова Ульяна
1. Проклятые луной
Фантастика:
фэнтези
5.00
рейтинг книги
Опасная любовь командора

Газлайтер. Том 8

Володин Григорий
8. История Телепата
Фантастика:
попаданцы
альтернативная история
аниме
5.00
рейтинг книги
Газлайтер. Том 8

Мымра!

Фад Диана
1. Мымрики
Любовные романы:
современные любовные романы
5.00
рейтинг книги
Мымра!

Таня Гроттер и магический контрабас

Емец Дмитрий Александрович
1. Таня Гроттер
Фантастика:
фэнтези
8.52
рейтинг книги
Таня Гроттер и магический контрабас

Имперский Курьер

Бо Вова
1. Запечатанный мир
Фантастика:
попаданцы
аниме
фэнтези
фантастика: прочее
5.00
рейтинг книги
Имперский Курьер

Страж. Тетралогия

Пехов Алексей Юрьевич
Страж
Фантастика:
фэнтези
9.11
рейтинг книги
Страж. Тетралогия

Сердце дракона. Танец с врагом

Серганова Татьяна
2. Танец с врагом
Любовные романы:
любовно-фантастические романы
5.25
рейтинг книги
Сердце дракона. Танец с врагом