Інформаційно-пошукові системи

Тема: Інформаційно-пошукові системи

Цілі:

дидактична: розповісти студентам про основи пошуку інформації в комп'ютерних мережах.

розвиваюча: Розвивати знання студентів у галузі інформаційних технологій.

виховна: Показати важливість знань і умінь у сфері інформаційних комп'ютерних технологій.

Вид занять (тип уроку): вивчення нового матеріалу.

Організаційні форми навчання: лекція.

Методи навчання: бесіда.

Засоби навчання

Вид та форми контролю знань: фронтальний опитування.

Внутріпредметние зв'язку

Міжпредметні зв'язки

Види самостійної роботи студентів

Домашнє завдання: конспект лекції вчити.
Хід заняття

1. Організаційний момент.

2. Повідомлення теми і мети заняття.

3. Вивчення нового матеріалу.

4. Повторення вивченого матеріалу.

5. Підведення підсумків заняття.

6. Домашнє завдання.
Введення

Пошук інформації - завдання, яке вирішує людство вже багато століть. У міру зростання обсягу інформаційних ресурсів, потенційно доступних одній людині (наприклад, відвідувачу бібліотеки), були вироблені все більш витончені і досконалі пошукові засоби і прийоми, що дозволяють знайти необхідний документ.

Спочатку ці кошти удосконалювалися в каталогах та інформаційних відділах великих бібліотек. У 70-ті роки ХХ століття з'явилися бази даних, доступ до яких спочатку забезпечувався через модемне підключення, а потім по протоколу telnet через Інтернет.Вартість роботи з такими базами даних дуже велика. Наприклад, одна хвилина роботи з базою даних DIALOG (www.dialog.com) може коштувати долар, а висновок на екран одного елемента знайденої запису (з, наприклад, 70) - 20 центів. Така висока вартість пошуку інформації зажадала створення ефективних прийомів пошуку.

Дослідження з методів пошуку інформації публікуються в наукових журналах. У нашій країні - в журналі "Наукова та технічна інформація" (НТІ), у США - в Journal of American Society of Information Systems (JASIS).

Всі знайдені за багато років кошти і прийоми пошуку інформації доступні й ефективні і при пошуку інформації в Інтернет.

Бібліотеки використовують, в основному, три види каталогів: алфавітні, систематичні та предметні. Інформаційно-пошукові системи (ІПС) Інтернет, при всьому їхньому зовнішньому розмаїтті, також потрапляють в один з цих класів. Тому, перш ніж знайомитися з цими ІПС, подивимося, як влаштовані абстрактні алфавітні (словникові), систематичні та предметні ІПС. А для цього доведеться познайомитися ще й з деякими термінами з теорії інформаційного пошуку. Наша екскурсія в теорію виявиться корисною при зустрічі з черговою ІПС (а в Інтернет їх кілька сотень) - у цих ІПС ви станете впізнавати знайомі риси.
Екскурсія в теорію інформаційно-пошукових систем

Отже, АВТОР створює ДОКУМЕНТ. А у нас (у вас) виникає ІНФОРМАЦІЙНА

Потреба:
Ця інформаційна потреба часто (як правило) навіть не може бути точно виражена словами, і виражається лише в оцінці документів, що переглядаються - підходить або не підходить. У теорії інформаційного пошуку замість слова "підходить" використовують термін "ПЕРТІНЕНТНИЙ ДОКУМЕНТ", а замість "не підходить" - "не пертінентний '. Слово "пертінентний" походить від англійського «pertinent» що значить "відноситься до справи, що підходить по суті. Суб'єктивно розуміється мета інформаційного пошуку - знайти всі пертінентние і тільки пертінентние документи (ми хочемо знайти "тільки те, що хочемо, і нічого більше").

Ця мета - недосяжна. Ми часто в змозі оцінити пертінентность документа тільки в порівнянні з іншими документами (звичайно, якщо мета нашого пошуку - редактор для Quake, а попався документ з кулінарним рецептом, то він явно непертінентен, але прийняти рішення про пертінентності документа так просто вдається далеко не завжди) . Для того, щоб було з чим порівнювати, необхідно якийсь кількість непертінентних документів. Ці документи називаються - "ШУМ". Занадто великий шум ускладнює виділення пертінентних документів, занадто малий - не дає впевненості в тому, що знайдено достатню кількість пертінентних документів (раз ми бачимо тільки пертінентние документи, немає ніякої впевненості в тому, що і серед тих документів, які не трапилися нам на очі, теж не виявляться пертінентние). Практика показує, що коли кількість непертінентних документів лежить в інтервалі від 10% до 30%, який шукає відчуває себе комфортно, не губилися в морі шуму і вважаючи, що кількість знайдених документів - задовільний.

Коли документів багато, використовується інформаційно-пошукова система (ІПС). У цьому випадку інформаційна потреба повинна бути виражена засобами, що "розуміє" ІПС - повинен бути сформульований ЗАПИТ:
Запит рідко може точно виражати інформаційну потребу. Однак багато ІПС з різних причин не можуть визначити, чи відповідає той чи інший документ запитом. Ступінь відповідності документа запиту називається релевантності. Релевантний документ може виявитися непертінентним і навпаки. Відома (американська) ІПС, що на запит, що складається з єдиного слова «Russia» (Росія), видає список документів, у першому з яких цього слова немає взагалі, але зате є слово «Gagarin» Цей документ нерелевантен, але пертінентен для масової американської аудиторії. У випадку, коли шукається інформація про шлюпковий якорях (кішок), запит, що складається зі слова "кішка", майже в будь-якій ІПС дасть масу релевантних, але непертінентних документів.
Класифікаційні інформаційно-пошукові системи

У класифікаційних ІПС використовується ієрархічна (деревоподібна) організація інформації, яка називається Класифікатора.Розділи класифікатора називаються рубриці. Бібліотечний аналог класифікаційної ІПС - систематичний каталог. Класифікатор розробляється і вдосконалюється колективом авторів. Потім його використовує інший колектив фахівців, які називаються систематизатор. Систематизатор, знаючи класифікатор, читають документи і приписують їм класифікаційні індекси, що вказують, яким розділам класифікатора ці документи відповідають.

Класичний приклад класифікаційної ІПС-Yahoo (www.yahoo.com). Тільки-но з'явившись, Yahoo швидко завоювала визнання до опрацюванням класифікатора. Зараз в Yahoo працюють більше 100 систематизатор.

Класифікаційні ІПС мають ряд специфічних недоліків. Вже розробка класифікатора пов'язана з оцінкою відносної важливості різних областей людської діяльності. Наприклад, порівнюючи класифікатори багатьох ІПС Інтернет (таких, як Yahoo, Excite, Look Smart), помічаємо, що в багатьох з них немає розділу "Наука". Будь-яка оцінка є соціальною дією, вона пов'язана із суспільством, культурою, соціальною групою, до яких належить людина, що виносить оцінку. Тому вже класифікатори, створені різними колективами в різних країнах, можуть мати дуже різний ступінь корисності при пошуку інформації - все залежить від того, хто і що шукає. Але у створенні класифікаційних ІПС беруть участь ще і колективи систематизатор, також виносять свої оцінки щодо відповідності документів розділам

класифікатора.
Таким чином, при пошуку інформації за допомогою класифікаційних ІПС виникає необхідність взаємодії з іншими культурами - культурами авторів, творців класифікаторів і систематизатор.

Це непросте завдання. Існує професія, яка вирішує це завдання - перекладачі. Хороший перекладач перекладає не лише слова, але й те, що називається "культурні реалії". У разі інформаційного пошуку відповідний професіонал називається "ІНФОРМАЦІЙНИЙ БРОКЕР". Він володіє когнітологіческімі методиками, знає, як влаштовані класифікатори і як їх інтерпретують систематизатор. Ці знання дозволяють інформаційному брокеру в бесіді з вами вивчити вашу інформацію потреба і перетворити її на запит. У бібліотеках такі "інформаційні брокери працюють в інформаційних і бібліографічних відділах. Інформаційні брокери Інтернет у нас в країні вже зустрічаються, хоча поки що рідко.

Бібліографи, розуміючи, що читачі не завжди глибоко вивчають класифікації, покладені в основу систематичних каталогів, виробили два прийоми, що полегшують життя читачам. Ці прийоми носять назву "Відсилання" і "ПОСИЛАННЯ", і обидва вони застосовуються творцями класифікаційних ІПС Інтернет.

Ці прийоми використовуються в ситуації, коли документ може бути віднесений до одного з декількох розділів класифікатора, а особа, яка здійснює пошук (пошукач), може не знати, до якого саме розділу.

Відсилання використовується тоді, коли творці класифікатора і систематизатор в змозі прийняти чітке рішення про віднесення документа до одного з розділів класифікатора, а пошукач з певною вірогідністю в пошуках цього документа прийде в інший розділ. Тоді в цьому іншому розділі міститься відсилання (Див. ") в той розділ класифікатора, в якому дійсно розміщена інформація про документи даного типу.

Наприклад, інформація про карти країн може бути розміщена в розділах "Наука • Географія • Країна", "Економіка • Екологія.Країна "або" Довідники • Карти • Країна ". Приймається рішення, що карти країн містяться в другій розділ "Економіка Географія • Країна"; тоді в інші два розділи поміщаються відсилання в нього. Цей прийом активно використовується в ІПС Yahoo (відсилання позначається в ній знаком @).

Посилання ( "Див також") використовується в менш однозначної ситуації, коли навіть творці класифікатора і систематизатор не в змозі прийняти чіткого рішення про віднесення документів до певного розділу класифікатора. В ІПС Інтернет посилання приймає різноманітні форми ( "Relevant Servers", "Схожі документи" і т.п.).

Класифікаційних ІПС в Інтернет багато (деякі згадані у зведенні ІПС в кінці статті). Великі класифікаційні ІПС (американська Yahoo, європейська Yellow Web, російські Сузір'я Інтернет і Ау) використовують допоміжні словникові ІПС за власними рубриками (аналоги бібліотечних алфавітних покажчиків). Інші класифікаційні ІПС просто існують спільно з ІПС словникового типу (Excite, Lycos, Infoseek).
Словникові ІПС

Культурні проблеми, пов'язані з використанням класифікаційних ІПС, привели до створення ІПС словникового типу, з узагальненими англомовним назвою search engines. Основна ідея словникової ІПС - створити словник з слів, що зустрічаються в документах Інтернет, в якому при кожному слові буде зберігатися список документів, з яких взято це слово. Якщо пошук слів у такому словнику виконується швидко, то можна відмовитися від послуг розробників класифікаторів і від послуг систематизатор, залишаючись один на один з авторами документів:

На щастя, не дивлячись на велику кількість слів (і словоформ) у природних мовах, більшість з них вживаються нечасто, що було помічено вченим лінгвістом Ціпфом ще наприкінці 40-х років нашого століття. До того ж найбільш вживані слова - це сполучники, прийменники і артиклі, тобто слова, абсолютно даремні при пошуку інформації. У результаті словник найбільшою словникової ІПС Інтернет - Alta Vista - має об'єм всього лише кілька Гбайт.

Оскільки слова у словнику впорядковані, пошук потрібного слова може виконуватися досить швидко - без послідовного перегляду. А наявність списків документів, в яких зустрічається шукане слово, ІПС дозволяє виконувати операції з цими списками - їх злиття, перетинання або віднімання (для наочності списки документів зображені у вигляді овалів):
Замість того, щоб говорити "Список документів містять слово 'стіл' або документів, що містять слово 'стілець", вживаються скорочені вирази, наведені на малюнку. подальше скорочення ці вирази знаходять в мові запитів словникових ІПС:

замість "Знайти список документів містять слово 'стіл' або документів, що містять слово 'стілець", більшості словникових ІПС достатньо написати щось подібне

Стіл або стілець.

Союз АБО в запиті до словникової ІПС виступає в ролі ЛОГІЧНОГО ОПЕРАТОРА, що зв'язує безлічі потрібних документів.Словникові ІПС використовують три логічних оператора: АБО, І і І-НІ ( "але без"), як правило, ці оператори позначаються одним із таких способів:
Оператор


Оператори мають пріоритет (перш за все, виконується І-НЕ, потім - І, і лише потім

- АБО), тому для складання складних запитів можуть використовуватися дужки (виняток становить лише ІПС Infoseek, яка замість дужок застосовує інші позначення). Як правило, словникові ІПС Інтернет надають користувачам два інтерфейси - режим "складного запиту" (advanced search), в якому доступні всі логічні оператори, і режим простого пошуку, в якому, як правило, неможливе використання дужок, і, отже, можна використовувати не всі поєднання операторів.

Давайте розглянемо гіпотетичний приклад пошуку інформації про столи. З урахуванням відмінків слова "стіл" і наших знань про логічних операторів, запит до словникової ІПС міг би виглядати так:

стіл АБО столу АБО столу АБО столі АБО столом

Добре, що це тільки одне слово, але писати таке досить сумно.

Західні ІПС, орієнтовані на англійську мову, пропонують просте рішення: замість слова можна написати його початок, замінивши змінну частину зірочкою:

СТОЛ *

Формально кажучи, зірочка замінює будь-яку кількість символів, тому говорять, що вона позначає праве усікання. Називати словом позначення «стіл *» язик не повертається, тому для таких частин логічних виразів запитів використовується назва ТЕРМІН. Зірочка для вказаної мети (правого усікання) застосовується всіма відомими словарними ІПС Інтернет.

Однак такий запит відшукає і документи зі словами "їдальня", "стільниця", "столоначальник" і навіть "стовп». Таке явище - штучна синонімія - може сильно заважати при пошуку, проте його прояв найчастіше неможливо передбачити заздалегідь.

дві російські ІПС (Яндекс і Апорт) "знають" російську граматику і в словнику зберігають тільки так звану "нормальну форму" слова (для іменника - називний відмінок однини). Ці системи допускають написання запиту природною мовою, нормалізує терміни запиту, тим самим істотно спрощуючи пошук в російській Інтернет.
Слова далекі й близькі

Описані можливості словникових ІПС, хоча й досить потужні, часто виявляються абсолютно недостатніми для пошуку навіть дуже простий інформації. Спробуємо вирішити наступну задачу: відшукати відомості про продаж металевих стільців:

Металеві * І стілець *

Але цей запит відповідають прейскурант торгової фірми, що продає плетений дерев'яний стілець (другий рядок прейскуранта) і металева шафа (178 рядок прейскуранта). Оператор І відшукує документи, в яких шукані слова зустрічаються в будь-якому місці!

Для усунення цього недоліку деякі ІПС зберігають не просто список документів, в яких зустрічається слово, але й номер цього слова в конкретному документі. Це в мові запитів такий ІПС використовувати оператор ПОРУЧ, що вирішує поставлене завдання:

Металеві * ПОРУЧ стілець

Багато Державною адміністрацією залізничного транспорту не дозволяють написати такий запит - вони не дозволяють використовувати терміни з правим усіканням спільно з оператором ПОРУЧ, (тільки слова), але це обмеження поступово знімається, - стежте за інформацією на конкретних ІПС.

Оператор ПОРУЧ в різних ІПС позначається по-різному (він є в Alta Vista, Lycos, Апорт і Яндекс, а також ІПС телеконференцій Deja News і у всіх цих ІПС використовуються різні позначення). Більш того, у різних ІПС він може мати й дещо різний зміст. Так, Alta Vista вважає, що ПОРУЧ - це не більше ніж через 15 слів в будь-якому порядку, у той час як інші ІПС дозволяють вказувати необхідну відстань між словами (рівно стільки-то чи не більше ніж стільки-то). Lycos дозволяє вказувати відстань і необхідний порядок слів. Апарат дозволяє вказувати відстань між словами в словах і пропозиції; Яндекс - в словах і абзацах (з можливістю вказати. Порядок проходження слів).
Ранжування результатів пошуку

Словникові ІПС здатні видавати списки документів, що містять мільйони посилань. Навіть просто переглянути такі списки абсолютно неможливо. Було б зручно мати можливість поставити формальні критерії (хоча б відносної) важливості (з точки зору пертінентності) документів з тим, щоб найбільш важливі документи потрапляли б на початку списку. Багато ІПС надають таку можливість ранжирування результатів пошуку. Методи ранжування до різних ІПС різні. Так, Alta Vista дозволяє (в режимі складного пошуку) вказати перелік термінів, які підвищують ранг знайденого документа (тобто переміщують його в початок списку), що для Alta Vista особливо актуально, так як Alta Vista показує тільки перші 200 знайдених документів. Rambler і Яндекс дозволяють вказати вага кожного з термінів, що беруть участь у запиті, що дозволяє досить точно настроювати порядок проходження знайдених документів.

Англійська тезаурус Alta Vista

Американський сервер ІПС Alta Vista (www.AltaVista.com) надає унікальний спосіб уточнення результатів пошуку. Цей спосіб діє, тільки якщо в запиті використані лише англомовні терміни.

При натисненні на кнопку Refine виникає список понять, що зустрічаються у щойно знайдених документах. З кожним поняттям Alta Vista пов'язує список слів, які видно відразу. Кожне поняття можна включити в новий запит, виключити з нього чи ігнорувати.Вже одне це дозволяє різко підвищити ефективність пошуку за рахунок виключення понять, що не входять до потрібної предметну область, і про співіснування яких з використаними вами термінами часто важко здогадатися.

Якщо ваш браузер підтримує Java, то, натиснувши кнопку Graph, ви побачите схему зв'язків між поняттями, і, до того ж, зможете включати в запит і виключати з нього не тільки поняття цілком, але й окремі ліворуч, з ними пов'язані.
Web-кільця - предметна ІПС

Предметна ІПС з точки зору користувача влаштована найбільш просто. Шукай назву потрібного предмета свого інтересу (предметом може бути і щось нематеріальне, наприклад, індійська музика), а з назвою пов'язані списки відповідних ресурсів Інтернет. Це було б особливо зручно, якщо повний перелік предметів невеликий.

Так воно і було деякий час назад. Web-майстри, що займаються одним предметом, почали ставити на своїх серверах посилання на сервери колег, створюючи кільцеві посилальні структури.
У червні 1995 р. з'явився сервер www.webring.org об'єднав кілька кілець. В даний час на цьому сервері "присутні" понад 46 тис. кілець, які в цілому включають понад півмільйона серверів, тобто середній розмір кільця - близько 12 серверів. Є, проте, і кільця-гіганти, які містять тисячі серверів. Учасники таких кілець використовують не тільки двосторонні посилання (як показано на малюнку), але і посилання "через сервер" і випадкові посилання, що генеруються програмним чином.

Зрозуміло, що знайти потрібний предмет інтересу тепер непросто. www.webring.org обзавівся власними допоміжними ІПС - класифікаційної і словників, які допомагають знайти назву предмету.

Стратегія пошуку

дати загальний рецепт ефективної стратегії пошуку інформації в Інтернет, мабуть, неможливо. Є лише деякі принципи, що дозволяють витрачати менше часу. Спробую їх викласти.

Почну з прикладу. Якщо вам необхідно дізнатися, де росте деревоподібна чорниця, то навряд чи ви підете в алфавітний каталог бібліотеки. Можливо, ви знайдете потрібну літературу за допомогою систематичного каталогу. З дещо більшою ймовірністю - за допомогою предметного. Але, швидше за все, жоден з бібліотечних каталогів вам не допоможе. Але зайдіть в інформаційно-бібліографічний відділ велику бібліотеку, і черговий бібліограф дістане бібліографічний покажчик по чагарнички або якусь схожу книжечку, з якої ви і знайдете відповідь на своє питання.

Подібну стратегію можна з успіхом застосовувати і в Інтернет. В ІПС спільного, призначення можна потонути в тисячах посилань, виданих вам на простий запит. Метою використання універсальної ІПС загального призначення може бути пошук спеціалізованої ІПС, присвяченій тематиці вашого пошуку. Така ІПС може бути розпізнає по наявності слів "інформація (information)," документ (document) і т.п. у знайдених в універсальній ІПС документах. Але часто спеціалізована ІПС може ховатися на сервері суспільної, професійної або спеціалізованої організації, видавництва.

Іноді доводиться розшукувати декілька інформаційних систем з все більш вузькою тематикою. Одного разу до мене звернулися про проханням терміново знайти інформацію про суден-суховантажів (по-англійськи - bulker). Запит в Alta Vista (простий пошук)

+ bilker * + sale *

дав нульовий результат; запит

+ ship * + sale *

тисячі посилань на сторінки, присвячені продажу катерів і яхт (втім, попалася і одна баржа). Уважне вивчення кількох перших сторінок списку результатів пошуку показало, що в знайдених текстах часто є слово "marine (морської)". І тут я згадав, що є в англійській мові слово "maritime" означає "все морське". Запит

+ Maritime + information *

вже серед перших десяти посилань містив посилання на розташовану на www.geocites.com інформаційну систему з морської тематики. Але і в ній інформації про продаж суховантажів не було. Зате була інформація про відправку суховантажів з портів світу, що включає відомості про власників суден. Багато хто з фірм - власників суден мали в своїй назві слова "ship brokers (торговці судами)". Цього англійського виразу я не знав. Проте запит в Alta Vista

ship * + broker *

дав мені величезний список сторінок, серед яких була одна з вже знайомим адресою - www.geocites.com.

Виявляється, існує спеціалізована ІПС по торговцям судами! Другий знайдений за допомогою такої ІПС торговець містив Web-сер на якому знайшовся відповідний суховантаж.

Цей приклад ілюструє ще один елемент стратегії: читайте знайдені документи в

пошуках найбільш точних термінів і зв'язків між термінами. Можливо, ви мислите

в зовсім не тих термінах, які використовують автори шуканих документів (згадаймо

про культурні розходження!).

Третій елемент стратегії: використовуйте кілька ІПС. Якщо ви регулярно займаєтеся пошуком інформації з якоїсь тематики, відмітьте ті ІПС, які для вас найбільш ефективні.


Останні статті

Нові виховні заходи