Главная Обратная связь

Дисциплины:






Інформація в Internet



Особливим інформаційним джерелом в сучасному суспільстві виступає Інтернет, який містить у собі всі попередньо визначені джерела. Проте при опрацюванні інформації з мережі Інтернет необхідно враховувати те, що ця інформація не завжди є належним чином відредагована та відповідає дійсності.

Пошук інформації – впорядкована послідовність дій, які ви повинні виконати, коли стикаєтеся з необхідністю знайти інформацію, що цікавить вас.

Питання – це те, на що ви хочете отримати відповідь; запит – це те, що ви вводите в комп'ютер.

При пошуку інформації в Internet найчастіше ви користуєтеся базами даних. База даних це набір записів, що складається з декількох полів, котрий вважається ідеальною структурою для каталогу неструктурованих джерел інформації.

До важливих характеристик довідкових баз даних відносяться:

· Охоплювана сфера (тематика, типи джерел, наскільки повно представлено кожне джерело, охоплюваний період часу).

· Структура і зміст запису, можливість звернення до окремих полів (з яких полів складається запис, як вони організовані, по яких з них можна проводити пошук).

· Розмір (скільки записів у базі даних, середній розмір одного запису).

· Сучасність і оновлення інформації (скільки часу проходить між публікацією статті і появою відповідного запису у базі даних, як часто додаються нові записи у базу даних).

· Якість (хто несе відповідальність за базу даних і який контроль її якості передбачений).

· Способи пошуку (пошук за допомогою довільного тексту або за допомогою впорядкованої індексуючої системи – керованого словника).

· Вартість (залежно від умов доступу).

Бази даних можуть також розрізнятися за характером інформації в них: чи містять вони «показники» на іншу інформацію (довідкова інформація) або фактично саму інформацію (початкові дані).

Довідкові бази даних – це впорядковані набори «показників». Зазвичай довідкова база даних є лише першим етапом пошуку.

Початкові бази даних – це впорядковані набори самих даних або джерел інформації.

Визначивши своє питання і вибравши ресурси для пошуку, ви повинні сформулювати запит, тобто виразити питання мовою, зрозумілою машині. Для цього слід:

· розбити питання на поняття, які шукатимуться окремо, а потім об'єднати їх відповідними логічними операторами, якщо в системі пошуку передбачені ці операції;

· вирішити, наскільки широко проводити пошук: чи зробити акцент на повноту відгуку, тобто знайти по цій темі, часто отримуючи при цьому багато непотрібної інформації, або на точність, тобто швидко знайти дуже обмежену конкретну інформацію по темі, втрачаючи деякі важливі відомості, що відносяться до неї;



· врахувати усі варіанти написання слів і синоніми, якщо ви шукаєте за допомогою довільного тексту;

· вибрати відповідну тематичну рубрику.

При пошуку найчастіше застосовують перший з описаних нижче методів в силу його простоти.

1) Пошук довільного тексту. При такому підході ви шукаєте слова, які були вжиті, наприклад, в заголовках статей і рефератах, перебираючи усі варіанти написання і синоніми.

2) Пошук за допомогою керованого словника. Перш ніж додати посилання на журнальну статтю в довідкову базу даних, з цього списку вибираються терміни, що характеризують зміст статті, і вводяться в запис.

Коли ви користуєтеся для пошуку деяким досить широким поняттям, то статті, індексовані за вужчим терміном, не вибираються: якщо ж застосовувати «розширення», то в результат будуть включені не лише статті, що відносяться до підрубрик, розташованих на один ієрархічний рівень нижче. В той же час ви можете шукати інформацію за вужчим поняттям і знайти саме те, що вам потрібне.

Примітка. Не робіть поспішних висновків, якщо нічого (чи майже нічого) не знайдено. Часто це не є свідченням відсутності інформації. Зазвичай довести негативний результат (тобто відсутність літератури по цій темі) непросто. Перш ніж дійти такого висновку, потрібно спробуваний, декілька інших підходів.

Надмірно широкий результат пошуку – явище досить поширене, часто через помилкове визначення проблеми або формулювання запиту. Але що робити, якщо знайшлося 400 дійсно хороших посилань по темі ваших досліджень, а вам достатньо 25? Тоді спробуйте:

Ø обмежити пошук додатковими критеріями, передбаченими системою;

Ø прочитати назви і анотації і вибрати самостійно найбільш відповідні посилання, хоча це дуже поверхневий підхід, що не враховує повного змісту статті.

Говорять, що в Інтернеті є усе. Насправді, звичайно, це не так. Матеріали для розміщення в Мережі готують живі люди, і тому там можна знайти лише це. Що вони вважали потрібним (у сенсі корисним або вигідним для себе) опублікувати.

В Інтернеті каталоги і показники розрізняються технологією підготовки. Над каталогами працюють люди, а показники формуються автоматично. Найбільший каталог Інтернету – Yahoo (www.yahoo.com).

Пошукові показники – це автоматизовані системи. Вони здатні функціонувати без участі людини, і тому їх знання про справжні ресурси Мережі набагато більше.

Робота пошукового показника відбувається в три етапи, з яких два перших є підготовчими і непомітні для користувача. Спочатку пошуковий показник збирає інформацію з World Wide Web.

Для цього використовують спеціальні програми, аналогічні браузерам. Вони здатні скопіювати заданнуюWeb-сторінку на сервер пошукового показника, проглянути її, знайти усі гіперпосилання, які на ній є, перейти по вказаних в них адресах, скопіювати ті ресурси, які знайдені там, знову розшукати наявні в них гіперпосилання і т. д. Подібні програми називають черв'яками, павуками, гусеницями, краулерами, слайдерами і іншими подібними іменами.

Після копіювання розшуканих Web-ресурсів на сервер пошукової системи починається другий етап роботи – індексація. В ході індексації створюються спеціальні бази даних, за допомогою яких можна встановити, де і коли в Інтернеті зустрічалося те або інше слово.

На третьому етапі відбувається обробка запиту користувача і видача йому результатів пошуку у вигляді списку гіперпосилань. Припустімо, користувач хоче дізнатися, де в Інтернеті є Web-сторінки, на яких згадується відомий голландський механік і математик Крістіан Гюйгенс. Він вводить слово Гюйгенс в полі набору ключових слів і натискає кнопку Знайти (Search). По своїх базах показників пошукова система за долі секунди розшукує відповідні Web-ресурси і формує сторінку результатів пошуку, на якій рекомендації представлені у вигляді гіперпосилань. Далі користувач може користуватися цими посиланнями для переходу до ресурсів, що цікавлять його.

Основна проблема Сучасного Інтернету пов'язана з надлишком Web-сторінок. Достатньо ввести в поле пошуку таке просте слово, як, наприклад, «футбол», і українська пошукова система видасть декілька тисяч посилань, згрупувавши їх по 10-20 на сторінці.

Проте користувачів дуже турбує якість найперших посилань. Користувачі не люблять, коли в першому десятку зустрічаються посилання, що втратили актуальність, їх дратує, коли підряд йдуть посилання на сусідні файли одного і того ж сервера. Найгірший варіант – коли підряд йдуть декілька посилань, що ведуть до одного і того ж ресурсу, але знаходиться на різних серверах.

Користувач має право чекати, що найпершими стоятимуть найбільш корисні посилання. Ось тут і виникає проблема. Людина легко відрізняє корисний ресурс від безуспішного, але як пояснити це програмі?! Тому кращі пошукові системи проявляють дива штучного інтелекту в спробі відсортувати знайдені посилання зп якістю їх ресурсів. І робити це вони повинні швидко – користувач не любить чекати.

Операція сортування отриманих результатів називається ранжуванням. Кожній знайденій Web-сторінці система присвоює якийсь рейтинг, який повинен відображати якість матеріалу.

Високі рейтинги отримують Web-сторінки, у яких ключове слово, використане в запиті, входить у заголовок. Рівень рейтингу підвищується, якщо це слово трапляється на Web-сторінці кілька разів, але не занадто часто. Позитивно впливає на рейтинг входження потрібного слова в перші 5-6 абзаців тексту – вони вважаються найважливішими при індексації.

Ще однією ознакою якості Web-сторінки є той факт, що на неї є посилання з якихось інших Web-сторінок. Чим їх більше, тим краще. Отже, ця Web-сторінка популярна і має високий показник цитування.

Творці Web-сторінок завжди зацікавлені в тому, щоб їх переглядало більше людей, тому вони спеціально готують сторінки так, щоб пошукові системи давали їм високий рейтинг. Хороша, грамотна робота Web-майстра здатна значно підвищити відвідуваність Web-сторінки.

З цього можна зробити декілька висновків:

· По-перше, намагайтеся уникати прямолінійного пошуку за одним словом. Дайте пошуковій системі групу ключових слів, а ще краще – фразу.

· Для пошуку за групою слів або за ключовою фразою використовуйте не яку-небудь пошукову систему, а ту, до якої найбільш звикли. У різних системах використовуються різні правила для запису групи слів, і ці правила потрібно знати.

· Якщо користуєтеся пошуком за одним словом, то, навпаки, застосовуйте якомога більше різних пошукових систем. Те, що вони використовують різні алгоритми рейтингування, нам на користь – це дає шанс не пропустити якийсь значущий ресурс.

Усі пошукові показники реалізують декілька алгоритмів пошуку. До них відносяться:

1) Простий пошук. При простому пошуку в поле запиту вводиться одне або декілька слів, які можуть характеризувати зміст документу. Якщо це слово одне, то, як правило, у відповідь видається така велика кількість посилань, з якою незрозуміло що робити. Якщо вводиться декілька слів, то результат залежить від того, як ці слова введені, а це, своєю чергою, залежить від конкретної використовуваної системи.

2) Розширений пошук. Завжди має на увазі запит із групи слів. Основна перевага розширеного пошуку полягає в тому, що, як правило, записи ключових слів і логічних операторів в різних системах або однакові, або дуже схожі. Тому, засвоївши один раз прийоми розширеного пошуку, можна ними користуватися де завгодно. Потрібно тільки заздалегідь перемкнути систему в потрібний режим.

3) Контекстний пошук. При контекстному пошуку потрібний точне співпадіння фрази або групи слів.

4)Спеціальний пошук. За допомогою команд спеціального пошуку розшукують додаткову інформацію. Наприклад, такі команди дозволяють визначити, як часто в Мережі зустрічаються гіперпосилання, що вказують на який-небудь ресурс, з їх допомогою можна знайти ключові слова, що входять в заголовки Web -сторінок тощо.

Популярні пошукові системи:

1) Англомовні і міжнародні: A9 (належить компанії Amazon і працює на механізмі Google); ALLhave; Alltheweb FAST-Engine; Ask.com; Bing; Google; LightStorage (LookForMp3); Yahoo! (Overture; Inktomi; AltaVista)

2) Українські: Шукалка; ALLhave; bigmir)net; META (meta); UAportal; LightStorage (LookForMp3); UKR.NET (працює на Google, Яндексі, Bing); I.UA (Працює на Яндексі); ONLINE.UA (Працює на Google).

3) Російські: Aport; Mail.Ru; Rambler; Яндекс; nigma.ru.

За даними компанії Net Applications у квітні 2010 року використання пошукових систем на Заході разподілилось так:

Google – 86,30 %

Yahoo – 5,30 %

Bing – 3,13 %

Baidu – 3,02 %

Yandex – 1,7 %

Ask – 0,67 %

AOL – 0,44 %

MSN Search(Bing) – 0,08 %

AltaVista – 0,07 %

Excite – 0,03 %

Lycos – 0,02 %

AlltheWeb – 0,01 %

У цей звіт не входять українські пошуковики, такі як, наприклад, META.

 





sdamzavas.net - 2020 год. Все права принадлежат их авторам! В случае нарушение авторского права, обращайтесь по форме обратной связи...