سرفصل مطالب:
- 0.1 الگوریتم های کاوش ساختار وب:
- 0.2 کاربردهای کاوش ساختار وب
- 0.3
- 0.4 انواع داده های استفاده از وب
- 0.5 روش های کاوش استفاده از وب
- 0.6 کاربردهای کاوش استفاده از وب
- 1 کاربردهای وب کاوی
- 1.1
- 1.2 تجارت الکترونیکی: مانند سایت آمازون. یک نمونه از سایت های تجاری که از تکنیک های وب کاوی همچون استخراج ارتباط بین صفحات مشاهده شده توسط کاربر، تحلیل مسیر کلیک شده، … استفاده می کند، سایت Amazon است.
- 1.3 موتورهای جستجو: مانند گوگل. بیشتر موتورهای جستجو برای بازیابی صفحات مرتبط با پرس وجوی کاربر از محتوای صفحات وب استفاده می کنند. Google اولین موتور جستجویی بوده است که از ساختار پیوندها در وب و کاوش آن برای بازیابی و رتبه بندی صفحات استفاده کرده است. برای این منظور Google از الگوریتم Page Rank استفاده می کند.
- 1.4 حراجی در وب: مانند سایت ebay، این خاصیت وب که اشخاص در آن می توانند در آن اطلاعات واقعی خود را ارائه نکنند، برای ebay مشکلاتی به وجود آورده است، چرا که نمی توان بین پیشنهادهای واقعی و غیر واقعی تمایز قائل شد. ebayبرای حل این مشکل از تکنیک های وب کاوی استفاده کرده است.
وب کاوی یکی از زمینه های تحقیقاتی است که با به کارگیری تکنیک های داده کاوی به کشف و استخراج خودکار اطلاعات از اسناد و سرویس های وب می پردازد. در واقع وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از داده های وب می باشد. روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته کاوش محتوای وب، کاوش ساختار وب و کاوش استفاده از وب تقسیم می شوند.
کاربران وب در استفاده از آن با مشکلاتی مانند یافتن اطلاعات مرتبط، ایجاد دانش جدید با استفاده از اطلاعات موجود در وب و خصوصی سازی اطلاعات روبرو هستند. تکنینک های وب کاوی می توانند به صورت مستقیم یا غیر مستقیم برای حل این مشکلات به کار روند.
وب کاوی شامل چهار مرحله اصلی می باشد:
- پیدا کردن منبع: در مرحله اول داده ها از منابع موجود دروب مانند خبرنامه های الکترونیکی، گروه های خبری، اسناد HTML، پایگاه داده های متنی و … بازیابی می شوند.
- انتخاباطلاعات و پیش پردازش: مرحله انتخاب و پیش پردازش شامل هر گونه فرآیند تبدیل داده های بازیابی شده در مرحله قبل می باشد. این پیش پردازش می تواند کاهش کلمات به ریشه آنها، حذف کلمات زائد، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی داده ها به قالب رابطه ای یا منطق مرتبه اول باشد.
- تعمیم: در مرحله سوم از تکنیک های داده کاوی و یادگیری ماشین برای تعمیم استفاده می شود. همچنین باید توجه داشت که کاربران نقش مهمی در فرآیند استخراجاطلاعات و دانش از وب ایفا می کنند. این نکته به ویژه در مرحله چهارم از اهمیت بسزایی برخوردار است.
- تحلیل: در این مرحله الگوهای به دست آمده در مرحله قبل اعتبار سنجی و تفسیر می شوند.
انواع وب کاوی
روش های وب کاوی بر اساس آن که چه نوع داده ای را مورد کاوش قرار می دهند، به سه دسته تقسیم می شوند:
- کاوش محتوایوب: کاوش محتوای وب فرآیند استخراج اطلاعات مفید از محتوای مستندات وب است. محتوای یک سند وب متناظر با مفاهیمی است که آن سند در صدد انتقال آن به کاربران است. این محتوا می تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیست ها و جداول باشد. در این میان کاوش متن بیش از سایر زمینه ها مورد تحقیق قرار گرفته است. از جمله این تحقیقات می توان به تشخیص موضوع، استخراج الگوهای ارتباط، خوشه بندی و طبق بندی اسناد وب اشاره کرد. روش ها و تکنیک های موجود در این گروه، از تکنیک های بازیابی اطلاعات و پردازش زبان طبیعی نیز استفاده می کنند. هر چند در پردازش تصویر و بینایی ماشین تحقیقات زیادی در زمینه استخراج دانش از تصاویر انجام شده است، اما به کارگیری این تکنیک ها در کاوش محتوای وب چندان چشمگیر نبوده است.
کاوش محتوا در وب را می توان از دو دید بررسی کرد: از دید بازیابی اطلاعات و از دید پایگاه داده ها. هدف کاوش محتوا در وب از نقطه نظر بازیابی اطلاعات تسهیل یا بهبود فرایند جستجوی اطلاعات یا فیلتر کردن اطلاعات برای کاربران است. در حالی که از دید پایگاه داده ها هدف کاوش محتوا، ارائه مدلی از داده های وب و یکپارچه سازی آنها است به طوی که پرس و جوهای پیچیده تر از پرس و جوهای مبتنی بر کلمات کلیدی قابل پردازش باشند. کاوش محتوا از دید پایگاه داده ها سعی در بدست آوردن ساختار سایت وب و یا تبدیل سایت وب به یک پایگاه داده دارد.
سه رویکرد یا متدولوژی اصلی برای کاوش محتوا وجود دارد: رویکرد بالا به پایین، پایین به بالا و یا ترکیبی از این دو. این متدولوژی ها می توانند مستقیم یا غیر مستقیم باشند. به متدولوژی های مستقیم، یادگیری بانظارت و به متدولوژی های غیر مستقیم، یادگیری بدون نظارت نیز گفته می شود. تکنیک های کاوش محتوا، الگوریتم هایی هستند که برای کاوش به کار می روند. به نتایج حاصل از کاوش، انواع کاوش نیز گفته می شود. این نتایج معمولا شامل طبقه بندی، خوشه بندی، تشخیص موضوع و … می باشد.
- کاوش ساختاروب: وب را می توان به صورت گرافی که گره های آن اسناد و یال های آن پیوندهای بین اسناد است، بازنمایی کرد. کاوش ساختار وب، فرآیند استخراج اطلاعات ساختاری از وب می باشد. این نوع کاوش بر اساس آن که از چه نوع داده ساختاری استفاده می کند، به دو دسته تقسیم می شود:
- پیوندها: یک پیوند، یک واحد ساختاری است که یک صفحهوب را به صفحه دیگر یا به بخش دیگری از همان صفحه متصل می کند. به پیوند نوع اول، پیوند بین سند و به پیوند نوع دوم، پیوند درون سند گفته می شود. به این نوع کاوش ساختار وب که از پیوندها استفاده می کند، تحلیل پیوند گفته می شود.
- ساختار سند: محتوای یک صفحهوب می تواند بر اساس تگ های XML و HTML موجود در آن به صورت یک درخت بازنمایی شود. کاوش در این جا بر استخراج مدل شیئ سند متمرکز می شود. به این نوع از کاوش ساختار وب، تحلیل ساختار سند گفته می شود.
الگوریتم های کاوش ساختار وب:
HITS
Page Rank
الگوریتم جریان بیشینه
Average Clicks
کاربردهای کاوش ساختار وب
کاربردهای کاوش ساختار وب:
تعیین میزان کیفیت صفحات مرتبط با یک موضوع، طبقه بندی صفحات، پیمایش وب، پیدا کردن اجتماعات وب، طراحی سایت های تطبیقی و شخصی سازی صفحات
در توضیح موارد فوق باید ذکر کرد که منظور از اجتماع وب مجموعه ای از صفحات وب است که راجع به موضوعات مشابه هستند یا علایق مشترک ایجاد کنندگان این صفحات را منعکس می کنند. منظور از پیمایش وب این است که در پیمایش حجم وسیع صفحات وب بهتر است اول صفحاتی منعکس شوند که مرتبط با موضوع مورد نظر می باشند.
- کاوش استفاده ازوب: کاوش استفاده از وب، کاربرد تکنیک های داده کاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران می باشد. این نوع از وب کاوی، داده های مربوط به استفاده کاربران از وب را مورد کاوش قرار می دهد و به استخراج الگوهایی بامعنی از داده های تولید شده در تعامل بین کلاینت و سرورهای وب می پردازد. این نوع کاوش بر تکنیکهایی تمرکز دارد که رفتار کاربر را در زمان تعامل با وب پیشبینی میکند. دادهای که در این نوع کاوش مورد استفاده قرار میگیرد، دادههایی است که در نتیجه تعامل کاربران با وب ایجاد و نگهداری شدهاند.
انواع داده های استفاده از وب
داده های سرورهای وب
داده های سرورهای پراکسی
داده های کلاینت
روش های کاوش استفاده از وب
قوانین انجمنی
الگوهای ترتیبی
خوشه بندی
کاربردهای کاوش استفاده از وب
خصوصی سازی محتوای وب
پیش بازیابی
بهبود طراحی سایت های وب
باید توجه داشت که مرز مشخصی میان سه گروه وب کاوی وجود ندارد. به عنوان مثال تکنیک های کاوش محتوای وب می توانند علاوه بر به کارگیری متن مستندات، ازاطلاعات کاربران هم استفاده کنند. همچنین می توان از ترکیب تکنیک های فوق برای حاصل شدن نتایج بهتر استفاده کرد.
کاربردهای وب کاوی
تجارت الکترونیکی: مانند سایت آمازون. یک نمونه از سایت های تجاری که از تکنیک های وب کاوی همچون استخراج ارتباط بین صفحات مشاهده شده توسط کاربر، تحلیل مسیر کلیک شده، … استفاده می کند، سایت Amazon است.
موتورهای جستجو: مانند گوگل. بیشتر موتورهای جستجو برای بازیابی صفحات مرتبط با پرس وجوی کاربر از محتوای صفحات وب استفاده می کنند. Google اولین موتور جستجویی بوده است که از ساختار پیوندها در وب و کاوش آن برای بازیابی و رتبه بندی صفحات استفاده کرده است. برای این منظور Google از الگوریتم Page Rank استفاده می کند.
حراجی در وب: مانند سایت ebay، این خاصیت وب که اشخاص در آن می توانند در آن اطلاعات واقعی خود را ارائه نکنند، برای ebay مشکلاتی به وجود آورده است، چرا که نمی توان بین پیشنهادهای واقعی و غیر واقعی تمایز قائل شد. ebayبرای حل این مشکل از تکنیک های وب کاوی استفاده کرده است.
مراجع:
کتاب Mining of Massive Datasets
http://dl.acm.org/citation.cfm?id=979922
http://persiansun.persianmag.ir/post/1597/
هدی ابیضی
روش ها و کاربردهای مبحث وب کاوی