دانلود پایان نامه ارشد : پایان نامه نظرکاوی در متون/:جستجو و یافتن متون هدف

چالش‌ها و کارهای مرتبط با حوزه‌ی کاوش در نظرات

2-2-1. شناسایی شخص صاحب نظر

بدلایل مختلف اطلاع از هویت شخص اظهار‌نظر کننده می‌تواند حائز اهمیت باشد. به عنوان مثال لحاظ کردن میزان تجربه و تخصص شخص در رابطه با موضوع می‌تواند در جهت تعیین میزان ارزش آن اظهار نظر کمک‌کننده باشد، یا سابقه‌ی شخص می‌تواند برای شناسایی نظراتی که با اهداف جانبدارانه جعل و منتشر می‌شوند بکار گرفته شود. [3]، [4]، و [5] نمونه‌هایی از کارهای انجام‌شده در این رابطه هستند.

 

2-2-2. تشخیص هدف نظر[1] اظهار‌شده

مطمئناً اطلاع از نظرات افراد بدون آن‌که بدانیم این نظرات در رابطه با چه چیز‌هایی بیان شده‌اند استفاده‌ی چندانی در مقایسه با زمانی که دقیقا از هدف اظهار نظر مطلع باشیم ندارد. بنابراین کشف هدفی که مقصود اظهارنظر بوده است دارای اهمیت ویژه‌ای است. در مطالعات [6]، [7]، [8]، [9]، و [10] در این رابطه کار‌ شده است. در [6] از اطلاعات زبان‌شناسی مربوط به چگونگی بیان رابطه‌ی بین موضوع و عقیده‌ی اظهار‌شده در رابطه با آن موضوع استفاده شده است. [7] به مطالعه‌ی این موضوع در متون خبری به زبان اردو پرداخته است. در [8] با دریافت هدف توسط پرس‌و‌جو، از مشخصه‌های مرتبط با آن هدف استفاده کرده و گرایش توییت‌ها[2] در سایت توییتر[3] نسبت به آن هدف شناسایی می‌شوند. (توییتر یک شبکه‌ی اجتماعی است که در آن کاربران نظرات و متون خود را به‌صورت کوتاه در رابطه با موضوعات دلخواه ارائه می‌کنند. به این متون کوتاه که از نظر طول محدود هستند توییت گفته می‌شود).

 

2-2-3. درجه‌بندی نظر[4]

برخی اوقات که کاربران به اظهار‌نظر درباره‌ی کالایی می‌پردازند علاوه‌بر اظهار‌نظر متنی امکان تعیین درجه یا امتیاز نیز برای آن کالا توسط آن‌ها وجود دارد (مثلا دادن 3 ستاره از 5 ستاره به یک کتاب). استخراج درجه‌ی گرایش نظر (مثلا میزان رضایت یا عدم رضایت) علاوه‌بر تعیین صرفاً مثبت یا منفی بودن نظر می‌تواند کمک کننده باشد. کار‌های [11]، [12]، و [13] به این موضوع پرداخته‌اند. در [11] و [12] به تعیین درجه برای اظهارنظر‌های جزئی مختلف انجام گرفته در متن یک اظهار‌نظر پرداخته شده است (مثلا تمیزی، قیمت، و … برای یک اظهار‌نظر در رابطه با یک هتل).

 

2-2-4. جستجو و یافتن متون هدف

بسته به کاربردی که مورد‌نظر است بخش‌های خاصی از متون وب مورد بررسی قرار خواهند گرفت و مورد‌نیاز خواهند بود. طبعاً یافتن و جمع‌آوری اسناد حاوی متون مطلوب دارای اهمیت است. از جمله عملیات لازم برای تفکیک بین اسناد عبارتند از :

 

2-2-4-1. تشخیص موضوع[5]

تشخیص موضوع متون در هنگامی که به‌دنبال نظرات در حوزه‌ی خاصی هستیم ممکن است کمک‌کننده باشد (به‌عنوان مثال تشخیص متونی که در رابطه با گوشی تلفن‌همراه هستند، هنگامی که به بررسی نظرات کاربران در رابطه با این کالا می‌پردازیم). این موضوع به‌خصوص در‌صورتی که قبل از واکشی[6] اسناد از وب انجام شود، از نقطه‌نظر صرفه‌جویی در منابع حائز اهمیت است. [14] مطالعه‌ای در‌رابطه‌با مشخصه‌ها و الگوریتم‌های استفاده‌شده برای تشخیص موضوع بر اساس آدرس یکتای اسناد تحت وب[7] است که در صورت موفقیت نیاز به واکشی را از بین می‌برد.

 

2-2-4-2. تشخیص زبان[8]

زبان متون هم یکی دیگر از معیار‌های جداسازی اسناد است و ممکن است تنها نظرات اظهار‌شده به یک زبان خاص مورد‌نظر باشند، لذا تشخیص اسنادی که به یک زبان خاص باشند (خصوصا قبل از واکشی اسناد) حائز اهمیت است. در [15] به مطالعه‌ی تشخیص زبان بر اساس آدرس اسناد تحت وب و بدون نیاز به واکشی آن‌ها پرداخته شده است.

 

2-2-4-3. تشخیص وجود نظر[9]

تشخیص وجود یا عدم وجود نظر به منظور جداسازی متونی که حاوی نظر و گرایش هستند از متونی که این‌چنین نیستند نیز از مباحثی است که در مورد مطالعه قرار گرفته است. از جمله‌ی مطالعاتی که در آن‌ها به این بحث پرداخته شده است می‌توان به [16]، [17]، و [18] اشاره کرد.

 

2-2-5. سطح مطالعه‌ی گرایش احساس

تعیین گرایش احساس اظهار‌نظر در تحقیقات انجام‌گرفته در سطوح مختلفی انجام گرفته است به این معنی که گاهی گرایش مثبت یا منفی یک سند یا نظر به‌طور یکجا مورد بررسی قرار گرفته است (سطح سند[10]) مثل کارهای [19] و [20]، گاهی این موضوع برای جملات مورد مطالعه بوده است (سطح جمله[11]) مثل کارهای [21] و [22]، و گاهی نیز برای جنبه‌های یک شیء تعیین شده است مثل کارهای [23] و [24].

 

2-2-6. منابع لغوی

یکی از کار‌هایی که برای کمک به تشخیص گرایش احساس انجام گرفته است تهیه‌ی منابع لغوی متعددی است که حاوی مجموعه‌ای از لغات هستند و اطلاعاتی در رابطه با گرایش آن‌ها را در خود دارند. از جمله‌ی این مطالعات می‌توان به [25] و [26] اشاره کرد. در این دو تحقیق (که دومی مکمل اولی است)، به دسته‌های لغات در یکی از منابع لغوی شناخته‌شده[12] امتیازاتی نسبت داده شده است که گویای کیفیت مثبت، منفی، یا خنثی بودن آن‌ها است.

[1] Opinion Target

[2] Tweet

[3] Twitter

[4] Opinion Rating

[5] Topic Detection

[6] Fetch

[7] URL

[8] Language Detection

[9] Opinion Detection

[10] Document Level

[11] Sentence Level

[12] WordNet

لینک جزییات بیشتر و دانلود این پایان نامه:

رهیافتی برای نظرکاوی در متون خبری فارسی