سیستم توصیه گر (Recommender System) قسمت 3
7 تکنیک هیبریداسیون
- وزنی (Weighted): امتیازاتی که توسط اجزای توصیه گر متفاوت داده می شود، بصورت عددی با یکدیگر ترکیب می شوند.
- راه گزینی (Switching): سیستم از بین اجزای توصیه گر انتخاب کرده، و جزء انتخابی را به کار می گیرد.
- مخلوط (Mixed): پیشنهادات توصیه گر های متفاوت، با هم ارائه می گردند.
- ترکیب خصوصیات (Feature Combination): ویژگی های بدست آمده از منابع شناختی متفاوت، با یکدیگر ترکیب شده و یک الگوریتم پیشنهادی مجرد را ارائه می دهد.
- تقویت خصوصیات(Feature Augmentation): یک فن توصیه، برای محاسبه ی یک ویژگی یا مجموعه ای از خصوصیات به کار برده می شود، که بخشی از ورودی تکنیک بعدیست.
- آبشار(Cascade): به توصیه گرها اولویت اکید داده می شود؛ انهایی که از اولویت پایین تر برخوردارند برای به ثمر رساندن آنهایی که اولویت بالایی دارند، نادیده گرفته شوند.
- Meta-level: یک تکنیک توصیه بکار برده شده و تعدادی مدل ایجاد می کند که پس از آن بعنوان ورودی تکنیک بعدی مورد استفاده قرار می گیرد.
سیستم توصیه گر شخصیت محور:
رهیافتی جدید که از بوتنر (Buettner) نشأت گرفت. او “توصیه گر محصول شخصیت محور” (Personality-based product recommender(PBPR)) را مطرح کرد، چارچوبی که داده های شبکه اجتماعی را تحلیل می کند تا شخصیت کاربر را پیش بینی کرده و از شخصیت کاربر پی به تمایلات او برد.
فراتر از دقت
معمولاً پژوهش در باب سیستم های توصیه گر، از بابت یافتن دقیق ترین الگوریتم های پیشنهاد، نگران است.
- تنوع (Diversity): زمانیکه لیستی بلند بالا و متنوع از پیشنهادات ارائه گردد، موجب رضایت بیشتر کاربر میشود، برای مثال آیتم هایی از هنرمندان مختلف.
- اصرار توصیه گر (Recommender persistence): در برخی موارد، دوباره نشان دادن توصیه ها یا اینکه رتبه بندی دوباره ی آیتم ها توسط کاربر، بسیار مؤثر تر از نشان دادن آیتم های جدید است. مثلاً، ممکن است کاربران در دفعه اول وقت کافی برای بررسی دقیق پیشنهادات نداشته اند.
- حریم خصوصی(Privacy): معمولاً سیستم های توصیه گیر در رابطه با مسئله حریم خصوصی نگران هستند، چرا که کاربران مجبور به فاش کردن اطلاعات حساس هستند. ایجاد پروفایل کاربران با استفاده از پالایش گروهی می تواند از نقطه نظر حریم خصوصی، مشکل آفرین باشد. بسیاری از کشورهای اروپایی رسومی بسیار غنی از حریم خصوصی دارند، و هر تلاشی که منجر به معرفی سطحی از مشخصات کاربر شود، با عکس العمل منفی مشتری روبرو می شود. با پیشنهاد نت فلیکس برای رقابت جایزه نت فلیکس (Netflix Prize) مسائلی در رابطه با حریم خصوصی در حیطه ی مجموعه اطلاعات بوجود آمد. گرچه برای حفظ حریم خصوصی مشتری، مجوعه داده ها ناشناس بودند، در سال 2007 دو محقق از دانشگاه تگزاس با انطباق مجموعه ی داده هایی که از امتیاز دهی فیلم ها و از Internet Movie Database بدست آمده بود، توانستند کاربران را شناسایی کنند. در سال 2009 کاربر ناشناس نت فلیکس، نت فلیکس را در Doe v. Netflix شکایت کرد و مدعی شد که نت فلیکس قوانین تجارت عادلانه ی ایالات متحده و قانون حفاظت از حریم خصوصی ویدئو (Video Privacy Protection Act) را با پخش مجموعه ی داده ها، نقض کرده است. این ادعا در بخشی منجر به حذف دومین رقابت جایزه نت فلیکس سال 2010 گردید. در این مدت تحقیقات زیادی در زمینه حریم خصوصی انجام گرفته است. راماکریشنان و همکاران، در مورد موازنه ی شخصی سازی و حریم خصوصی تحقیق گسترده ای را انجام داده و دریافتند که از ترکیب روابط ضعیف (یک ارتباط غیر منتظره که بصورت اتفاقی پیشنهادات خوب و جالبی را ارائه می دهد) و دیگر منابع اطلاعاتی می توان برای کشف هویت کاربران در یک مجموعه داده ی ناشناس استفاده کرد.
- جمعیت شناختی کاربر (User demographics): بیل وهمکاران، دریافتند که اطلاعات جمعیت شناختی کاربران می تواند بر میزان رضایت مندی آنها از پیشنهادات ارائه شده، تأثیر گذار باشد. آنها در مقاله خود نشان دادند که کاربران مسن تر بیشتر از کاربران جوان، علاقه مند به توصیه های ارائه شده هستند.
- نیرومندی (Robustness): زمانیکه کاربران بتوانند در سیستم توصیه گر مشارکت کنند، مسئله کلاهبرداری بایستی مورد توجه قرار گیرد.
- سرندی پیتی (یافتن تصادفی)(Serendipity): سرندی پیتی مقیاسی است که نشان می دهد، پیشنهادات چقدر شگفت انگیز و تعجب آور هستند. برای مثال، سیستم توصیه گری که در یک بقالی خرید شیر را به مشتری پیشنهاد می دهد، گرچه ممکن است پیشنهاد دقیقی باشد ولی پیشنهاد خوبی نیست، چرا که “خرید شیر” برای مشتری امری واضح و روشن است و نیازی به پیشنهاد ندارد.
- اعتماد (Trust): سیستم توصیه گری که کاربر به آن اعتماد نداشته باشد، از ارزش بسیار پایینی برخوردار است. اعتماد توسط سیستم توصیه گر و با توصیف چگونگی ایجاد پیشنهادات و علت پیشنهاد یک آیتم، ایجاد میگردد.
- برچسب گذاری (Labelling): بر چسب گذاری پیشنهادات ممکن است رضایت مندی کاربر را تحت تأثیر قرار دهد. برای مثال در مطالعه ای نرخ کلیک(click-through rate(CTR)) برای پیشنهاداتی که برچسب ” ضمانت” داشتند (CTR=5.93%) کمتر از حالتی بود که همان پیشنهادات برچسب “ارگانیک” داشتند (CTR=8.86%). نکته قابل توجه اینجاست؛ پیشنهاداتی که هیچ برچسبی نداشتند از نرخ کلیک بالاتری برخوردار بودند (CTR=9.87%).
سیستم توصیه گر سیار
تحقیق در حوزه ی سیستم های توصیه گر سیار، یکی از حیطه های تحقیقاتی در حال رشد در زمینه ی سیستم های توصیه گر است. با افزایش دسترسی اسمارت فون ها به اینترنت و همه گیر شدن آن، ارائه پیشنهادات شخصی سازی شده و حساس به محیط ممکن شده است. از آنجاییکه اطلاعات سیار بسیار پیچیده تر از داده هایی است که سیستم های توصیه گر با آن درگیر بوده اند، تحقیقات در این حیطه به مراتب دشوارتر است (مسائلی که این حیطه با آن روبروست: ناهمسانی، پر سر و صدایی، نیاز به همبستگی خودکار مکانی و زمانی ، و نیز مشکلات تأیید و عمومیت دارد). علاوه بر این سیستم های توصیه گر سیار از مشکلات جابجایی نیز متضرر هستند، چرا که ممکن است پیشنهادات ارائه شده در تمامی مناطق بکار نیاید (برای مثال، پیشنهاد یک دستور غذایی که همه ی اجزایش را نمی توان در آن منطقه فراهم کرد، پیشنهادی نابخردانه است).
سیستمی که پیشنهاد کننده مسیرهای ایده آل برای رانندگان شهریست، یک نمونه از سیستم های توصیه گر سیار است. این سیستم داده های خود را از طریق ردیابی GPS راههایی که تاکسی پیموده است، بدست می آورد که این داده ها عبارتند از؛ مکان یابی (طول و عرض جغرافیایی)، نشان دادن زمان و وضعیت اجرایی (با مسافر یا بدون مسافر). سیستم از این داده ها برای بهینه سازی زمان صرف شده برای هر مسافر (یعنی با پیشنهاد ایده آل ترین راه، مدت زمانی که مسافر در تاکسی است به کمترین میزان خود برسد) و عاید کردن سود بیشتر برای راننده تاکسی، بهره می گیرد. این نوع سیستم، وابسته به مکان است، و از آنجاییکه در دستگاههای دستی یا جاساز شده استفاده می شود نیاز محاسباتی و انرژی آن بایستی در سطح پایینی نگه داشته شود.
نمونه ای دیگر از سیستم های توصیه گر سیار، سیستمی است که برای کاربران متخصص توسعه داده شده است (بونفوف و همکاران، 2012). این سیستم با ردیابی GPS کاربر و برنامه ی کاری او، بهترین اطلاعات و پیشنهادات را بسته به موقعیت و علایق وی، ارائه می دهد. این سیستم، از فنون یادگیری ماشینی و پردازش استدلالها برای ایجاد یک سازگاری پویا بین سیستم توصیه گر سیار با سیر تحولی علایق کاربر ، بهره می برد. بانی این الگوریتم نام آن را hybrid-ε-greedyگذاشته است.
سیستم های توصیه گر سیار همچنین”Web of Data” را به عنوان منبعی برای اطلاعات ساختاری، ایجاد کرده اند. یک مثال خوب از این سیستم ها ” “SMARTMUSEUM است. این سیستم حتی زمانیکه اطلاعات کمی از کاربر ارائه شده باشد با استفاده از مدل سازی معنایی، بازیابی اطلاعات و فنون یادگیری ماشینی اقدام به توصیه ی محتوای مطابق با علایق کاربر می کند.
سیستم توصیه گر آگاه از ریسک
تمرکز عمده رهیافت های موجود بکار گرفته شده در سیستم های توصیه گر ارائه ی مرتبط ترین محتوا برای کاربران است و ریسک برآشفتن کاربر در شرایط خاص را به حساب نمی آورند. با این وجود در بسیاری از اپلیکیشن ها (مانند پیشنهاد محتوای شخصی سازی شده) ریسک پریشان کردن کاربر نیز مهم تلقی شده و از تحمیل پیشنهادات در شرایط خاصی همچون یک جلسه ی تخصصی، صبح زود یا دیر وقت ممانعت می شود. از این رو عملکرد سیستم توصیه گر در بخشی به درجه ای از ریسکی که در فرایند پیشنهاد دهی لحاظ می کند، بستگی دارد.
تعریف ریسک
در سیستم های توصیه گر واژه ی “ریسک” به احتمال ایجاد مزاحمت یا پریشان کردن کاربر که منجر به عکس العمل نامناسب وی شود، اطلاق می گردد.
در پاسخ به این چالش ها، جمعی از محققان یک سیستم توصیه گر پویا و حساس به ریسک DRARS(Dyanamic Risk-Aware Recommender system) را ابداع کردند که توصیه ی زمینه ی آگاه (context – aware) را همچون یک “مسئله ی راهزن” (bandit problem) مدلسازی کرده است. این سیستم یک تکنیک محتوا محور را به یک الگوریتم “راهزن متنی” (Contextual bandit) ترکیب کرده است. این محققان نشان دادند که DRARS با محاسبه ی بهینه ترین ارزش اکتشافی برای حفظ توازن بین اکتشاف و بهره برداری مبتنی بر سطح ریسک موقعیت کاربر، موجب بهبود خط مشی “اعتماد به نفس حد بالا” (Upper Confidence Bound(UCB)) می شود. این محققان آزمایشات خود را در یک زمینه صنعتی و با داده ها و کاربران واقعی اجرا کرده و نشان دادند که اهمیت دادن به سطح ریسک موقعیت کاربران، قدرت اجرای سیستم های توصیه گر را افزایش می دهد.
جایزه نت فلیکس
یکی از وقایعی که به تحقیقات سیستم های توصیه گر انرژی مضاعفی بخشید، جایزه نت فلیکس بود. از سال 2006 تا سال 2009 میلادی نت فلیکس اسپانسر رقابتی بود که در آن جایزه ی 1000000 دلاری به گروهی تعلق می گرفت که بتواند مجموعه ی داده ای با بیش از 100 میلیون فیلم رتبه بندی شده ارائه دهد به نحوی که بازخورد پیشنهادات 10 درصد، دقیق تر از نرم افزار موجود نت فلیکس باشد (در ارائه پیشنهادات، 10 درصد دقیق تر از نت فلیکس عمل کند). این رقابت به امر تحقیق جهت یافتن الگوریتم های جدید و دقیق تر، انرژی مضاعفی بخشید. در 21 سپتامبر 2009 جایزه یک میلیون دلاری با رعایت قانون”tiebreaking” (قانونی که در صورت مساوی شدن رقبا، طرف برنده را تعیین می کند) به تیم Bellkor’s pragmatic Chaos اهدا گردید.
در سال 2007 ترکیبی از 107 رهیافت الگوریتمی متفاوت، منجر به ایجاد دقیق ترین الگوریتم پیش بینی گردید:
زمانیکه چندین سیستم پیشگویی با یکدیگر ترکیب شوند، دقت پیشگویی به طور قابل ملاحظه ای افزایش می یابد. تجربه ی ما اینست که بیشتر تلاشها بایستی بر حصول رهیافت های مختلف معتبر متمرکز می شد نه پالایش یک تکنیک مجرد. در نتیجه راه حل ما نیز حاصل جمع آثار مجموعه ای از روش هاست.
مزایای بسیاری بخاطر پروژه نت فلیکس عاید وب شد. تعدادی از تیم فن آوریشان را گرفته و در دیگر بازارها بکار گرفتند. اعضای تیمی که به مقام دوم رسیدند یک موتور توصیه گر به نام Gravity R&Dایجاد کردند که در جامعه RecSys فعال است. 4-Tell، Inc راه حلی را که از پروژه نت فلیکس بدست آورده بودند در وبسایت های تجارت الکترونیک بکار بردند.
مسابقه ی دوم نیز طراحی شد اما نهایتاً در عکس العمل به طرح دعوایی در دادگاه و ابراز نگرانی از “کمیسیون تجارت فدرال” (Federal Trade Commission) لغو گردید.
سنجش عملکرد
در تشخیص تأثیر الگوریتم های توصیه، ارزیابی امری بسیار مهم است. متریک های معمول استفاده شده در ارزیابی الگوریتم ها، میانگین مربعات خطا و ریشه ی میانگین مربعات خطا می باشد که مورد آخر در جایزه ی نت فلیکس مورد استفاده قرار گرفت. متریک های بازیابی اطلاعات مثل معیار دقت و بازیابی یا DCG جهت ارزیابی کیفیت یک روش پیشنهادی، سودمند و کارا هستند. اخیراً تنوع، نوآوری و پوشش نیز به عنوان جنبه های مهم ارزیابی در نظر گرفته می شوند. هر چند که بسیاری از اندازه گیری های ارزیابی کلاسیک، شدیداً مورد انتقاد قرار گرفته اند. اغلب، نتایج ارزیابی های به اصطلاح آفلاین، با تشخیص واقعی رضایت کاربر هم خوانی ندارد. نویسندگان بیان کردند”ما بایستی در نتایج ارزیابی های افلاین (یا همان اندازه گیری های کلاسیک) تردید می کردیم”.
سیستم توصیه گر چند معیاره
سیستم های توصیه گر چند معیاره (MCRS) به عنوان سامانه هایی توصیف می شوند که سلایق را در چند معیار با هم متحد می سازند. به جای توسعه ی فنون پیشنهادی مبتنی بر ارزش های تک معیاره، تمامی سلایق کاربر در نظر گرفته می شود. این سیستم ها تلاش می کنند تا رتبه بندی آیتم های ناشناخته توسط کاربر را، پیش بینی کنند. این امر با بهره گیری از اطلاعات سلیقه ای و براساس معیارهای چند گانه که تمامی ارزش های سلیقه ای را تحت تأثیر قرار می دهد، ممکن شده است. چندین محقق MCRS را به عنوان یک مسئله ی تصمیم گیر چند معیاره (MCDM) در نظر گرفته و فنون و روش های MCDM را برای اجرای سیستم های MCRS بکار گرفته اند.
منابع:
fa.wikipedia.org
دیدگاه خود را ثبت کنید
تمایل دارید در گفتگوها شرکت کنید؟در گفتگو ها شرکت کنید.