پیاده سازی تجسس در سرقت ادبی مبتنی بر متن، Text Plagiarism

نکته ی مهم در تشخیص سرقت ادبی تعیین و ارزیابی بخش های مشابه متن همراه با ارائه مستندات می باشد. یکی از مشکلات اصلی این امر در این واقعیت است که متن دوباره استفاده شده معمولا با هدف پوشش و یا استتار سرقت ادبی تغییر یافته است. مشکل دیگر این است که همه ی بخش های متن مشابه، نمونه هایی از سرقت ادبی نیستند زیرا انطباقات موضوعی نیز تمایل به تولید بخش هایی از متن مشابه دارند. به منظور مقابله با این مشکلات، ما یک روش جدید برای تشخیص بخش سرقت شده از متن ارائه کرده ایم.

این روش قادر به تشخیص اقدامات متداول میان سارقان آثار ادبی می باشد مانند حذف کلمه، درج و جابجایی، همچنین این روش میزان بخش های قابل قبول در متن تقلبی را مشخص می کند. ما همچنین متن تقلبی معینی را پیشنهاد می کنیم که همراه با مجموعه ای از ویژگی هایی است که دلالت بر درجه ی سرقت ادبی، ارتباط و قطعه قطعه کردن متن دارد. هدف از این ارائه ی جدید تسهیل در به رسمیت شناختن سرقت ادبی با توجه به ویژگی های متنوع متن دوباره استفاده شده در مرحله ی طبقه بندی است. نتایج تجربی یک استراتژی طبقه بندی شده ی نظارتی را اتخاذ می کنند که نشان دهنده ی توانایی بهتر این روش نسبت به روش های قدیمی است.

 

اجرای پیاده سازی

 


تعیین و تشخیص متن مجددا استفاده شده جهت تشخیص سرقت ادبی

 

سرقت آثار ادبی به عنوان سرقت فکری شناخته شده است: شامل استفاده از کلمات (ایده) دیگران و ارائه آنها به ایده ی عنوان خود می شود. امروزه با توجه به فن آوری های فعلی برای ایجاد و انتشار اطلاعات الکترونیکی، ارائه ی یک سند جدید با کپی کردن بخش هایی از منابع مختلف استخراج شده از وب بسیار ساده است. این وضعیت موجب رشد پدیده ی سرقت ادبی شده است و همان زمان ابزاری تشخیص خودکاری جهت تقلبی بودن اسناد می باشد.

به تازگی ناشران زیادی از جمله Elsevierو Springer علاقه و نگرانی خودشان را جهت مبارزه با سرقت ادبی نشان داده اند (باتلر، 2010). از این رو، با استفاده از یک نرم افزار به نام Crosscheck، آنها مقالاتی با هدف پیدا کردن کلمه به کلمه و یا بخش های مشابه متن ارائه کردند که قبلا در مقالات منتشر شده موجود بوده است. چندین آزمایشی که با استفاده از نرم افزار Crosscheck و در مجلات مختلف انجام شده است نشان داد که از 6 تا 23 درصد مقالات ارائه شده باید مردود می شدند زیرا شامل میزان قابل توجهی از سرقت ادبی بوده اند. اگر چه Crosscheck قادر به کشف سارقان ادبی می باشد اما این نرم افزار به پیدا کردن نتایج کاذب مستعد است زیرا تشابهات بین اسناد را تنها با در نظر گرفتن یک درصد از تک واژه ها تعیین می کند.

در این مقاله ما با تعیین بخش های متن تقلبی نسبت به سند اصلی، بر روی مشکل تمیز دادنسرقت آثار ادبی از اسناد مشکوک به سرقت ادبی تمرکز کرده ایم. ما فرض می کنیم که سرقت ادبی با استفاده مجدد از برخی بخش های متن همراه است که نمی تواند به عنوان دانش مشترک در نظر گرفته شود.در عمل ما پیدا شدن شباهت های بین یک سند تقلبی و یک سند اصلی را بیش از یک تصادف اتفاقی در نظر می گیریم که به احتمال زیاد نتیجه به کپی برداری می دهد.

این یک کار بسیار پیچیده است زیرا متن تقلبی معمولا با هدف پوشش و یا استتار سرقت ادبی تغییر یافته است. تا به امروز، بسیاری از روش ها تنها به بخشی از این موضوع با ارزیابی میزان شباهت واژگانی و ساختاری اسناد با توجه به انواع مختلف ویژگی ها اشاره کرده اند از قبیل تک واژه ها ، زیر رشته هایی با طول ثابت، زیر رشته هایی با طول متغیر، روابط وابستگی و یا ترکیبی از آنها. اشکال اصلی این روش ها طبقه بندی تنها با توجه به اطلاعات مربوط به میزان همپوشانی اسناد مشکوک با منبع آن است. بنابراین، این استراتژی ها تحت تاثیر مکاتبات موضوعی اسناد هستند که حاکی از وجود توالی کلمه های خاص مشترک است و به عنوان نتیجه باعث برآورد های غلط می شود.

به منظور مقابله با مشکل بالا ما یک رویکرد جدید برای پیدا کردن بخش های متن دوباره استفاده شده ارائه کرده ایم. روش ما شاخص بازنویسی نام دارد و اختصاص به وزن هر کلمه ی موجود در سند مشکوک دارد که میزان تعلق آن را به بخش متن سرقت ادبی توصیف می کند. به این ترتیب، روش ارائه شده قادر به بررسی متنی است که دچار تغییراتی مانند حذف کلمه، درج و جابجایی شده است و اجازه می دهد تا یک تطبیق نسبی بین اسناد برقرار شود. علاوه بر این، ما اطلاعات بیشتری را در طول فرآیند طبقه بندی اسناد در نظر می گیریم.

ایده ما این است که ارتباط بخش هایی از متن تقلبی را مشخص کنیم. ما مجموعه ای از ویژگی ها را در نظر می گیریم که نشان دهنده ی تکرار وقوع بخش هایی از متن تقلبی و همچنین توزیع طول آنها می باشد. فرضیه ما این است که هرچقدر بخش های متن تقلبی بزرگتر باشد و کمتر تکرار شود، شواهد بیشتری از سرقت ادبی ظاهر می شود. به عبارت دیگر، ما تکرار بخش های متن تقلبی را مرتبط با اصطلاحات خاص ، و بخش های کوچکتر در نظر می گیریم که احتمالا تصادفی خواهد بود و بنابراین آنها یک نمونه ی مشخص از سرقت ادبی نیستند.

ارزیابی تجربی روش ارائه شده بر روی زیر مجموعه از نویسه های METER و پاسخ های کوتاه سارقان ادبی انجام شده است. ما تشخیص سرقت ادبی را به عنوان یک مشکل طبقه بندی کرده ایم.هدف این بود که نشان دهیم استفاده از روش شاخص بازنویسی و توصیف آنها با مجموعه ای از ویژگی ها جهت دستیابی به عملکرد بهتر تشخیص اسناد سرقت ادبی و غیر سرقتی تنها با توجه به میزان همپوشانی ممکن است.

بقیه مقاله به شرح زیر سازماندهی شده است. بخش 2 برخی از کارهای اخیر را در رابطه با تشخیص سرقت ادبی ارائه کرده است. بخش 3 الگوریتم پیشنهادی را برای پیدا کردن بخش هایی از متن تقلبی و همچنین تعریف رسمی ویژگی های پیشنهادی را توضیح می دهد. بخش 4 پیکربندی تجربی به دست آمده در دو مجموعه آزمون را ارائه می کند. در نهایت، بخش 5 نتیجه گیری های ما را جهت تحقیقات آینده به تصویر می کشد.