لینک کوتاه : https://magicfile.ir/?p=2619
دانلود دیتابیس دسته بندی واژگان برای داده کاوی
امروز در این پست برای شما کاربران عزیز وبسایت فایل سحرآمیز یک دیتابیس دسته بندی واژگان برای داده کاوی را آماده دانلود قرار داده ایم.
این فایل مورد نیاز عزیزانی می باشد که به تجزیه و تحلیل در واژگان فارسی می پردازند مناسب می باشد که با استفاده از این فایل که بصورت csv می باشد به داده کاوی بپردازید.
نمونه تصویر
دسته بندی این مجموعه
تحلیلگر مورفولوژیکی مبتنی بر FST برای این پروژه وجود دارد یک فایل واژگان FOMA برای هر بخش اصلی گفتار در بانک درخت دادگان. مجموعه کامل از دسته های بخش گفتار به شرح زیر است:
- ADJ: صفت
- ADR : شرایط آدرس
- ADV : قیدها
- CONJ: حروف ربط هماهنگ (کلاس بسته) IDEN: عنوان ها
- n : اسم ها
- PART : ذرات
- POSNUM: اعداد اسمی را ارسال کنید
- POSTP: پست پست
- PREM: Pre-Modifier
- PRENUM : اعداد پیش اسمی
- PREP: حروف اضافه
- PR : ضمایر
- PSUS: جملات شبه
- PUNC: علائم نگارشی
- SUBR: ربط فرعی
- V: افعال
دسته اصلی POS کلاس بسته :این دسته های کلاس بسته شامل ذرات ، پیش فرض ها ، ضمایر و علائم نگارشی ، درمیان دیگران. در حالی که دسته های عددی اعداد قبل از اسم و اعداد پس از اسماز نظر فنی کلاس باز هستند ، زیرا هر تعداد می تواند در این دسته ها گنجانده شود ، تجزیه و تحلیل برای این دسته ها به سادگی تعداد بدون تغییر را به عنوان لیم باز می گرداند ، بنابراین مقوله های عددی را می توان مانند دسته های کلاس بسته انجام داد .
چهار دسته اصلی POS کلاس باز وجود دارد: صفت ، قید ، اسمها و افعال. در واژگان صفت و ضرب المثل شامل مورفولوژی برای پسوندهای مقایسه ای و فوق العاده است
و مورفولوژی مشتق. واژگان اسم شامل تجزیه و تحلیل پسوندهای جمع ، پسوند نامشخص ، حصارکشی های مالکیت و مورفولوژی مشتق است. سرانجام ، واژگان فعل پیچیده ترین ، از جمله پیشوندهای منفی و پسوندهای تنش و جنبه ای برای متفاوت است
برای شما کاربران عزیز پیشنهاد دانلود داده می شود.