کتاب پردازش متن و گفتار فارسی منتشر شد

خبرگزاری میزان - کتاب پردازش متن و گفتار فارسی: مروری بر مبانی نظری و آخرین یافته‌های پژوهشی زیر نظر مهرنوش شمسی‌فرد عضو هیئت علمی دانشگاه شهید بهشتی و محمود بی‌جن‌خان عضو هیئت علمی دانشگاه تهران به همت سازمان مطالعه و تدوین کتب دانشگاهی در علوم اسلامی و انسانی (سمت) در سال جاری به بهای ۳۹۳ هزار تومان منتشر شد.

در پشت جلد این اثر در معرفی آن آمده است: در جهان کنونی، هر روزه حجم زیادی از اطلاعات در قالب محتوای زبانی و مستندات متنی یا فایل‌های صوتیِ گفتاری بر بستر وب و فضای مجازی عرضه می‌شود و به کمک ماشین‌های هوشمند، پردازش شده در اختیار کاربران قرار می‌گیرد. تولید، مدیریت و به کارگیری این محتوا مستلزم بهره‌مندی از دانش و فناوری‌های مرتبط با پردازش زبان و گفتار است.

کتاب حاضر به منظور ارائه گزارشی جامع و روزآمد از وضعیت پژوهشیِ جاری در حوزه پردازش متن و گفتار فارسی، به قلم جمعی از متخصصان این حوزه، تدوین شده است. این کتاب دارای دو قسمت پردازش متن و پردازش گفتار است و هر قسمت با بخشِ مرور منابع و زیرساخت‌های داده‌ای آغاز می‌گردد و پس از بررسی کار‌های انجام‌شده در توسعه ابزار‌ها و پردازش‌های پایه و میانی، به بخش کاربرد‌های سطح بالاتر ختم می‌شود. هر بخش شامل چند فصل است و هر فصل، به شکل یک مقاله مروری نوشته شده که ضمن مطالعه کار‌های گذشته، به تحلیل وضعیت حال می‌پردازد و با بیان مسائل بازِ حوزه، دریچه‌ای به آینده می‌گشاید.

محتوای کتاب طیف گسترده‌ای از مطالب، از به کارگیری و تطبیق آخرین دستاورد‌های جهانی این حوزه بر روی زبان و گفتار فارسی تا ابداع روش‌های خاص زبان فارسی، و ازمبانی نظری تا نتایج کاربردی را پوشش می‌دهد. این کتاب می‌تواند منبع مناسبی برای تمامیِ دانشجویان و محققانی باشد که در زمینه تولید منابع، ابزار‌ها و برنامه‌های کاربردی در حوزه پردازش متن و گفتار فارسی، پژوهش و فعالیت می‌کنند.
فهرست این اثر عبارت است از:
پیشگفتار
بخش اول: منابع و دادگان‌های متن محور و مدخل محور
بخش دوم: ابزار‌ها و پردازش‌های پایه و میانی متن
بخش سوم: تحلیل لغوی، نحوی و معنایی متون
بخش چهارم: حوزه‌های کاربردی پردازش متن
بخش پنجم: منابع و ابزار‌های پردازش گفتار
بخش ششم: حوزه‌های کاربردی پردازش گفتار

در بخشی از پیشگفتار این کتاب آمده است: این کتاب ابتدا در سه قسمت پردازش متن، پردازش گفتار و پردازش خط فارسی طراحی شد که در ویراست اول تنها دو قسمت از سه قسمت تدوین شده است. بدین ترتیب کتاب حاضر دارای دو قسمت پردازش متن و پردازش گفتار فارسی است و امید می‌رود قسمت پردازش خط و سایر موضوعاتی که به دلیل موانع موجود، در این ویراست، فصلی را به خود اختصاص نداده اند، در ویراست‌های بعدی، فصول جدید و مستقلی بیابند و به نسخه به روزشده فصول کنونی اضافه شوند.

در کتاب حاضر هر قسمت، با بخش زیرساخت‌های داده‌ای آغاز می‌گردد و پس از مرور کار‌های انجام شده در توسعه ابزار‌ها و پردازش‌های پایه و میانی، به بخش کاربرد‌های سطح بالاتر ختم می‌شود. هر بخش شامل چند فصل است، و در هر فصل، سعی بر آن بوده تا ضمن بررسی وضعیت موجود و تحلیلی از آن، افق‌های پیش رو و مسائل باز حوزه مربوط ترسیم و تبیین گردد. به بیان دیگر هر فصل که به شکل یک مقاله مروری درباره عنوان آن فصل، به قلم یکی از خبرگان و متخصصان موضوع نوشته شده، با مروری بر گذشته و تحلیلی بر حال، دریچه‌ای به آینده می‌گشاید.

بخش اول کتاب که به منابع زبانی و دادگان‌های متن محور و مدخل محور در پردازش متن اختصاص یافته، شامل پنج فصل است. فصل اول نگاهی کلی به منابع زبانی و پیکره‌های متنی و واژی دارد و جایی که به پیکره‌های مورد توجه در فصول دیگر می‌رسد صرفا به آن‌ها ارجاع می‌دهد تا حتی الامکان از تکرار مطالب پرهیز شود. در واقع فصل اول علاوه بر معرفی حوزه کار، خود پیوند دهنده فصول دیگر و درآمدی برای ورود به فصول دو تا پنج نیز هست. پنج فصل نخست به معرفی دادگان‌ها و منابع زبانی‌ای اختصاص داده شده اند که در ادامه کتاب در فصول مختلف مورد استفاده قرار می‌گیرند. معرفی و تشریح پیکرده‌های متنی و واژی زبان فارسی که با نشانه‌های صرفی، نحوی سازه‌ای و وابستگی، معنایی و گفتمانی غنی شده اند، در این فصول صورت گرفته است.

در بخش دوم، ابزار‌ها و پردازش‌های پایه و میانی متن معرفی می‌شوند. پیش پردازش‌های پایه که عمدتا برای هر کاربردی از متن استفاده می‌شوند، مانند واحدسازی، هنجارسازی، تحلیل ساخت واژی، بن واژه یابی و ریشه یابی، در فصل ششم مورد مطالعه قرار می‌گیرند. این فصل ضمن بیان مبانی نظری در این حوزه به بررسی و مقایسه ابزار‌های پیش پردازش موجود برای زبان فارسی خواهد پرداخت.

فصول هفتم تا دوازدهم به میان ابزار‌ها یا (پیش) پردازش‌های میانی اختصاص دارند. منظور از (پیش) پردازش‌های میانی پردازش‌هایی هستند که معمولا نه به عنوان یک کاربرد مستقل، بلکه به عنوان یک زیر وظیفه از وظایف یک برنامه کاربردی و در مراحل ابتدایی آن مورد استفاده قرار می‌گیرند، اما به اندازه پیش پردازش‌های پایه، ابتدایی و سطح پایین نیستند و الزاما در مراحل اولیه همه کاربردها، نیازی به آن‌ها نیست. بازشناسی موجودیت‌های نامدار جهت شناسایی اسامی افراد، سازمان ها، مکان ها، زمان ها، و مانند آن در متن، بازشناسی همه مرجع‌ها به منظور تشخیص مرجع ضمایر و همچنین شناسایی کلمات مختلفی که در متن به یک موجودیت واحد اشاره دارند، شناسایی اصطلاحات چند کلمه‌ای برای شناسایی اصطلاحات چند کلمه‌ای برای شناسایی افعال و کلمات مرکب و چند واحدی و اصطلاحات و عبارات زبانی و در آخر رده بندی متون در این دسته قرار می‌گیرند. همچنین فرایند‌هایی مانند تعبیه کلمات و ساخت بردار جاسازی آن‌ها در فضای برداری معنایی و استخراج مدل زبانی و همایند‌ها نیز وظایفی هستند که در این بخش به آن‌ها توجه می‌شود و برای بسیاری از کاربرد‌های ضروری اند.

در بخش سوم به تحلیل‌های لغوی، نحوی و معنایی متون پرداخته شده و فصولی در مورد خطایابی متن، تجزیه سازه‌ای و وابستگی جملات و معناشناسی رایانشی را دربرگرفته است. فصل سیزده که به خطایابی و استانداردسازی متون تخصیص یافته، به بررسی نظری و کاربردی خطایابی در زبان فارسی و معرفی و مقایسه سامانه‌های تهیه شده جهت ویرایش متون، استانداردسازی، خطایابی و اصلاح آن‌ها می‌پردازد. فصول چهارده تا شانزده به تجزیه نحوی جملات فارسی اختصاص دارند و به ترتیب تجزیه سازه ای، تجزیه سطحی (چانکینگ) و تجزیه وابستگی زبان را مورد مطالعه قرار می‌دهند. بررسی مبانی نظری و الگوریتم‌های معرفی شده در سطح جهانی و نحوه انطباق آن‌ها برای زبان فارسی از مباحث مورد بحث در این فصول هستند. در آخرین فصل از بخش سوم به تحلیل‌های معنایی پرداخته می‌شود و طیف وسیعی از مباحث مطرح در معناشناسی رایانشی از بازنمایی معنایی و رفع ابهام معنایی کلمات تا شباهت سنجی معنایی کلمات و جملات و بازنمایی معنای سازه‌های بزرگتر از کلمه در دو حالت ترکیب پذیر و غیرترکیب پذیر را شامل می‌شود. مباحثی مثل دگرنویسی، شناسایی نقش‌های موضوعی، استلزامات متنی و شناسایی استعاره در این فصل مورد بحث قرار می‌گیرند.

در نهایت در بخش چهارم، شش مهارت تخصصی زبان در چارچوب شش حوزه کاربردی خلاصه سازی متن، مشابهت یابی و کشف تقلب، احساس کاوی، ترجمه ماشینی، سامانه‌های پرسش و پاسخ و سامانه‌های جستجوگر معرفی می‌شوند.

بخش پنجم و ششم به پردازش گفتار اختصاص دارد. در این قسمت نیز سیر حرکت از دادگان‌ها و منابع زبانی آغاز می‌شود و سپس ابزار‌های پایه و میانی پردازش گفتار فارسی معرفی می‌شوند و در نهایت کاربرد‌ها معرفی خواهند شد؛ بنابراین بخش پنجم به معرفی پیکره‌ها و ابزار‌های پایه پردازش گفتار فارسی اختصاص یافته است و سرانجام در بخش ششم فصول ۲۶ تا ۲۹ پردازش‌های میانی در حوزه گفتار (که البته در اینجا خود می‌توانند کاربرد نهایی نیز باشند) مانند تبدیل گفتار به متن، تبدیل متن به گفتار، بازیابی اطلاعات گفتاری و بازشناسی گفتاری معرفی می‌شوند و در فصل آخر به چند مهارت تخصصی گفتاری زبان فارسی در چارچوب برنامه‌های کاربردی پردازش گفتار پرداخته می‌شود.

انتهای پیام/

منبع خبر: خبرگزاری میزان

اخبار مرتبط: کتاب پردازش متن و گفتار فارسی منتشر شد

موضوعات مرتبط: دانشگاه شهید بهشتی هیئت علمی دانشگاه بازیابی اطلاعات محمود بی جن خان برنامه کاربردی استانداردسازی دانشگاه تهران عضو هیئت علمی ترجمه ماشینی پردازش گفتار متن به گفتار فضای برداری پیوند دهنده مقاله مروری علوم اسلامی زبان فارسی مبانی نظری معناشناسی دانشجویان رفع ابهام