» آرشیو اخبار » ۱۴۰۱ » شهریور ۱۴۰۱

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد

خبرگزاری مهر

خبرگزاری مهر - ۲۰ شهریور ۱۴۰۱

به گزارش خبرنگار مهر، محمدرضا حسینیان مدیرعامل مرکز نوآوری یک شرکت دانش بنیان با بیان اینکه «پیکره‌ متنی بزرگ» یکی از مهم‌ترین نیازهای آموزش مدل‌های شبکه عصبی عمیق به خصوص شبکه‌های بر پایه ترنسفورمر است، گفت: استفاده از پیکره متنی برای زبان‌های با منابع کمتر مانند فارسی بیشتر احساس می‌شود.

وی افزود: بدین منظور تیمی از آزمایشگاه پردازش زبان طبیعی و گفتار دانشگاه صنعتی شریف به همراه محققان مرکز نوآوری یک شرکت دانش‌بنیان برای این مساله راه‌حل پیکره ناب را معرفی کردند. این پیکره، مجموعه پاک‌سازی شده و قابل استفاده مستقیم برای محققان حوزه پردازش زبان طبیعی در فارسی است.

حسینیان با بیان اینکه این مجموعه شامل حدود ۱۳۰ گیگابایت دیتا متنی شامل ۲۵۰ میلیون پاراگراف و ۱۵ میلیارد کلمه است، گفت: نسخه خام پیکره ناب به همراه اسکریپت پیش پردازش (استفاده شده برای تمیزسازی داده) در اختیار عموم قرار گرفته تا به کمک آن بتوانند نسخه تمیز شده‌ پیکره خود را بسازند.

وی افزود: مرکز نوآوری این شرکت دانش‌بنیان واقع در دانشگاه صنعتی شریف آماده است تا با کمک این پیکره و تامین بستر مناسب، ایده‌های پژوهشی محققان را به عرصه واقعیت پرورش دهد.

در ادامه حسین صامتی عضو هیئت علمی دانشگاه صنعتی شریف و سرپرست آزمایشگاه پردازش زبان طبیعی و گفتار این دانشگاه گفت: از این پیکره می‌توان برای روان کردن مدل‌های زبانی، که در اصل برای زبان انگلیسی تهیه شده‌اند نیز استفاده کرد. از جمله این مدل‌های زبانی می‌توان به BERT, BART, T۵ و ... اشاره کرد.

منابع خبر

پیکره بزرگ متنی حوزه پردازش زبان طبیعی در فارسی تهیه شد - خبرگزاری مهر

- ۲۰ شهریور ۱۴۰۱

اخبار مرتبط

وبینار «سلامت و ایمنی در سازه های پرتردد» برگزار شد

خبرگزاری مهر - ۳ بهمن ۱۳۹۹

ضرورت توجه ویژه به علم و دانشگاه

خبرگزاری مهر - ۱۳ مرداد ۱۴۰۰

ملت‌ها باید به‌سمت عقلانیت و دردمندی با مظلومان جهان حرکت کنند

خبرگزاری مهر - ۴ آذر ۱۳۹۹

اصلاح نظام محاسباتی کشور بر اساس بیانیه گام دوم

ایسنا - ۲۶ شهریور ۱۳۹۹

نخستین مرکز نوآوری فضایی گشایش یافت / بستری برای حمایت از دانش‌بنیان‌های حوزه فضا

خبرگزاری دانشجو - ۱ دی ۱۳۹۹

فراروایت های ایدئولوژیک شما در تحولات کرونایی ویران شد!

خبرگزاری دانشجو - ۶ اردیبهشت ۱۳۹۹

مفت خواری بلای جان اقتصاد ایرانی

باشگاه خبرنگاران - ۳۰ مرداد ۱۴۰۱

پنج طرح ملی دانش‌بنیان و نوآوری فردا با حضور رییس جمهوری افتتاح می‌شود

خبرگزاری جمهوری اسلامی - ۱۸ فروردین ۱۴۰۰

برخی مناطق لوکیشن محرومیت‌زدایی شده‌اند/فعالیت سمن‌ها "فانتزی" نیست

ایسنا - ۶ بهمن ۱۴۰۰

عمده تجارت‌ ایران با ۱۵ کشور دنیاست/چشم دولت فقط دنبال مذاکره است

خبرگزاری مهر - ۱۹ آذر ۱۳۹۹

پورابراهیمی: چشم دولت فقط دنبال مذاکره است

فردا - ۱۹ آذر ۱۳۹۹

مهمانان چه کسانی بودند؟ چه سخنانی رد و بدل شد؟ / همه افطاری های رئیسی

خبر آنلاین - ۱۲ اردیبهشت ۱۴۰۱

لزوم تحول اقتصادی در دولت سیزدهم/سیاست‌های پولی نیازبه جراحی دارد

خبرگزاری مهر - ۲۴ تیر ۱۴۰۰

نامه به سروش، ملکیان، سریع‌القلم و ظریف / فراروایت‌های ایدئولوژیک شما در تحولات کرونایی ویران شد!

خبرگزاری دانشجو - ۷ اردیبهشت ۱۳۹۹

معرفی برگزیدگان نخستین جایزه کتاب «روایت پیشرفت»

خبرگزاری دانشجو - ۲۲ شهریور ۱۴۰۰

چرا این حوزه برای هیچ یک از کاندیداهای ریاست جمهوری مهم نیست؟!

ایسنا - ۱۷ خرداد ۱۴۰۰

چالشهای فعالیت دانش بنیان؛ ریسک سرمایه‌گذاری و هزارتوی بروکراسی

خبرگزاری مهر - ۸ فروردین ۱۴۰۱

پول صندلی را جدا می‌دهیم، اجاره جدا/ معافیت مالیاتی شرکت‌های دانش‌بنیان، یک شوخی است

ایسنا - ۱ خرداد ۱۴۰۱

مقررات و قوانین؛ حامی یا مانع دانش بنیان ها

خبرگزاری مهر - ۶ اردیبهشت ۱۴۰۱

رشته‌های علوم پایه در شرایط مساعدی نیستند

ایسنا - ۷ شهریور ۱۴۰۱

موضوعات مرتبط: دانشگاه صنعتی شریف هیئت علمی دانشگاه پردازش زبان طبیعی محمدرضا حسینیان شرکت دانش بنیان عضو هیئت علمی زبان انگلیسی پیکره متنی آزمایشگاه ترنسفورمر شبکه عصبی مدیرعامل پاراگراف گیگابایت اسکریپت بر پایه سرپرست نوآوری محققان واقعیت

دیگر اخبار این روز

ساخت ضد درد بدون عوارض غیر افیونی در آمریکا!

خبر آنلاین - ۲۰ شهریور ۱۴۰۱

عکس | شاخص ترین ماشین های زیر ۶۰۰ میلیون تومان بازار خودروی ایران!

خبر آنلاین - ۲۰ شهریور ۱۴۰۱

تصاویر |برترین خودروهای جهان در سال ۲۰۲۲ / یک خودروی چینی در میان برترین‌های دنیا

خبر آنلاین - ۲۰ شهریور ۱۴۰۱

بازی‌سازی را به عنوان یک صنعت بپذیرید / بیمه تامین اجتماعی یکی از معضلات دانش‌بنیان‌ها + فیلم

خبرگزاری دانشجو - ۲۰ شهریور ۱۴۰۱

معرفت دینی و بصیرت سیاسی؛ دو موضوع اصلی دوره دانش‌افزایی اساتید بسیجی

خبرگزاری دانشجو - ۲۰ شهریور ۱۴۰۱

حق کپی © ۲۰۰۱-۲۰۲۴ - Sarkhat.com - درباره سرخط - آرشیو اخبار - جدول لیگ برتر ایران