Your address will show here +12 34 56 78

مصادر الأصوات

نهدف لعمل فرق في مصادر الصوتيات العربية المختلفة
نشارك و ندعم و نساعد جميع من يهدف إلى زيادة محتوى الصوتيات العربية باللهجات المختلفة.

Hours of Arabic Speech Data

موارد ابحاث الصوتيات العربية
MGB-2: أكثر من 1200 ساعة تم جمعها من قناة الجزيرة بالإضافة إلى 130 مليون كلمة من الجزيرة نت. تم إضافة تعليق البرامج بعد إضافة معلومات عن التوقيت.
MGB-3: تحويل الصوت للهجة المصريه من نص منطوق إلى نص مكتوب. كل جمله تمت كتابتها بأربع أشخاص مختلفين وذلك لتعلم الطرق المختلفة لكتابه اللهجة المصرية.
MGB-5: تحويل الصوت للهجة االمغربيه من نص منطوق إلى نص مكتوب. تم نسخ حوالي 14 ساعة تم من YouTube جنبًا إلى جنب مع 90 ساعة مصنفة حسب النوع بدون نسخ.
QASR: تعتبر حتى يومنا هذا ، أكبر نص مكتوب للخطاب العربي بحوالي 2000 ساعة مع شرح متعدد الطبقات ، في لهجات متعددة وخطاب مختلط اللغات.
ESCWA.CS: تحتوي على صوتيات جمعت على مدى يومين اجتماعات لجنة الأمم المتحدة الاقتصادية والاجتماعية لغرب آسيا (الإسكوا) في عام 2019.
Dialectal Arabic Code-Switching Dataset: تحتوي على ساعتين من اللهجة المصرية المأخدوذة من ADI-5 و مقسمة في تحدي MGB-3
مصادر تحديد اللهجات العربية
ADI-5: أكثر من 50 ساعة تم جمعها من قناة الجزيرة. لأربع لهجات إقليمية: المصرية، لهجه بلاد الشام ، اللهجة الخليجية، لهجه المغرب العربي بشمال إفريقيا، والعربية الفصحى الحديثة. تعد مجموعة البيانات هذه جزءًا من تحدي MGB-3.

ADI-17: أكثر من 3000 ساعة من الصوتيات للهجات العربية المختلفة تم جمعها من YouTube وتم تصنيفها كواحدة من 17 دولة. تعد مجموعة البيانات هذه جزءًا من تحدي MGB-5.
قاموس الهجاء
The grapheme-based Arabic speech lexicon is 1:1 word to grapheme mapping
نص إلى صوت
  • قريبا
اللهجات العربية إلى صوت
هل ترغب في المساهمة في مجتمع تقنيات الأصوات؟
 هل تطمح لجعل الأصوات العربية متاحه للجميع ؟ تجعلها أقوى و غنية بالمحتوى ؟ تجعلها أفضل ! 
شارك معنا...