איזה ממשק API מתאים לי??

  • הוסף לסימניות
  • #1
היי צהרים טובים
אני צריכה להתממשק ל API כלשהו שנותן שרות של SPEECH TO TEXT ו TEXT TO SPEECH עבור פרויקט גמר.
אני צריכה שיעבוד ברור (זה אמור להקריא לי מילים ולשמוע בדקדוק מרבי - אמור לבדוק שגיאות בקריאה..).
וכן האם יש אפשרות כזאת לשפה העברית???
אשמח לשמוע את חוות דעתכן/ם
תודה רבה
 
  • הוסף לסימניות
  • #2
יש כמה מוכרים. יש גוגל, של אמזון. תתחילי לבדוק ולהשוות. לא אמור להיות מסובך.
נראה לי שיש תמיכה גם בעברית, אין לי מושג באיזו רמה.
 
  • הוסף לסימניות
  • #3
יש כמה מוכרים. יש גוגל, של אמזון. תתחילי לבדוק ולהשוות. לא אמור להיות מסובך.
נראה לי שיש תמיכה גם בעברית, אין לי מושג באיזו רמה.
לגוגל אני יודעת שיש איזשהי תמיכה בעברית
לא יודעת את רמת הדיוק..
ניסיתי להשוות ולא כל כך הבנתי בתכלס מה יותר טוב
 
  • הוסף לסימניות
  • #4
הרמה של הזיהוי דיבור בגוגל בעברית ממש טובה.
הגיעו אנשים לבחון את המוצר שלנו וניסו בכוונה להכשיל אותו עם מילים הזויות, ונכשלו :)
 
  • הוסף לסימניות
  • #6
ייצא לי לבנות עם השרות של azure, הרמה יכולה להיות 100% בלי טעויות בתנאי שֶׁמְּנַקְּדִים את הטקסט.
 
  • הוסף לסימניות
  • #8
אני התייחסתי ל"טקסט לדיבור", להיפך - לא ייצא לי להתנסות
 
  • הוסף לסימניות
  • #9
יכול להיות שה"טריק" עם הניקוד ישפר גם בשירותים אחרים שממירים טקסט לדיבור, כמו "גוגל" ש"גזעי" ציין
 
  • הוסף לסימניות
  • #11
אין צורך בפעולה מיוחדת לשליחת טקסט עם ניקוד, מבחינת השרות אין הבדל בין מחרוזת רגילה למחרוזת מנוקדת.

לבצע ניקוד זה כבר באחריותך.
כדי לנקד בקלות ואפילו אוטומטית עם מינימום מאמץ אפשר להשתמש במוצר "נקדן אוטומטי - חינמי מבית דיקטה" כדוגמה
 
  • הוסף לסימניות
  • #12
הרמה של הזיהוי דיבור בגוגל בעברית ממש טובה.
הגיעו אנשים לבחון את המוצר שלנו וניסו בכוונה להכשיל אותו עם מילים הזויות, ונכשלו :)
התנסיתם גם בזיהוי דיבור מקובץ מקוון? (בקבלת לינק לקובץ) ובזמן אמת?
 
נערך לאחרונה ב:
  • הוסף לסימניות
  • #17
  • הוסף לסימניות
  • #18
עשיתי את זה פעם, אבל השרת שעליו נמצא הקוד של זה כבר לא נגיש לי...

הרעיון הוא שאני יוצר חיבור ע"ג web socket (השתמשתי בsocket.io) בין הקליינט לשרת,
הקליינט שולח מערך של ביטים מהMediaRecorder של הדפדפן, שבמקרה שלנו זה ההקלטה של המיקרופון. (זכור לי שהמרתי את זה לUInt8Array בדפדפן)
ואז שולחים את זה לגוגל בgRPC (אם זכור לי נכון), ואת התשובה מחזירים באמצעות אותו web socket.


פשוט, לא?
 
  • הוסף לסימניות
  • #19
הקליינט שולח מערך של ביטים מהMediaRecorder של הדפדפן, שבמקרה שלנו זה ההקלטה של המיקרופון. (זכור לי שהמרתי את זה לUInt8Array בדפדפן)
ז"א שהשרת מקבל קובץ שמע?
והטיפול של השמיעה מהמיקרופון והעברה שלו לקובץ שמע מתבצע בקליינט??
 
  • הוסף לסימניות
  • #20
ז"א שהשרת מקבל קובץ שמע?
והטיפול של השמיעה מהמיקרופון והעברה שלו לקובץ שמע מתבצע בקליינט??
לא קובץ, stream, ולא שמיעה, "הקלטה".
וכן, רק לקליינט יש גישה למיקרופון של הקליינט.
 

פרוגבוט

תוכן שיווקי
פרסומת
למעלה