איזה ממשק API מתאים לי??

שלוות נפש · 14/10/21

היי צהרים טובים
אני צריכה להתממשק ל API כלשהו שנותן שרות של SPEECH TO TEXT ו TEXT TO SPEECH עבור פרויקט גמר.
אני צריכה שיעבוד ברור (זה אמור להקריא לי מילים ולשמוע בדקדוק מרבי - אמור לבדוק שגיאות בקריאה..).
וכן האם יש אפשרות כזאת לשפה העברית???
אשמח לשמוע את חוות דעתכן/ם
תודה רבה

s976 · 14/10/21

יש כמה מוכרים. יש גוגל, של אמזון. תתחילי לבדוק ולהשוות. לא אמור להיות מסובך.
נראה לי שיש תמיכה גם בעברית, אין לי מושג באיזו רמה.

שלוות נפש · 14/10/21

נכתב ע"י s976:
יש כמה מוכרים. יש גוגל, של אמזון. תתחילי לבדוק ולהשוות. לא אמור להיות מסובך.
נראה לי שיש תמיכה גם בעברית, אין לי מושג באיזו רמה.

לגוגל אני יודעת שיש איזשהי תמיכה בעברית
לא יודעת את רמת הדיוק..
ניסיתי להשוות ולא כל כך הבנתי בתכלס מה יותר טוב

גזעי · 14/10/21

הרמה של הזיהוי דיבור בגוגל בעברית ממש טובה.
הגיעו אנשים לבחון את המוצר שלנו וניסו בכוונה להכשיל אותו עם מילים הזויות, ונכשלו

שלוות נפש · 14/10/21

נכתב ע"י גזעי:
הרמה של הזיהוי דיבור בגוגל בעברית ממש טובה.
הגיעו אנשים לבחון את המוצר שלנו וניסו בכוונה להכשיל אותו עם מילים הזויות, ונכשלו

את מתכוונת ל SPEECH TO TEXT או ל TEXT TO SPEECH?

Yehuda Kremer · 14/10/21

ייצא לי לבנות עם השרות של azure, הרמה יכולה להיות 100% בלי טעויות בתנאי שֶׁמְּנַקְּדִים את הטקסט.

שלוות נפש · 14/10/21

נכתב ע"י Yehuda Kremer:
ייצא לי לבנות עם השרות של azure, הרמה יכולה להיות 100% בלי טעויות בתנאי שֶׁמְּנַקְּדִים את הטקסט.

גם של השמיעה?
ז"א אם אני משווה לו בין מה ששמע לבין מילה מנוקדת אם זה אותו הדבר - יש דיוק??

Yehuda Kremer · 14/10/21

אני התייחסתי ל"טקסט לדיבור", להיפך - לא ייצא לי להתנסות

Yehuda Kremer · 14/10/21

יכול להיות שה"טריק" עם הניקוד ישפר גם בשירותים אחרים שממירים טקסט לדיבור, כמו "גוגל" ש"גזעי" ציין

שלוות נפש · 14/10/21

נכתב ע"י Yehuda Kremer:
יכול להיות שה"טריק" עם הניקוד ישפר גם בשירותים אחרים שממירים טקסט לדיבור, כמו "גוגל" ש"גזעי" ציין

תודה
ואשמח לקבל איזשהו קישור או הסבר איך אני שולחת לשרות מילה מנוקדת

Yehuda Kremer · 14/10/21

אין צורך בפעולה מיוחדת לשליחת טקסט עם ניקוד, מבחינת השרות אין הבדל בין מחרוזת רגילה למחרוזת מנוקדת.

לבצע ניקוד זה כבר באחריותך.
כדי לנקד בקלות ואפילו אוטומטית עם מינימום מאמץ אפשר להשתמש במוצר "נקדן אוטומטי - חינמי מבית דיקטה" כדוגמה

רוב · 14/10/21

נכתב ע"י גזעי:
הרמה של הזיהוי דיבור בגוגל בעברית ממש טובה.
הגיעו אנשים לבחון את המוצר שלנו וניסו בכוונה להכשיל אותו עם מילים הזויות, ונכשלו

התנסיתם גם בזיהוי דיבור מקובץ מקוון? (בקבלת לינק לקובץ) ובזמן אמת?

גזעי · 16/10/21

נכתב ע"י רוב:
התנסיתם גם בזיהוי דיבור מקובץ מקוון? (בקבלת לינק לקובץ) ובזמן אמת?

לא וכן.

רוב · 17/10/21

נכתב ע"י גזעי:
לא וכן.

אפשר הסבר מתומצת או הפניה לקישור?
קצת הסתבכתי עם זה בדיוק עכשיו.
תודה.

שלוות נפש · 22/11/21

@גזעי
אני עכשיו עובדת על זיהוי דיבור בעברית ממיקרופון ומסתבכת...
יש מצב לעזרה?

זה השם שלי... · 22/11/21

נכתב ע"י שלוות נפש:
אני עכשיו עובדת על זיהוי דיבור בעברית ממיקרופון ומסתבכת...
יש מצב לעזרה?

איך עשית את זה באנגלית??
עם איזה API השתמשת?
אני צריכה את זה עכשיו...
אפשר הסבר?
ממש תודה!!!

שלוות נפש · 22/11/21

נכתב ע"י זה השם שלי...:
איך עשית את זה באנגלית??

לא הבנתי תשאלה..

נכתב ע"י זה השם שלי...:
עם איזה API השתמשת?

Speech-to-Text: Automatic Speech Recognition | Google Cloud

Accurately convert voice to text in over 125 languages and variants by applying Google’s powerful machine learning models with an easy-to-use API.

cloud.google.com

גזעי · 22/11/21

עשיתי את זה פעם, אבל השרת שעליו נמצא הקוד של זה כבר לא נגיש לי...

הרעיון הוא שאני יוצר חיבור ע"ג web socket (השתמשתי בsocket.io) בין הקליינט לשרת,
הקליינט שולח מערך של ביטים מהMediaRecorder של הדפדפן, שבמקרה שלנו זה ההקלטה של המיקרופון. (זכור לי שהמרתי את זה לUInt8Array בדפדפן)
ואז שולחים את זה לגוגל בgRPC (אם זכור לי נכון), ואת התשובה מחזירים באמצעות אותו web socket.

פשוט, לא?

שלוות נפש · 28/11/21

נכתב ע"י גזעי:
הקליינט שולח מערך של ביטים מהMediaRecorder של הדפדפן, שבמקרה שלנו זה ההקלטה של המיקרופון. (זכור לי שהמרתי את זה לUInt8Array בדפדפן)

ז"א שהשרת מקבל קובץ שמע?
והטיפול של השמיעה מהמיקרופון והעברה שלו לקובץ שמע מתבצע בקליינט??

גזעי · 28/11/21

נכתב ע"י שלוות נפש:
ז"א שהשרת מקבל קובץ שמע?
והטיפול של השמיעה מהמיקרופון והעברה שלו לקובץ שמע מתבצע בקליינט??

לא קובץ, stream, ולא שמיעה, "הקלטה".
וכן, רק לקליינט יש גישה למיקרופון של הקליינט.

פרוגבוט

פרסומת

איזה ממשק API מתאים לי??

משתמש פעיל

משתמש סופר מקצוען

משתמש פעיל

משתמש מקצוען

משתמש פעיל

משתמש פעיל

משתמש פעיל

משתמש פעיל

משתמש פעיל

משתמש פעיל

משתמש פעיל

משתמש פעיל

משתמש מקצוען

משתמש פעיל

משתמש פעיל

משתמש רשום

משתמש פעיל

משתמש מקצוען

משתמש פעיל

משתמש מקצוען

פרוגבוט

תוכן שיווקי