כללי מישהו מכיר תוכנה שהופכת טקסט מקובץ פי די אף לטקסט "חי"

  • פותח הנושא mirif
  • פורסם בתאריך
  • הוסף לסימניות
  • #1
שמעתי שיש תוכנה שהופכת טקסט מקובץ פי די אף לטקסט "חי". מישהו מכיר אותה?
 
  • הוסף לסימניות
  • #2
יש הרבה
הן נקראות תוכנות OCR
 
  • הוסף לסימניות
  • #3
אתמול צדה את עיני מודעה ביתד של מישהו שממיר ספרים לטקסטים עם התחייבות לדיוק מירבי.
אולי שווה לבדוק.
 
  • הוסף לסימניות
  • #4
יש למישהו משהו חינמי לזה?
 
  • הוסף לסימניות
  • #5
מכיר חינמי לקבצי JPEG ו- TIFF, לא מכיר חינמי ל PDF מלבד אדובי רידר שנסרק בצורה מיוחדת עם אפשרות המרה לטקסט
 
  • הוסף לסימניות
  • #6
OCR מפענח תמונה לטקסט.

קובץ PDF שמכיל את הטקסט כטקסט ולא כתמונה, אפשר להמיר מתוך אקרובט עצמו באפשרות "שמור כמסמך וורד/RTF".

יש גם המון תוכנות אחרות כגון PDF2Word ואפשר להשתמש בהן אם יש בעיות בייצוא מאקרובט.
 
  • הוסף לסימניות
  • #7
לנו היתה פעם תוכנה שיכלנו לסרוק דף שמשהו כתב אפילו בכתב יד ואח"כ לשנות לכתב מחשב
משהו זוכר איך קוראים לתוכנה הזאת????
 
  • הוסף לסימניות
  • #8
למי שיש את אקרובט פרופשיונל המלא יש אופציה בסיסית להמרה של טקסט לחי
 
  • הוסף לסימניות
  • #9
נכתב ע"י חיטובים;578110:
OCR מפענח תמונה לטקסט.

קובץ PDF שמכיל את הטקסט כטקסט ולא כתמונה, אפשר להמיר מתוך אקרובט עצמו באפשרות "שמור כמסמך וורד/RTF".

מה דעתך על קובץ PDF כמו זה?
 
  • הוסף לסימניות
  • #11
הספרים של היברו בוקס סרוקים כתמונה, ועוברים OCR אוטומטי ע"י תוכנת פיין רידר כדי שיוכלו לחפש בתוכם. התוצאות בהתאם.

אני מדבר על PDF שנשמר מתוך וורד או אינדיזיין.
 
  • הוסף לסימניות
  • #12
בואו נעשה סדר אחת ולתמיד בשאלה הזו שעלתה פה בעבר כבר כמה וכמה פעמים:

קובץ PDF יכול להכיל 2 סוגי תוכן (הרלוונטיים לענינינו):
1. קובץ תמונה כגון קובץ משוטח מפוטושופ או סתם קובץ JPG/TIF/BMP מוטמע בPDF.
2. טקסט "חי" כגון קובץ שנעשה ישירות מוורד/אקסל/אינדיזיין וכד'

עכשיו לפתרונות:
1. כשהקובץ מכיל תמונה הצורה היחידה להפיק ממנו טקסט היא ע"י תוכנת OCR = תוכנת זיהוי תווים אופטי (Optical Character Recognition) שהיא בעצם מנסה לפענח את התמונה ולהמיר את תוכנה לטקסט.
התוכנה המתקדמת הנפוצה והיעילה ביותר בתחום היא ללא ספק FINEREEDER שהובאה לעיל. יש עוד כמה תוכנות חינמית שמגיעות יחד עם סורקים של HP וכד', כמו כמה תוכנות מקצועיות ויקרות כדוגמת היפרOCR ועוד.
הבעיה בכל אלו היא שכדי להגיע לתוצאות טובות צריך גם נסיון בתפעול התוכנה וגם תמונת טקסט באיכות גבוהה אחרת אחוז הדיוק יורד והדבר לא שווה כלכלית.
מקובל בתחום שפיענוח היורד מ98.5% דיוק אינו כלכלי והקלדה תהיה זולה יותר.
יש לקחת בחשבון שגם פיענוח טוב דרוש הגהה יסודית כי תוכנות אלה אף פעם לא מגיעות ל100% ואף לא קרוב לכך.

2. כשהקובץ מכיל טקסט חי: ברמת העיקרון קובץ המכיל טקסט ניתן לייצאו חזרה לפורמט TXT/RTF.
הבעיה היא שהקידוד (בעיקר בעברית אבל לא רק) אינו אחיד דבר הגורם לכך שרוב קבצי הPDF פולטים ג'בריש מג'וברש בייצוא.
אכן, קובץ שיוצא מתוכנה המקודדת ביוניקוד כמו וורד או אינדיזיין והפונט היה תיקני (פונט מיושן/חינמי או סתם פונט מרושל של מאסטרפונט מהווה מתכון בטוח לתקלות) בדרך כלל ניתן יהיה לייצאו ברמה טובה- לא ממש 100%, תמיד איזו כותרת תברח וכיון הכתיבה יהיה לנצח משמאל לימין אבל עדיין...
מצד שני רוב התוכנות יוצרות קבצים בקידודים שונים ומשונים המוציאים תוצאה חלקית במקרה הטוב- כמו ביצוא מוורד ע"י מדפסת כדוגמת PDFFACTORY וכד' או 0 תוצאה כמו ביצוא מתג.
פתרון אחד שעוזר גם בקבצים בעייתים במיוחד הוא האתר הזה: http://www.pixiesoft.com/flip/ בו יש להעתיק עם כלי העריכה את תוכן הקובץ ולהדביק בחלון היעודי שם, ניתן לשחק בהגדרות הקידוד למיטוב התוצאה. האתר מתמודד יפה גם עם קבצים קשים אבל שוב ממש לא ב100%.
לקבצי תג אין בכלל פתרון אא"כ הקובץ מכיל פונט אחד בודד (אחרת הקידוד שונה מפונט למשנהו) ואז ניתן לייצא ג'יבריש ולהמיר ע"י סקריפט החלפה.

בהצלחה
 
  • הוסף לסימניות
  • #13
נכתב ע"י נקי_כפים;578437:
התוכנה המתקדמת הנפוצה והיעילה ביותר בתחום היא ללא ספק FINEREEDER שהובאה לעיל.

גירסה 10 גרועה מאוד בחומר שמצריך למידה, מנגנון ה"למידה" פשוט לא עובד!

נכתב ע"י נקי_כפים;578437:
כמו כמה תוכנות מקצועיות ויקרות כדוגמת היפרOCR ועוד.

תהיה מוכן לפרט?
 
  • הוסף לסימניות
  • #14
נכתב ע"י חיטובים;578400:
הספרים של היברו בוקס סרוקים כתמונה, ועוברים OCR אוטומטי ע"י תוכנת פיין רידר כדי שיוכלו לחפש בתוכם. התוצאות בהתאם.

אני מדבר על PDF שנשמר מתוך וורד או אינדיזיין.

ברור שזה קבצי תמונה ושהם עוברים OCR, אבל בסופו של דבר ניתן באמצעות רידר לשמור אותם כטקסט (וברור שגם התוצאה תהיה בהתאם).

דרך אגב - גם PDF שנשמר מתג אפשר להפוך למלל נגיש. אמנם זה יוצא ג'יבריש, אך קרש פעם העלה מאקרו שמתרגם את זה לעברית נורמלית
 
  • הוסף לסימניות
  • #15
נכתב ע"י אברהם;578643:
דרך אגב - גם PDF שנשמר מתג אפשר להפוך למלל נגיש. אמנם זה יוצא ג'יבריש, אך קרש פעם העלה מאקרו שמתרגם את זה לעברית נורמלית

תקרא טוב מה שכתבתי בענין: קבצי תג ניתנים להמרה, בתנאי שיש בהם סוג אחד של פונט בלבד! אחרת לא יעזור מאקרו/סקריפט כי כל פונט מקודד שם שונה והמאקרו יוציא עירבוב מושלם. מנסיון.
 
  • הוסף לסימניות
  • #16
נכתב ע"י נקי_כפים;578684:
תקרא טוב מה שכתבתי בענין: קבצי תג ניתנים להמרה, בתנאי שיש בהם סוג אחד של פונט בלבד! אחרת לא יעזור מאקרו/סקריפט כי כל פונט מקודד שם שונה והמאקרו יוציא עירבוב מושלם. מנסיון.

נכון, אבל נראה לי שזה לא מדוייק.

אני חושב שאם משתמשים רק בפונטים שהם באותו מיפוי - התוצאה תהיה טובה.
 

פרוגבוט

תוכן שיווקי
פרסומת

הצטרפות לניוזלטר

איזה כיף שהצטרפתם לניוזלטר שלנו!

מעכשיו, תהיו הראשונים לקבל את כל העדכונים, החדשות, ההפתעות בלעדיות, והתכנים הכי חמים שלנו בפרוג!

לוח מודעות

הפרק היומי

הפרק היומי! כל ערב פרק תהילים חדש. הצטרפו אלינו לקריאת תהילים משותפת!


תהילים פרק כה

אלְדָוִד אֵלֶיךָ יי נַפְשִׁי אֶשָּׂא:באֱלֹהַי בְּךָ בָטַחְתִּי אַל אֵבוֹשָׁה אַל יַעַלְצוּ אֹיְבַי לִי:גגַּם כָּל קוֶֹיךָ לֹא יֵבֹשׁוּ יֵבֹשׁוּ הַבּוֹגְדִים רֵיקָם:דדְּרָכֶיךָ יי הוֹדִיעֵנִי אֹרְחוֹתֶיךָ לַמְּדֵנִי:ההַדְרִיכֵנִי בַאֲמִתֶּךָ וְלַמְּדֵנִי כִּי אַתָּה אֱלֹהֵי יִשְׁעִי אוֹתְךָ קִוִּיתִי כָּל הַיּוֹם:וזְכֹר רַחֲמֶיךָ יי וַחֲסָדֶיךָ כִּי מֵעוֹלָם הֵמָּה:זחַטֹּאות נְעוּרַי וּפְשָׁעַי אַל תִּזְכֹּר כְּחַסְדְּךָ זְכָר לִי אַתָּה לְמַעַן טוּבְךָ יי:חטוֹב וְיָשָׁר יי עַל כֵּן יוֹרֶה חַטָּאִים בַּדָּרֶךְ:טיַדְרֵךְ עֲנָוִים בַּמִּשְׁפָּט וִילַמֵּד עֲנָוִים דַּרְכּוֹ:יכָּל אָרְחוֹת יי חֶסֶד וֶאֱמֶת לְנֹצְרֵי בְרִיתוֹ וְעֵדֹתָיו:יאלְמַעַן שִׁמְךָ יי וְסָלַחְתָּ לַעֲוֹנִי כִּי רַב הוּא:יבמִי זֶה הָאִישׁ יְרֵא יי יוֹרֶנּוּ בְּדֶרֶךְ יִבְחָר:יגנַפְשׁוֹ בְּטוֹב תָּלִין וְזַרְעוֹ יִירַשׁ אָרֶץ:ידסוֹד יי לִירֵאָיו וּבְרִיתוֹ לְהוֹדִיעָם:טועֵינַי תָּמִיד אֶל יי כִּי הוּא יוֹצִיא מֵרֶשֶׁת רַגְלָי:טזפְּנֵה אֵלַי וְחָנֵּנִי כִּי יָחִיד וְעָנִי אָנִי:יזצָרוֹת לְבָבִי הִרְחִיבוּ מִמְּצוּקוֹתַי הוֹצִיאֵנִי:יחרְאֵה עָנְיִי וַעֲמָלִי וְשָׂא לְכָל חַטֹּאותָי:יטרְאֵה אוֹיְבַי כִּי רָבּוּ וְשִׂנְאַת חָמָס שְׂנֵאוּנִי:כשָׁמְרָה נַפְשִׁי וְהַצִּילֵנִי אַל אֵבוֹשׁ כִּי חָסִיתִי בָךְ:כאתֹּם וָיֹשֶׁר יִצְּרוּנִי כִּי קִוִּיתִיךָ:כבפְּדֵה אֱלֹהִים אֶת יִשְׂרָאֵל מִכֹּל צָרוֹתָיו:
נקרא  2  פעמים
למעלה