זיהוי תווים אופטי hOCR

תוכנת זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) היא תוכנה הממירה תמונה הסרוקה במחשב למסמך תמליל ממוחשב.

נכון לשנת 2009 תוכנות כאלה מתמודדות בהצלחה עם המרה של תמונה בה מצולם או סרוק מסמך מודפס ורק לעתים נדירות גם בכתב יד. התהליך כרוך בזיהוי תו אחרי תו מבין התווים השונים המרכיבים את הטקסט. אולם, שיפור הברירה בין תווים שונים נעשה לרוב גם בעזרת שני כללים הקשורים להקשר התווים: הגבלת קטעי תמליל שונים לכאלה הכוללים רק תווים מקבוצה מסוימת (אותיות עבריות, אותיות לטיניות, אותיות ערביות וכיוצא בזה) והגדרת מילים ושפה לשם העדפת תווים היוצרים מילים בעלות כתיב מוכר (למשל, בקטע תמליל המוגדר ככתוב אנגלית יועדפו תווים היוצרים מילים עם כתיב אנגלי תקין אך בקטע תמליל המוגדר ככתוב בספרדית יועדפו תווים היוצרים מילים בעלות כתיב ספרדי תקין).

ציתות מוויקיפדיה

מטרת הפרויקט היא לשפר תוכנה קיימת בשם hOCR שהיא עצמה מבוססת על מנוע של tesseract-ocr.

בעיות שקימות בhOCR הישן שכבר לא זמין:

1. הפרויקט כניראה הופסק והאתר לא תוחזק מאז יולי 2008.
2. הכותב לא עונה למיילים.
3. יש לתוכנה בעיות של זליגת זיכרון והגירסה היציבה שעובדת על חלונות סובלת מנפילות.
4. התוכנה לא יכולה לקרוא את רוב הפורמטים המקובלים היום (2010).

דברים שתוקנו:

1. רוב בעיות של זליגת זיכרון תוקנו.
2. יש כמה בעיות הקשורות לקשר של בין מנוע hOCR למאיית hSpell תחת חלונות שגורמים לקריסת התוכנה שלא הצלחנו לתקן ולכן עקפנו את הבעיה ע”י החלפת המאיית מhSpell ל מאיית אחר יותר יציב בשם aSpell.
3. מימשנו את מנוע הסריקה מחדש.
4. שילבנו אלגריתם של רשתות נוירונים כדי לשפר את היכולת זיהוי של התוכנה.

סטודנטים

שי שופט – [email protected]
יבגני שטופלמן – [email protected]

קבצי הרצה     קוד מקור       ספרות התוכנה

One thought on “זיהוי תווים אופטי hOCR”

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

Hananel Hazan , חננאל חזן , Activities, Academic Publications , Open Source Programs

Verified by MonsterInsights