זיהוי תווים אופטי hOCR

תוכנת זיהוי תווים אופטי (באנגלית: Optical Character Recognition; בראשי תיבות: OCR) היא תוכנה הממירה תמונה הסרוקה במחשב למסמך תמליל ממוחשב.

נכון לשנת 2009 תוכנות כאלה מתמודדות בהצלחה עם המרה של תמונה בה מצולם או סרוק מסמך מודפס ורק לעתים נדירות גם בכתב יד. התהליך כרוך בזיהוי תו אחרי תו מבין התווים השונים המרכיבים את הטקסט. אולם, שיפור הברירה בין תווים שונים נעשה לרוב גם בעזרת שני כללים הקשורים להקשר התווים: הגבלת קטעי תמליל שונים לכאלה הכוללים רק תווים מקבוצה מסוימת (אותיות עבריות, אותיות לטיניות, אותיות ערביות וכיוצא בזה) והגדרת מילים ושפה לשם העדפת תווים היוצרים מילים בעלות כתיב מוכר (למשל, בקטע תמליל המוגדר ככתוב אנגלית יועדפו תווים היוצרים מילים עם כתיב אנגלי תקין אך בקטע תמליל המוגדר ככתוב בספרדית יועדפו תווים היוצרים מילים בעלות כתיב ספרדי תקין).

ציתות מוויקיפדיה

מטרת הפרויקט היא לשפר תוכנה קיימת בשם hOCR שהיא עצמה מבוססת על מנוע של tesseract-ocr.

בעיות שקימות בhOCR:

1. הפרויקט כניראה הופסק והאתר לא תוחזק מאז יולי 2008.
2. הכותב לא עונה למיילים.
3. יש לתוכנה בעיות של זליגת זיכרון והגירסה היציבה שעובדת על חלונות סובלת מנפילות.
4. התוכנה לא יכולה לקרוא את רוב הפורמטים המקובלים היום (2010).

דברים שתוקנו:

1. רוב בעיות של זליגת זיכרון תוקנו.
2. יש כמה בעיות הקשורות לקשר של בין מנוע hOCR למאיית hSpell תחת חלונות שגורמים לקריסת התוכנה שלא הצלחנו לתקן ולכן עקפנו את הבעיה ע”י החלפת המאיית מhSpell ל מאיית אחר יותר יציב בשם aSpell.
3. מימשנו את מנוע הסריקה מחדש.
4. שילבנו אלגריתם של רשתות נוירונים כדי לשפר את היכולת זיהוי של התוכנה.

סטודנטים

שי שופט – shaishofet@gmail.com
יבגני שטופלמן – shtopel@gmail.com

קבצי הרצה     קוד מקור       ספרות התוכנה

One thought on “זיהוי תווים אופטי hOCR”

Leave a Reply

Your email address will not be published. Required fields are marked *