ดำเนินการ OCR ในเอกสารหลายภาษา

บทความ
03/16/2023

การรู้จำอักขระด้วยแสง (OCR) ช่วยให้คุณค้นหาและดึงข้อความจากรูปภาพหรือหน้าจอ

แม้ว่าสถานการณ์ส่วนใหญ่ต้องการให้คุณจัดการข้อความในภาษาใดภาษาหนึ่ง แต่ก็มีบางกรณีที่แหล่งข้อมูลมีหลายภาษา

ในการดำเนินการ OCR บนแหล่งที่มาเหล่านี้ ให้ใช้โปรแกรม Tesseract ในการดำเนินการ OCR ที่เกี่ยวข้องและเปิดใช้งานตัวเลือก ใช้ภาษาอื่น ในการตั้งค่าโปรแกรม

ภาพหน้าจอของตัวเลือก ใช้ภาษาอื่น ในการดำเนินการ แยกข้อความด้วย OCR

เมื่อเปิดใช้งานตัวเลือก ใช้ภาษาอื่น การดำเนินการจะแสดงการตั้งค่าเพิ่มเติมสองรายการ: ฟิลด์ ตัวย่อภาษา และ พาธข้อมูลภาษา

ฟิลด์ ตัวย่อภาษา ระบุกับโปรแกรมว่าต้องค้นหาภาษาใดระหว่าง OCR ฟิลด์ พาธข้อมูลภาษา มีไฟล์ข้อมูลภาษา (.traineddata) ที่ใช้ในการฝึกอบรมโปรแกรม OCR

ภาพหน้าจอของฟิลด์ตัวย่อภาษาและพาธข้อมูลภาษาในการดำเนินการ แยกข้อความด้วย OCR

หลังจากดาวน์โหลดไฟล์ข้อมูลสำหรับภาษาที่ต้องการแล้ว ให้ย้ายไปยังโฟลเดอร์ทั่วไปเพื่อให้ใช้งานได้ภายใต้พาธเดียวกัน

จากนั้นเลือกโฟลเดอร์ที่สร้างขึ้นในฟิลด์ พาธข้อมูลภาษา และใส่รหัสภาษาที่เกี่ยวข้องในฟิลด์ ตัวย่อภาษา หากต้องการแยกรหัสภาษา ให้ใช้อักขระบวก (+)

หมายเหตุ

คุณสามารถค้นหารหัสภาษาที่มีอยู่ทั้งหมดได้ในแหล่งที่มาของไฟล์ข้อมูลภาษา ในตัวอย่างต่อไปนี้ รหัสที่ใช้แสดงถึงภาษาเตลูกู ฮินดี และอังกฤษ

ภาพหน้าจอของฟิลด์ตัวย่อภาษาที่เติมและพาธข้อมูลภาษาในการดำเนินการ แยกข้อความด้วย OCR

แชร์ผ่าน

ดำเนินการ OCR ในเอกสารหลายภาษา

คำติชม

แหล่งทรัพยากรเพิ่มเติม