کیا آپ کو قابل اعتماد OCR نتائج حاصل کرنے کے لئے بہت کچھ ادا کرنا ہوگا؟ کیا Google Cloud View اصل میں Tesseract سے بہتر ہے؟ کیا ریاست قائم کرنے کے لئے وقت کے قابل ریاستی آرٹ نیورل نیٹ ورک کی بنیاد پر او سی سی انجن ہیں؟

اپٹیکل کریکٹر کی شناخت (او سی آر) استعمال کیا جاسکتا ہے جس میں حروف تہجی یا عدالت کے دستاویزات کے سکین یا تصاویر کو تلاش کرنے کے قابل، سایڈست متن میں تبدیل کیا جاسکتا ہے. حقیقت میں ہمارے منصوبوں میں سے ایک ہے تحقیقاتی صحافیوں کے لئے دستیاب ریاستی آرٹ مشین سیکھنے اور مصنوعی انٹیلی جنس بنانے کے لئے ایک آلہ بنانا ہے. ہم پہلے ہی موجودہ اجزاء کی جانچ کر رہے ہیں تاکہ ہم اپنی اپنی کوششوں کو ترجیح دے سکیں.

سب سے زیادہ قابل رسائی OCR کے اختیارات کی طرف سے کی طرف سے مقابلے میں نہیں کیا جا سکتا. لہذا میں نے ایک مختلف دستاویزات کو سات مختلف اوزار کے ساتھ بھاگ لیا اور نتائج کا مقابلہ کیا. براہ کرم

مفت اور کھلا ذریعہ کے اختیارات
کالماری
کولاماری TensorFlo، ایک کھلی منبع مشین سیکھنے لائبریری پر بنایا گیا ہے، اور کولاماری TensorFlow کی نیند نیٹ ورک کی صلاحیت کا استعمال کر سکتے ہیں. یہ استعمال کرنے کے لئے نسبتا آسان ہے، لیکن کچھ انحصار ہے جو کچھ توجہ کی ضرورت ہوتی ہے. کالماری صرف متن کی شناخت انجام دیتا ہے، لہذا آپ کو اس کے برعکس بڑھانے کے لئے ایک اور انجن کا استعمال کرنے کی ضرورت ہے (سکوپ کو ہٹا دیں اور اس تصویر کو تقسیم کریں جسے آپ پڑھنا چاہتے ہیں). اوپیراپیو کی ضرورت ہوتی ہے پیڈون 2 اور کالمری پطرون میں لکھی جاتی ہے- ایک ناقابل یقین قابل ناکامی ناکامی نہیں، لیکن جو اسے محتاط ہونا چاہئے.

قیمت: کالماری ایک مفت کھلی منبع سافٹ ویئر ہے.

او آر سی اوپن
OCRopus دستاویز تحلیل کے اوزار کا ایک مجموعہ ہے جس میں ایک فعال OCR انجن شامل ہوتا ہے جب آپ حتمی اسکرپٹ کو جمع شدہ تسلیم کردہ پیداوار میں ٹیکسٹ فائل میں پیش کرتے ہیں. OCRopus HOCR پیداوار کرتا ہے.

چونکہ اوکریپیپوس پائیڈ 2.7 کی ضرورت ہوتی ہے، آپ شاید اسے انسٹال کرنا چاہتے ہیں اور انحصار کو منظم کرنے کے لئے مجازی وینٹ استعمال کریں گے. ریڈییمی فائل کی تنصیب کے طریقہ کار کا استعمال کرتے ہوئے میں نے ایک مسئلہ تھا، لیکن مجھے ایک کام کی تنصیب کا طریقہ کار ملا ہے جو مسئلہ چھپایا ہے. پٹسن 2.7 ورچوئلینف کے ساتھ چٹپلانٹ پر چلانے کے لئے، آپ کو کچھ خاص ہدایات پر عمل کرنے کی ضرورت ہے.

ڈین ونڈرکم کی طرف سے اوکرپیپس کے ساتھ تجربے پر ایک بلاگ پوسٹ بھی مددگار ہے.

دوسرے او سی سی کے انجنوں کے مقابلے میں او آرکیپیس ایک اعلی قرارداد تصویر کی ضرورت ہے. اگر آپ کا قرارداد 300 ڈی پی پی سے کم ہے، تو آپ کو بہت سے غلطیاں ملیں گی. ٹیسٹ کے زیادہ سے زیادہ وسائل کے برعکس، اوکریپیپوس زمین کی تزئین کی یا اوپر کے نیچے دستاویزات کو پکڑ نہیں لیتا ہے. لہذا، آپ کو اس بات کا یقین کرنے کی ضرورت ہے کہ صفحے کی سماعت درست ہے.

قیمت: اوکرپیپس ایک مفت کھلا منبع سافٹ ویئر ہے.

کرکن
کرکن ایک ٹرنک او آر سی کا نظام ہے جو اوکرپیپس سے فارغ کیا گیا ہے. کریکن ایچ او آر آر یا ALTO کی شکل میں جیومیٹری پیدا کرتا ہے. ALTO (تجزیاتی لے آؤٹ اور متن آبجیکٹ) ٹیکسٹ اور ترتیب کی معلومات کے لئے ایک XML سکیمہ ہے. یہ ایک اچھی طرح سے تیار معیاری ہے، لیکن میں نے دوسرے آلات سے نمٹنے نہیں کی جو پیداوار میں ALTO پیداوار ہے. کریکن صرف اوکرپیپس کے ساتھ اچھی طرح سے بنڈل ہے، لہذا اصل نتیجہ OCRopus کے نتیجہ کے برابر ہے.

قیمت: کریک مفت آزاد ذریعہ سافٹ ویئر ہے.

Tesseract
Tesseract ایک آزاد اور کھلا ذریعہ کمانڈ لائن OCR انجن ہے جو 1980 کے وسط میں ہیلوٹ پیکر نے تیار کیا ہے اور 2006 کے بعد سے گوگل کی طرف سے برقرار رکھا ہے. Tesseract C / C ++ میں لکھا جاتا ہے. ان کی تنصیب کے طریقہ کار میں کافی جامع ہے. میں ان کو ٹریک کرسکتا ہوں اور ٹیسریرک کو اضافی خرابیوں کا سراغ لگانا بغیر چلا سکتا ہوں.

Tesseract واپسی سادہ متن، HOCR، یا پی ڈی ایف میں نتائج. اصل تصویر پر متن کو سپرد کیا جاتا ہے.

قیمت: Tesseract ایک مفت کھلا ذریعہ سافٹ ویئر ہے.

Teceract نقل و حمل کا نتیجہ

ٹیسریکٹ نے ریکرز کمیشن کے اوپر رسید کے نچلے حصے میں لکھاوٹ متن کو صحیح طریقے سے پوسٹ کیا ہے (براہ کرم دوبارہ آو …). ہم نے کسی بھی ٹولز کا تجربہ نہیں کیا جو صحیح طور پر اوپر لکھا ہوا ہے (چپس آہہ مجھے خوش رہتا ہے). تاہم، اس دستاویز میں قیمتوں میں Tesseract نے ایک واضح غلطی کی ہے.

ڈیسک ٹاپ اے پی پی
ایڈوب ایکروبیٹ پرو
ایڈوب ایکروبیٹ پرو نے اے سی آر ٹولز کو API تک رسائی فراہم نہیں کی ہے، لیکن دستاویزات کے بیچ پر عمل درآمد ہوتا ہے. ایکروبیٹ پرو صرف PDF کو قبول کرتا ہے (تصاویر میں شامل نہیں ہے) اور صرف پی ڈی ایفز واپس آسکتا ہے جس میں تلاش قابل متن ان لائن ہے. اگر آپ کو ایک اور ٹیکسٹ فائل کی ضرورت ہو تو، آپ Acrobat میں چلنے کے بعد PDF سے سادہ ٹیکسٹ فائلوں کو نکالنے کے لئے Docsplit استعمال کرسکتے ہیں.

قیمت: ایڈوب ایکروبیٹ پرو ڈی سی ایک ڈیسک ٹاپ ایپ ہے، لیکن اس کا استعمال کرنے کے لئے ماہانہ رکنیت فیس ہے. یہ درخواست ٹیکسسوپ کے ذریعہ عوامی لائبریریوں میں دستیاب ہے $ 24 کے ایڈوب کی سالانہ سالانہ شرح سے رعایتی شرح. TechSoup سے $ 5 انتظامی فیس کے ساتھ اس پیشکش کی درخواست کے بعد، آپ کو اپنے ڈسکاؤنٹ کی رکنیت کے پہلے سال کے لئے براہ راست $ 12.99 کو ایڈوب ہر ماہ ادا کرنے کی ضرورت ہے.

ایڈوب ایکروبیٹ کا پوسٹنگ کا نتیجہ

ایڈوب ایکروبیٹ پرو نے اوپر تاریخی دستاویزات کے لئے غلط نتائج تیار کیے ہیں.

کلاؤڈ سروس
ابی بادل
ہم سب کلاؤڈ سروسز کی آزمائش میں سے ہیں، ابیبی کلاؤڈ قائم کرنا آسان ہے، کیونکہ ہم پورے کلاؤڈ پلیٹ فارم تک رسائی کو ترتیب نہیں دیتے ہیں. او آر سی واحد خصوصیت ہے. فوری شروع گائیڈ کا استعمال کرتے ہوئے شروع کریں. ابیبی کو 1993 سے OCR کاروبار میں شامل کیا گیا ہے، اور ان کے بادل API کی خدمات کے علاوہ، وہ بھی خود ہی ہیں

Leave a Reply

Your email address will not be published. Required fields are marked *