Veri Yakalama
Veri yakalama kavramı birçok alanda karşımıza çıkmaktadır. Yüzyıllar boyunca insan bilgileri kağıda aktarıp bunları klasörlerde veya kutularda saklamaktır. Kişisel bilgisayarlar ve yazıcıların popüler olmaya başlamasıyla gerekli bilgiler kağıda basılması çok kolay hale geldi. Özellikle son yıllarda sözleşmeler, faturalar, biletler, özgeçmişler ve daha bir çok doküman tipi tarayıcılar yardımıyla çıktı olarak alındı. Bununla birlikte kişisel bilgisayarla birlikte bilgileri dijital olarak depolamak da çok daha kolay hale geldi. Son yıllarda kullanımı ciddi düzeyde artan
Dropbox
ve
Google Drive
gibi bulut depolama çözümleri bunu daha da kullanışlı hale getirdi. Her ne kadar dijital bilgi depolamaya geçmeye başlıyor olsak da halen kağıt üzerinde çok fazla bilgi bulunuyor. Bu yüzden veri yakalama kritik hale gelmiştir.
Veri Yakalama Nedir?
Herşeyden önce veri yakalama; dokümanları taramaya veya resimlerini oluşturmaya dayalı olarak, kağıt belgelerdeki bilgileri çıkarmayı sağlar. Bununla birlikte bunları yapısal bir biçimde saklamaya yarayan bir teknolojidir. Bu noktada yapılandırılmış bir biçimden kasıt; bilgisayarların anlamasına ve iletmesine yardımcı olmaktır. Hatta tutarlı ve kolay anlaşılır bir format oluşturmaktır. Büyük metin dosyaları yerine metinler parçalara böler. Ayrıca önemli bilgileri işaretlemek için tanımlayıcılarla işaretler. Mesela bu, bir özet oluşturmak için kağıt üzerinde bir metin bir işaretlemek gibidir. Bu veriler daha sonra bir CSV, JSON, XLSX veya XML’e dönüşür. Aşağıda bir fatura dokümanına ait bilgileri JSON formatı örneğini görebilirsiniz:
[ {
“Alıcı”: “ABC Ltd.”,
“Tarih”: “20-01-2023”,
“Tutar”: “20,00”,
“Para Birimi”: “TL”}]
Nasıl Yapılır?
Kağıt belgelerden veri yakalamanın aşamaları vardır. İlk olarak kağıt belgeyi PDF veya JPG gibi dijital bir belgeye dönüştürmek gereklidir. Bu genellikle bir tarama cihazı veya cep telefonu ile olur. Sonuç olarak belge dijital olur olmaz belgenin bir görüntüsüne sahip olursunuz. Ancak henüz bilgisayarın okuyabileceği hiçbir bilgi yoktur. Öyle ki bir bilgisayar için bu sadece bir görüntüdür, metin değildir.
Elde yer alan resmi metne dönüştürmek için OCR teknolojisi sahne alır. OCR, optik karakter tanıma anlamına gelir. Bu teknoloji, bir belgenin resmini yapılandırılmamış bir metin dosyasına dönüştürür. Ayrıca resmin kalitesi, ışıklandırma ve belgeye tarama noktasından olan uzaklık, dönüştürme işleminin sonucunu ve doğruluğunu etkiler.
“OCR dönüşümünden sonra elimizde bir metin olsa da bu metin henüz bilgisayarın anlayacağı formatta değildir.”
Daha sonra, metni okunabilen, önemli bilgileri tanımlayabilen sistem elde etmektir. Ayrıca gereken doğru bilgileri çıkaran akıllı bir ayrıştırma sistemi kullanmaktır.
Sonuç olarak veri yakalama projelerinizde uzmanlaşmış üçüncü tarafları kullanmak hem zaman hem de para açısından çok daha verimlidir. Öyle ki Papirus AI bu alanda uzmanlaşmış bir şirkettir. Şablon tanımlama ihtiyacı olmadan herhangi bir belge türünden veri çıkarmak için Papirus AI’i tercih edebilirsiniz.