Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê

Nguyễn, Quốc Dũng; Phan, Nguyệt Minh; Phan, Nguyệt Thuần

Please use this identifier to cite or link to this item: https://elib.vku.udn.vn/handle/123456789/1862

Full metadata record

DC Field	Value	Language
dc.contributor.author	Nguyễn, Quốc Dũng	-
dc.contributor.author	Phan, Nguyệt Minh	-
dc.contributor.author	Phan, Nguyệt Thuần	-
dc.date.accessioned	2021-12-06T03:34:40Z	-
dc.date.available	2021-12-06T03:34:40Z	-
dc.date.issued	2021	-
dc.identifier.isbn	978-604-84-5998-7	-
dc.identifier.uri	http://elib.vku.udn.vn/handle/123456789/1862	-
dc.description	Hội thảo Khoa học Quốc gia về Công nghệ thông tin và Ứng dụng trong các lĩnh vực lần thứ 10 (CITA-2021); Chủ đề: Xử lý ảnh và ngôn ngữ tự nhiên; từ trang 185-190.	vi_VN
dc.description.abstract	Nhận dạng ký tự quang học (OCR) là công cụ chuyển đổi văn bản giấy thành văn bản số. Tuy nhiên, văn bản số OCR thường chứa nhiều lỗi do các hạn chế trong kỹ thuật nhận dạng hoặc do chất lượng văn bản giấy thấp. Trong bài báo này, chúng tôi trình bày một mô hình ngôn ngữ thống kê sử dụng cho sửa lỗi văn bản OCR. Mô hình này kết hợp các mô hình n-gram và mô hình lỗi OCR, trong đó mô hình n-gram dựa trên thống kê các ngữ cảnh n-gram và mô hình lỗi OCR dựa trên thống kê các mẫu ký tự sửa lỗi. Mô hình được đánh giá trên một tập dữ liệu văn bản OCR tiếng Việt tiêu chuẩn và cho kết quả sửa lỗi chính xác và hiệu quả.	vi_VN
dc.language.iso	vi	vi_VN
dc.publisher	Nhà xuất bản Đà Nẵng	vi_VN
dc.subject	OCR	vi_VN
dc.subject	hậu xử lý văn bản	vi_VN
dc.subject	mô hình ngôn ngữ	vi_VN
dc.subject	n-gram	vi_VN
dc.subject	mô hình lỗi	vi_VN
dc.title	Sửa lỗi văn bản OCR Tiếng Việt sử dụng mô hình ngôn ngữ thống kê	vi_VN
dc.type	Working Paper	vi_VN
Appears in Collections:	CITA 2021

Files in This Item:

Sign in to read

Show simple item record