Automatická oprava textu v různých jazycích



Podobné dokumenty
Unstructured data pre-processing using Snowball language

CENÍK. Cena za 20 minut. Cena za 30 minut Cena za 45 min Cena za hodinu. včetně. Tlumočení po telefonu

Dolování z textu. Martin Vítek

Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

AquaLingua. Uživatelský manuál

Automatické vyhledávání informace a znalosti v elektronických textových datech

Moderní systémy pro získávání znalostí z informací a dat

Název materiálu: Open Office

Výuka softwarového inženýrství na OAMK Oulu, Finsko Software engineering course at OAMK Oulu, Finland

Uživatelem řízená navigace v univerzitním informačním systému

Office Synchronizer. Poznámky k verzi. Verze 1.66

Obsah KAPITOLA 1 Několik slov o Wordu

Výukový materiál zpracovaný v rámci projektu Výuka moderně Registrační číslo projektu: CZ.1.07/1.5.00/

Office Synchronizer Poznámky k verzi. Verze 1.61

Příloha č. 1: Vstupní soubor dat pro země EU 1. část

Větná polarita v češtině. Kateřina Veselovská Žďárek Hořovice,

Výsledky mezinárodního výzkumu OECD PISA 2009

Návrh a implementace algoritmů pro adaptivní řízení průmyslových robotů

Obsah. Povinnosti. Výhody (kurz)

Využití tabulkového procesoru MS Excel

Dobývání znalostí z textů text mining

Aplikace výsledků European Social Survey a Schwartzových hodnotových orientací v oblasti reklamy

ČESKÁ TECHNICKÁ NORMA

Využití metod strojového učení v bioinformatice David Hoksza

Lineární diskriminační funkce. Perceptronový algoritmus.

PŘÍLOHA. návrhu rozhodnutí Rady

Informatika Datové formáty

Klasifikace webových stránek na základě vizuální podoby a odkazů mezi dokumenty

Strojové učení Marta Vomlelová

Často kladené dotazy REJSTŘÍK

Nejdůležitější změny ve srovnání s předchozí verzí EN 1026:2000 jsou uvedeny v předmluvě této normy.

Google Site Search Webové vyhledávání Google pro vaši organizaci

text, hladká sazba, typografická pravidla

Support Vector Machines (jemný úvod)

Financování VVŠ v ČR

Hlasová biometrie & ověřování identity

Srovnání aplikací pro převod dat z formátu PDF do Excelu

ČESKÁ TECHNICKÁ NORMA

STATISTIKY CESTOVNÍHO RUCHU JIŽNÍ ČECHY 2007

Doplňování chybějících hodnot v kategoriálních datech 2.00

PROTOKOL O OTEVÍRÁNÍ NABÍDEK PODANÝCH V ELEKTRONICKÉ PODOBĚ

ČESKÁ TECHNICKÁ NORMA

ČESKÁ TECHNICKÁ NORMA

Klasifikační metody pro genetická data: regularizace a robustnost

Algoritmy a struktury neuropočítačů ASN - P10. Aplikace UNS v biomedicíně

Mezinárodní výzkum PISA 2009

Anotace žákovského korpusu. Alena Poncarová Žďárek, Listopad 2011

NEPERIODICKÉ PUBLIKACE 2016

První zjištění z výzkumu OECD PIAAC MŠMT,

ANALÝZA A OPTIMALIZACE VÝROBNÍCH PROCESŮ MALOSÉRIOVÉ SLOŽITÉ VÝROBY V NOVÝCH VÝROBNÍCH PROSTORECH NA ZÁKLADĚ DISKRÉTNÍ SIMULACE

Financování VVŠ v ČR

(7-10 studentů) S14101 AJ pro úplné začátečníky A0 ÚT 16:00-17: Kč

NEPERIODICKÉ PUBLIKACE 2017

Ceník přepravce BALIKSERVIS Doba přepravy

PŘÍLOHA. návrhu rozhodnutí Rady

Tovek Tools. Tovek Tools jsou standardně dodávány ve dvou variantách: Tovek Tools Search Pack Tovek Tools Analyst Pack. Připojené informační zdroje

ČESKÁ TECHNICKÁ NORMA

Marta Vomlelová

Datové struktury. Zuzana Majdišová

SOU Valašské Klobouky. Radomír Soural. Zkvalitnění výuky prostřednictvím ICT CZ.1.07/1.5.00/ Název školy SOU Valašské Klobouky, Brumovská 456

Rada Evropské unie Brusel 18. května 2017 (OR. en)

Kódy pro formát čísla

Vznik a vývoj DDI. Struktura DDI. NESSTAR Systém pro publikování, prezentaci a analýzu dat. PhDr. Martin Vávra, Mgr. Tomáš Čížek

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

ČESKÁ TECHNICKÁ NORMA

MAPOVÉ PODKLADY A VYUŽITÍ VÝPOČETNÍ TECHNIKY A GISU PRO TVORBU TRAS LINEK MAP BASIS AND USING OF COMPUTERS AND GIS FOR TRANSPORT LINE DESIGN

ICT podporuje moderní způsoby výuky CZ.1.07/1.5.00/ Zeměpis- regiony Evropy. Mgr. Jana Křapková

II.3 Toky lidských zdrojů v oblasti vědy a technologií

Systém pro poloautomatické propojení textů se zdroji

C Výzkum a vývoj v ICT

Inovace CRM systémů využitím internetových zdrojů dat pro malé a střední podniky. Ing. Jan Ministr, Ph.D.

Metodologie řízení projektů

ANALÝZA DLOUHODOBÉ NEZAMĚSTNANOSTI V ZEMÍCH EU # ANALYSIS OF LONG-TERM UNEMPLOYMENT IN EU COUNTRIES. KLÍMA Jan, PALÁT Milan.

Business Intelligence

SROVNATELNOST ŠKÁLY SOCIÁLNÍHO

INSTALACE ZAŘÍZENÍ AUTONOMNÍ DETEKCE A SIGNALIZACE JAKO EFEKTIVNÍ METODA PRO SNÍŽENÍ POČTU ÚMRTÍ PŘI BYTOVÝCH POŽÁRECH

Odborný článek. Petr Klán, VŠE v Praze, IMRAD Introduction, Material and Method, Results, Discussion

Osnova kurzu OBSLUHA PC ZÁKLADNÍ ZNALOSTI. pilotního projektu v rámci I. Etapy realizace SIPVZ

ZÍSKÁVÁNÍ ZNALOSTÍ Z DATABÁZÍ

ANNEX PŘÍLOHA. návrhu rozhodnutí Rady

Textmining a Redukce dimenzionality

Postavení českého trhu práce v rámci EU

DETEKCE ANOMÁLNÍHO CHOVÁNÍ UŽIVATELŮ KATASTRÁLNÍCH MAPOVÝCH SLUŽEB

Podmínky pro výjezd studentů do zahraničí. ERASMUS+ a další programy

{LINGO} Specifikace produktu: - Velikost: 61x18x8mm. - Hmotnost: 8,6 g. - Dosah vysílání: 10m

Aplikace obrazové fúze pro hledání vad

Výdaje na základní výzkum

ČESKÁ TECHNICKÁ NORMA

Pracovní list č. 14 Microsoft Word 2010 jazykové nástroje, reference I Jazykové nástroje

ČESKÝ STATISTICKÝ ÚŘAD

ANGLIČTINA OBECNÝ JAZYK A KONVERZACE (7-10 STUDENTŮ) OBECNÝ JAZYK (4-6 STUDENTŮ) KURZY 50+ (7-10 STUDENTŮ) Počet hodin.

Modely a sémantika. Petr Šaloun VŠB-Technická univerzita Ostrava FEI, katedra informatiky

Název: Osídlení Evropy

Gymnázium,Čelákovice, J. A. Komenského 414 INFORMATIKA. Prezentace Předmětu

ČESKÁ TECHNICKÁ NORMA

ČESKÁ TECHNICKÁ NORMA

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

E-government z pohledu statistiky

Analytické podklady pro politiku VaVaI

Transkript:

Automatická oprava textu v různých jazycích Bc. Petr Semrád, doc. Ing. František Dařena Ph.D., Ústav informatiky, Provozně ekonomická fakulta, Mendelova univerzita v Brně, xsemrad@mendelu.cz, frantisek.darena@mendelu.cz Abstrakt Příspěvek rozebírá problematiku korekce velkého množství textu v nestrukturované podobě a zabývá se jejich automatickou kontrolou pro různé typy jazyků. Je zde popsána metodologie, jakými fázemi kontrola textu postupuje a na jakém principu je oprava textu založena. V závěru jsou uvedeny výsledky pro různé jazyky a různě velké soubory. Klíčová slova Kontrola slov, kontrola pravopisu, automatická oprava slov, vektor, mapa, matice slov Abstract The report is focused on the problems of correction of the large text in the unstructured form and is concentrated on their automatic check in the different languages. The methodology, stadiums of automatic check and the principle of check are described in the report. The conclusion presents the findings for different languages and variously large files. Key Words Check of words, spell check, automatic correction of words, vector, map, matrix of words Úvod a cíl Internet v dnešní podobě obsahuje obrovské množství informací, které jsou interpretovány v různých formátech a velikostech. Velké procento informací tvoří nestrukturované textové dokumenty napsané v přirozeném jazyce. Tyto dokumenty zahrnují novinové články, zákaznické recenze, legislativní dokumenty a další. Díky charakteru přirozeného jazyka roste i procento chybovosti slov obsažených v nestrukturovaném textu. Chyby v textech mohou vznikat z různých důvodů, jako např. chybná gramatika nebo překlepy autora při psaní textu, recenzí apod. (Stensby, 2008). Mezi základní úlohy dolování znalostí z textových dat jsou např. úlohy klasifikace, predikce, shlukování apod. Základem zpracování je analýza a vytvoření modelu, který bude následně reprezentovat danou množinu dat. Tvorba modelů znamená jejich převedení do strukturované podoby tak, aby bylo možné využít již existující algoritmy pro data mining. Častou reprezentací pro usnadnění práce s textovými daty v případě zjišťování četnosti unikátních slov v dokumentech nebo jiných algebraických operacích jsou vektory (Howland,

Park, 2004). S každým dokumentem se pracuje v rámci jednoho vektorového prostoru a každé slovo jim obsažené ve vektoru je spojeno s jeho frekvencí výskytu v dokumentu (Wang, Zhang, Vassileva, 2010; Zhang, Zhu, 2005). Velké rozměry vektorů u rozsáhlých dokumentů jsou problematické, a proto je vždy vhodné tyto rozměry redukovat. Jednou z možností redukce rozsáhlých vektorů je kontrola a oprava gramatiky. Ústav Informatiky PEF MENDELU se zaměřuje výzkum a analýzu vlivu předzpracovaných textových dokumentů na výsledky úloh text mining. Součástí výzkumu bylo vytvořit software, který by provedl předzpracování textů podle výše definovaného cíle a automatickou opravu slov v různých jazycích se zachováním vstupní struktury textu. Současný stav problematiky V současnosti je k dispozici více nástrojů a přístupů pro korekci slov v různých jazycích. Nástroje oprav textu lze dělit podle funkcionality, která buď při korekci slov vyžaduje určitou vstupní odezvu uživatele, nebo provádí opravu zcela automaticky. Volně dostupné online nástroje např. http://www.spellchecker.net/ nebo http://www.spellcheck.net/ fungují na principu interakce s uživatelem, který postupně při korekci slov manuálně určuje, za jakou nejvhodnější alternativu chce chybné slovo zaměnit. Uvedené alternativní nástroje jsou ovšem zcela nevyhovující, pokud by uživatel chtěl opravit velké množství nestrukturovaného textu. Naopak nástroje automatické korekce slov jsou především placené sofistikované programy, které mohou taktéž zajistit opravu textu s interakcí uživatele nebo tuto korekci provést zcela automaticky. Software pracuje na principu využití již vytvořeného slovníku aplikace MS Word 2010 s rozsáhlou databází pro různé jazyky. Pracuje s jazyky bulharština, čeština, dánština, holandština, angličtina, finština, francouzština, němčina, řečtina, maďarština, italština, norština, polština, portugalština, rumunština, ruština, slovenština, španělština, švédština, turečtina. Typy podporovaných jazyků jsou závislé na nainstalované jazykové sadě MS Office 2010, případně je možné doinstalovat jazykovou sadu i pro jiný jazyk. Software pracuje se slovníkem aplikace, který provádí kontrolu chybovosti a případně podle typu chyby zobrazuje alternativy slova dle určitého klíče. Materiál a metodologie řešení Specifikace vstupu Vstupní soubory jsou složeny z textových dat skládajících se z písmen a interpunkčních znamének, které jsou konkrétně specifické pro zvolený jazyk. Dopředu je také nutné počítat i

s možností výskytu vícenásobné interpunkce třeba uprostřed slova nebo spojující dvě či více slov apod. Před spuštěním zpracování je nutné předem zvolit jazyk dokumentů, podle kterého se bude využívat i příslušný slovník pro automatickou kontrolu pravopisu slov. Předzpracování textu a převod dat do matice V první fázi předzpracování vstupního textu program využívá specifickou metodu, která pomocí regulárního výrazu provádí kontrolu správnosti všech termů a vstupní proměnnou upravuje o vloženou mezeru za tečkou, čárkou, vykřičníkem, otazníkem u těch slov, které ji neobsahují. Následně jsou takto upravená data rozdělena do datové struktury typu vektorvektor, kde každý řádek primárního vektoru reprezentuje fyzický celý řádek dokumentu a sekundární vektor reprezentuje term daného řádku včetně interpunkce. Převedení termů z matice do mapy V druhé fázi dochází k převodu termů uložených v matici do tzv. mapy, ve které je každý prvek definován unikátním klíčem (klíč tvoří term) pro rychlé vyhledávání v mapě. Každý klíč je současně spojený s hodnotou klíče, která si ukládá frekvenci výskytu všech identických termů v matici. Obsahuje-li matice více slov se stejným klíčem, je pouze zvýšena frekvence u termu, který již byl do mapy uložen dříve. Proces uložení termů z matice do mapy probíhá s využitím regulárního výrazu pro odstranění v této fázi nedůležité interpunkce, takže ve výsledku je v mapě uložen vždy unikátní term v rámci celých dokumentů s jeho odpovídající frekvencí. Frekvence daného termu je založena na lokální váze u každého slova. Lokální váha Lokální váha se zohledňuje při práci se vstupním nestrukturovaným textem. Je založena na přepočtu výskytu i -tého slova v dokumentu s využitím metody Term frequency. Výstupem metody je unikátní term Kontrola a oprava termů i obsahující vždy frekvenci i -tého termu. Třetí fázi programu tvoří časově náročná kontrola a oprava jednotlivých termů v matici, která zabere 80 % veškerého programového úsilí. V této fázi je kontrola uložených termů v matici provedena pomocí speciální knihovny pro práci s jazykovými slovníky v aplikaci MS Word. Každý term je nejprve zbaven diakritiky s využitím stejné funkce, a následně je pro něj v případě chyby navrhnuto jedna či více alternativ. Výběr vhodnosti u více alternativ je proveden na základě již vytvořené mapy tak, že původní term je nahrazen za alternativu

s nejvyšší frekvencí v porovnání s odpovídajícími hodnotami (termy) v mapě. Alternativní term s nejvyšší frekvencí se nejčastěji vyskytuje v textu, a proto je nejvíce pravděpodobné, že by korekce měla být provedena tímto způsobem. V případě, že žádné z alternativ (žádná alternativa) nejsou uloženy v mapě, automaticky je term nahrazen za první v pořadí. Přepočítání redukce mapy Ve čtvrté poslední fázi je proveden rychlý přepočet redukce mapy termů po provedené opravě textu (textů). Redukce neboli zmenšení počtu unikátních slov ve vektoru je po automatické opravě viditelná. Výsledky Výsledkem zpracování textů jsou uložené a opravené vstupní soubory pro jednotlivé jazyky, ale i shrnující dokument zjištěných a naměřených výsledků ve formátu MS Excel. Závěrečný dokument (Tabulka 1) obsahuje pro každý jazyk: Počet opravených slov, velikost vektoru unikátních slov před a po automatické opravě textu, informativně celkový čas běhu programu. Informativní doba běhu programu je z důvodu, že z hlediska časové a výpočetní náročnosti byla kontrola rozsáhlých vstupních souborů provedena na výkonnější výpočetní technice. Tabulka 1 Výstupní informace a výsledky Jazyk na vstupu Velikost [MB] Opravená slova [počet] Vektor před korekcí [počet unikátních slov] Vektor po korekci [počet unikátních slov] čeština 1,97 23042 33241 25745 finština 5,79 29476 73842 67686 portugalština 15 128276 63484 42058 ruština 30,5 68146 82003 69858 Závěr Software zcela plní účely a požadavky, pro které byl vytvořen. Při testování souborů bylo ověřeno, že program automaticky opravuje chybně zapsané termy za navrhované alternativy s aktivním využitím předem vytvořené četnosti alternativ a ponechává výstupní dokument prakticky ve stejné podobě. Nevýhodou je určitá časová náročnost oprav objemných dokumentů na pomalejší výpočetní technice, se kterou je nutné dopředu počítat. V softwaru mezi výběrem jazyka není zahrnuta možnost opravy textu v čínském a japonském jazyce z důvodů velkých kulturních odlišností.

Tento článek vznikl v rámci řešení projektu IGA 4/2013 Analýza vlivu předzpracování textových dokumentů na výsledky úloh text mining. Zdroje Howland, P., Park., H. Cluster-Preserving Dimension Reduction Methods for Efficient Classification of Text Data. In: Berry, M. W. (ed.) Survey of text mining: clustering, classification, and retrieval. New York: Springer, 2004. ISBN 0-387- 95563-1. Joachims, T. Learning to classify text using support vector machines. Norwell: Kluwer Academic Publishers, 2002. ISBN 079237679X. Silva, C., Ribeiro, B. Inductive Inference for Large Scale Text Classification: Kernel Approaches and Techniques. Springer, 2010. ISBN 978-3-642-04533-2. Stensby, A. M. Stochastic Learning-Based Estimation Methods for Pattern Recognition and Its Application to Topic Detection and Tracking. Grimstad: University of Adger, 2008. Wang, Y., Zhang, J., Vassileva, J. Towards Effective Recommendation of Social Data across Social Networking Sites. In: Dicheva, D., Dochev, D. (eds.) Artificial Intelligence: Methodology, Systems, and Applications. Springer, 2010, s. 61 70. Zhang, X., Zhu, X. Extended Bi-gram Features in Text Categorization. In: Proceedings of IbPRIA (2)'2005, 2005, s. 379 386.