NLP zpracování přirozeného jazyka

Podobné dokumenty
NLP & strojové učení

Korpusová lingvistika a počítačové zpracování přirozeného jazyka

MetaCentrum. Martin Kuba CESNET

MetaCentrum. Tomáš Rebok MetaCentrum NGI, CESNET z.s.p.o. CERIT-SC, Masarykova Univerzita Olomouc,

CERIT SCIENTIFIC CLOUD. Centrum CERIT-SC. Luděk Matyska. Praha, Seminář MetaCentra,

Provozní statistiky centra CERIT-SC

METACENTRUM. Miroslav Ruda CESNET. Seminář MetaCentra, Praha

MetaCentrum. Martin Kuba CESNET

CERIT-SC reloaded. už se všichni těšíme. Seminář gridového počítání,

aktivita CESNETu společně MU, UK a ZČU sdružuje výpočetní prostředky

Výpočetní zdroje v MetaCentru a jejich využití

MetaCentrum. Miroslav Ruda. březen 2017, Brno CESNET

METACentrum Český národní gridovýprojekt. Projekt METACentrum. Jan Kmuníček ÚVT MU & CESNET. meta.cesnet.cz

MetaCentrum. Aktuální stav anové služby

MetaCentrum. Miroslav Ruda. listopad 2013 CESNET

Czech National e-infrastructure. Projekt MetaCentrum. Jan Kmuníček CESNET. meta.cesnet.cz

MetaCentrum a náro (nejen matematické) výpočty

Aktuální stav. Martin Kuba CESNET a ÚVT MU

METACentrum zastřešení českých gridových aktivit

Hlavní využití počítačů

Czech National e-infrastructure. Projekt MetaCentrum. Jan Kmuníček CESNET. meta.cesnet.cz

Cloudy a gridy v národní einfrastruktuře

Numerické modelování interakce proudění a pružného tělesa v lidském vokálním traktu

Představení Kerio Control

Martin Kuba, Daniel Kouřil seminář řešitelů, Žďár n.s. 1

Paralelní výpočty na clusteru KMD

METACENTRUM. Miroslav Ruda CESNET. Konference CESNET, Praha

Inovace studia obecné jazykovědy a teorie komunikace ve spolupráci s přírodními vědami. reg. č.: CZ.1.07/2.2.00/

Zadávací dokumentace

Martin Moravec Run Rate Program Leader

Grid jako superpočítač

MetaCentrum. datové služby. Miroslav Ruda, Zdeněk Šustr

1x server pro distanční vzdělávání (výpočtový server)

Gymnázium Vysoké Mýto nám. Vaňorného 163, Vysoké Mýto

Co by kdyby? Simulační prostředí pro BIG data v energetice. Filip Procházka, Masarykova Univerzita, Mycroft Mind, a.s. filip.prochazka@gmail.

Projekt 7006/2014 SDAT - Sběr dat pro potřeby ČNB. Návrh realizace řešení

Příloha č. 1 zadávací dokumentace. Technická dokumentace, specifikace požadovaného plnění a popis hodnocení

Jednotlivé hovory lze ukládat nekomprimované ve formátu wav. Dále pak lze ukládat hovory ve formátu mp3 s libovolným bitrate a také jako text.

Technická specifikace ČÁST 1. Místo plnění: PČR Kriminalistický ústav Praha, Bartolomějská 10, Praha 1


Hardware - minulý rok

STORAGE SPACES DIRECT

HAL3000 Niké II moderní síla pro náročné hraní her i práci

C2115 Praktický úvod do superpočítání

MetaCentrum. Miroslav Ruda CESNET

Gridy v České republice. Luděk Matyska Masarykova univerzita v Brně CESNET, z.s.p.o.

Výpočetní clustery v METACentru


SUPERPOČÍTAČOVÉ CENTRUM. Luděk Matyska

Zadávací dokumentace na veřejnou zakázku malého rozsahu s názvem Obměna informačních technologií

ISPforum 2016 Jezerka NAT++

Výměna Databázového serveru MS SQL

SOUV-VVC, o.p.s. Nasavrky. Informační a komunikační technologie

Správa dat v podniku. MI-DSP 2013/14 RNDr. Ondřej Zýka, ondrej.zyka@profinit.eu




Text Mining: SAS Enterprise Miner versus Teragram. Petr Berka, Tomáš Kliegr VŠE Praha

Osobní počítač. Zpracoval: ict Aktualizace:

Zadání vzorové úlohy výpočet stability integrálního duralového panelu křídla

Povídání na téma. SUPERPOČÍTAČE DNES A ZÍTRA (aneb krátký náhled na SC) Filip Staněk

Institucionální rozvojový plán Ostravské univerzity v Ostravě pro rok Předkládá: Jiří Močkoř / rektor

VÝZVA K PODÁNÍ NABÍDKY NA VEŘEJNOU ZAKÁZKU MALÉHO ROZSAHU

ZADÁVACÍ DOKUMENTACE PRO VEŘEJNOU ZAKÁZKU

VÝPOČETNÍ TECHNIKA OBOR: EKONOMIKA A PODNIKÁNÍ ZAMĚŘENÍ: PODNIKÁNÍ FORMA: DENNÍ STUDIUM

ZÁKLADY PROGRAMOVÁNÍ. Mgr. Vladislav BEDNÁŘ /14

Oracle Exalogic: Ideální platforma pro Cloud Computing

Příloha č.2 - Technická specifikace předmětu veřejné zakázky

HAL3000 MČR Pro tak hrají skuteční profesionálové

GTX Titan. Osobní počítač (anglicky personal computer, zkratka PC, odborně také osobní mikropočítač) je označení pro

Od virtualizace serverů k virtualizaci desktopů. Nebo opačně? Jaroslav Prodělal, OldanyGroup VMware VCP, consultant

Příloha č. 1 k Č.j.: OOP/10039/ Specifikace zařízení

Paralelní výpočty ve finančnictví

Virtualizace koncových stanic Položka Požadováno Nabídka, konkrétní hodnota

Petr Nevrlý

ICT PLÁN ŠKOLY. Spisový / skartační znak. Č. j.: P01/2015. Základní škola a Mateřská škola Želešice, příspěvková organizace

Technická specifikace předmětu plnění

PŘÍPADOVÁ STUDIE ŘEŠENÍ DATOVÉHO ÚLOŽIŠTĚ S REPLIKACÍ POUŽITÉ ŘEŠENÍ: DELL EMC STORAGE, SERVER, NETWORKING A SLUŽBY IT AWACS. Kateřina, marketing, DNS

FUJITSU PRIMEFLEX. Human Centric Innovation in Action. Integrované systémy pro Vaše řešení. 30. května 2017 Pavel Čáslavský. 0 Copyright 2017 FUJITSU

INOVACE ODBORNÉHO VZDĚLÁVÁNÍ NA STŘEDNÍCH ŠKOLÁCH ZAMĚŘENÉ NA VYUŽÍVÁNÍ ENERGETICKÝCH ZDROJŮ PRO 21. STOLETÍ A NA JEJICH DOPAD NA ŽIVOTNÍ PROSTŘEDÍ

Přechod na virtuální infrastrukturu

CENÍK SLUŽEB FIREMNÍHO ŘEŠENÍ

HPC Users' Access Workshop: nový superpočítač Salomon

Herní PC HAL3000 Artemis výkonný lovec pro nekončící zábavu

OptimiDoc dokáže takové dokumenty zpracovat a distribuovat napříč firmou.

Výzva na podání nabídek na veřejnou zakázku malého rozsahu

Výběr zdrojů, zadávání a správa úloh v MetaCentru

<Insert Picture Here> Software, Hardware, Complete

Manuál pro web praktik: Asistent

Databáze s tisíci uložených procedur. Pavel Bláhovec, DiS pavel@blahovec.cz

Vlastnosti produktu. Neutuchající pracovní nasazení s HAL3000 EliteWork

IBM Virtualizace. Virtualizace

Co je to počítač? Počítač je stroj pro zpracování informací Jaké jsou základní části počítače? Monitor, počítač (CASE), klávesnice, myš

Český jazyk ve 2. ročníku

CERIT-SC. Luděk Matyska, David Antoš, Aleš Křenek

Praha, Martin Beran

C2115 Praktický úvod do superpočítání

Vlastnosti produktu. Neutuchající pracovní nasazení s HAL3000 EliteWork

IBM BladeCenter VYSOCE VÝKONNÝ, FLEXIBILNÍ A NEUVĚŘITELNĚ PROSTOROVĚ EFEKTIVNÍ SYSTÉM NOVÉ KONCEPCE

Hyperkonvergovaná řešení jako základní stavební blok moderního IT

Transkript:

NLP zpracování přirozeného jazyka Miloslav Konopík 14. května 2013 1 Úvod 2 Motivace 3 Příklady úloh 4 Kouzlo velkých dat 5 Výpočet Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 1 / 14

Co je to NLP? NLP = Natural Language Processing (zpracování přirozeného jazyka Computational linguistic (komputační lingvistika Aplikační oblasti Vyhledávání textů (Google. Strojový překlad (IBM word model Podpora marketingu (analýza sentimentu. Podpora PR (třídění e-mailů. Podpora rozpoznávání (řeči, skenovaných textů. Oprava pravopisu. Odpovídání otázek (SIRI, IBM Watson. další... Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 2 / 14

Nestrukturovaná data Množství dat v osmdesátých létech. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 3 / 14

Nestrukturovaná data Množství dat nyní. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 4 / 14

IBM Watson 14. února 2011 vyhrál vědomostní soutěž o 15-ti otázkách proti Kenu Jenningsovi a Bradu Rutterovi. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 5 / 14

Člověk VS počítač NLP není soutěž, ale nástroj, jakým může počítač pomáhat. Například filtrování spamu. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 6 / 14

Tokenizace Začněme něčím jednodušším... Tokenizace = rozdělení textu na: slova, věty, resp. souvětí, dokumenty, odstavce, věty souvětí, slabiky, další jednotky. První systém pro strojový překlad byl představen 7. ledna 1954 v ústředí firmy IBM. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 7 / 14

Tokenizace Ale ani to není vždy zcela jednoduché. 在北京, 如果迷失方向, 完全不必着急 北京是个大城市, 北京人对外国人都很热情 zkratky (s.r.o., data, hodiny (12. března 2013, 12:30, 3.3,... Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 8 / 14

Rozpoznávání pojmenovaných entit NER - Určení významu slov a slovních spojení, která mají určitý předem definovaný význam. Například: Jména osobností. Názvy měst. Názvy států. Názvy společností. Data. Čísla.... Datum Společnost První systém pro strojový překlad byl představen 7. ledna 1954 v ústředí firmy IBM. Nasazeno v ČTK. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 9 / 14

Latentní sémantika Předpoklad: význam slova je určen jeho okolím. Nástroj: strojové učení a velká data. You shall know a word by the company it keeps (Firth, J. R. 1957:11 Okolí: Příklad: Globální LSA, PLSA, LDA. Lokální HAL, COALS, RI. Globální loď, plout, plavidlo, voda, výletní, posádka, kotvit. Lokální vyplout, akcelerovat, potopit, miniaturizovat, 921, kotvit, dokař, odplout, manévrovat, plout, připlout, pilotovat. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 10 / 14

Strojový překlad Předpoklad: Slova z přeložené věty a překládané věty by si měla odpovídat. Nástroj: strojové učení a velká data opět : Modely: IBM, frázový model. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 11 / 14

Strojový překlad Softwarový nástroj: Moses Zdroje dat: Europarlament, evropské zprávy, titulky, systémové hlášení,... Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 12 / 14

Výpočetní prostředky Metacentrum. Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 13 / 14

Jeden cluster z centra Cerit Cluster zewura.cerit-sc.cz - 1 600 CPU cluster SMP strojů s 80 CPU a 512GB RAM (Brno První SMP cluster pořízený CERIT-SC Cluster zewura.cerit-sc.cz obsahuje 20 uzlů, každý z nich má následující hardwarovou specifikaci: CPU RAM disk net poznámka vlastník 8x 10-core Intel Xeon E7-2860 2.26 GHz 512 GB 20x 900GB v RAID-10 v celkové kapacitě 8 TB v každém uzlu 2x InfiniBand 4xQDR, 1x 10 Gbit/s Ethernet, 4x 1 Gbit/s Ethernet CERIT-SC/MU zewura1 (80 CPU zewura2 (80 CPU zewura3 (80 CPU zewura4 (80 CPU zewura5 (80 CPU zewura6 (80 CPU zewura7 (80 CPU zewura8 (80 CPU zewura9 (80 CPU zewura15 (80 CPU zewura16 (80 CPU zewura10 (80 CPU zewura17 (80 CPU zewura11 (80 CPU zewura18 (80 CPU zewura12 (80 CPU zewura13 (80 CPU zewura14 (80 CPU zewura19 (80 CPU zewura20 (80 CPU Miloslav Konopík ( NLP zpracování přirozeného jazyka 14. května 2013 14 / 14