DGI-Praxistage 2018

Transcription

DGI-Praxistage 2018Automatic Summarizing (08.11.2018)1

Inhalt1.2.3.4.5.6.7.Kurzvorstellung Avameo GmbHGrundlagen Summarizing Stand heuteArchitektur Summarizer NCC1701Processing PipelineOptimierungen Next Steps (Maschine Learning)LiveDemoFragen2

avameo GmbH Gründer, Inhaber (100%) und Geschäftsführerist Andreas Mertens, geb. 1971 in Wiesbaden,studierter Informatiker (FH) 11 feste Mitarbeiter, 20 freie MA/Partner,stark wachsend3

Gründerpreis Platz 1 fürUnsere SummarizerPlattform In 2016 imForum Kiedrich.4

Die avameo GmbH ist professioneller branchenübergreifender IT-Dienstleister mit dem Fokus aufDigitalisierung.Die Experten bzw. Consultants arbeitenin Projekten für die Commerzbank, dieDeutsche Bank, die Deutsche Bahn,Lufthansa, Volkswagen oder die Telekom.5

6

Grundlagen7

Haltung1. Wir glauben nicht, dass es die eine korrekte/besteZusammenfassung zu einem Textdokument existiert(obwohl wir beim Maschine-Learning Referenztextenehmen)2. Unser Anspruch ist es, die Zeit zu reduzieren, die derWissensarbeiter benötigt, um ein Text zu lesen und zubewerten8

Methoden1. Extraktive Zusammenfassungen2. Abstraktive Zusammenfassungen3. Kombination mit1. NLP2*2. Taxonomien / Ontologien3. Klassifikation und Clusterbildung* Natural Language Processing,Neurolinguistisches Programmieren9

Aktivitäten1.2.3.4.Forschung, nEntwicklung Plattform Summarizer10

Aktueller Stand1.2.3.4.NLP2Zahlreiche Algorithmen für extraktive VerfahrenPatentanmeldungen (IBM, Google) für abstraktive VerfahrenEigenentwicklungen11

Architektur12

Architektur (1)UI / ManagerAPIs/AdapterCore-EngineRestful APISOAP WSData InputHTMLWebCrawlerPDF, DOC,DOCX, RAW,SQLSU Elastic SearchALGAdapterOTSOSAv1sumyOSAv2Scalable Cluster Manager(Hadoop, SEC)Summarizer Core-Framework13

Architektur (2)BrowserProject UIAdmin/Manager AdapterRestful APICommandlinesummarizer.shsummarizer.batSQL DriverSummarizer Core-Frameworkals Docker-ContainerClusterWorkerSummarizter ClusterNodeals Docker-ContainerClusterWorkerSummarizter ClusterNodeals Docker-Container.Cluster14

Processing PipelineExtraction NLP2 .15

reinigterRohtextNLP2Metadata216

OptimierungenNext Steps Maschine Learning mit Goldstandards17

Textcorpora und Goldstd.1. Wissenschaftliche Corpora mit ReferenzZusammenfassungen2. Wikipedia (Body und Einstieg)3. Distanzalgorithmen zur Bewertung derQualität (z.B. Rouge)

Maschine tanzSummaryROUGEReferenz1

Aspect orientedSummarizing (AOS)Unter Verwendung der Textanalyse zu den limbischen Charaktere von Dr. Coskun Akinalpkönnen wir Merkmale für die potentielle Leser-Zielgruppe eines Textes extrahieren.Mittels dieses Konfigurationsvektors können wir „subjektiv gefärbte“ unterschiedlicheZusammenfassungen realisierten (Marketingleiter, Journalist, Wissenschaftler,Produktempfänger, Jourist, )

Warum bin ich heute hier? Einladung Frau Ockenfeld Kunden Partner (Wissenschaft, Kooperationen, .) Investoren21

LiveDemo22

Fragen?23

Avameo GmbH – the digital expertsAndreas MertensHomburger Str. 2965197 Wiesbadenamertens@avameo.demobil: 49 (0) 178 88 55 68624

Neurolinguistisches Programmieren 9. Aktivitäten 1. Forschung, Bachelorarbeiten 2. Marktbeobachtung 3. Patentbeobachtungen 4. Entwicklung Plattform Summarizer 10. Aktueller Stand 1. NLP2 2. Zahlreiche Algorithmen für extraktive Verfahren 3. Patentanmeldungen (IBM, Google) für abstraktive Verfahren 4. Eigenentwicklungen 11. Architektur 12. Architektur (1) Summarizer Core-Framework 13 APIs .