Transcription
DGI-Praxistage 2018Automatic Summarizing (08.11.2018)1
Inhalt1.2.3.4.5.6.7.Kurzvorstellung Avameo GmbHGrundlagen Summarizing Stand heuteArchitektur Summarizer NCC1701Processing PipelineOptimierungen Next Steps (Maschine Learning)LiveDemoFragen2
avameo GmbH Gründer, Inhaber (100%) und Geschäftsführerist Andreas Mertens, geb. 1971 in Wiesbaden,studierter Informatiker (FH) 11 feste Mitarbeiter, 20 freie MA/Partner,stark wachsend3
Gründerpreis Platz 1 fürUnsere SummarizerPlattform In 2016 imForum Kiedrich.4
Die avameo GmbH ist professioneller branchenübergreifender IT-Dienstleister mit dem Fokus aufDigitalisierung.Die Experten bzw. Consultants arbeitenin Projekten für die Commerzbank, dieDeutsche Bank, die Deutsche Bahn,Lufthansa, Volkswagen oder die Telekom.5
6
Grundlagen7
Haltung1. Wir glauben nicht, dass es die eine korrekte/besteZusammenfassung zu einem Textdokument existiert(obwohl wir beim Maschine-Learning Referenztextenehmen)2. Unser Anspruch ist es, die Zeit zu reduzieren, die derWissensarbeiter benötigt, um ein Text zu lesen und zubewerten8
Methoden1. Extraktive Zusammenfassungen2. Abstraktive Zusammenfassungen3. Kombination mit1. NLP2*2. Taxonomien / Ontologien3. Klassifikation und Clusterbildung* Natural Language Processing,Neurolinguistisches Programmieren9
Aktivitäten1.2.3.4.Forschung, nEntwicklung Plattform Summarizer10
Aktueller Stand1.2.3.4.NLP2Zahlreiche Algorithmen für extraktive VerfahrenPatentanmeldungen (IBM, Google) für abstraktive VerfahrenEigenentwicklungen11
Architektur12
Architektur (1)UI / ManagerAPIs/AdapterCore-EngineRestful APISOAP WSData InputHTMLWebCrawlerPDF, DOC,DOCX, RAW,SQLSU Elastic SearchALGAdapterOTSOSAv1sumyOSAv2Scalable Cluster Manager(Hadoop, SEC)Summarizer Core-Framework13
Architektur (2)BrowserProject UIAdmin/Manager AdapterRestful APICommandlinesummarizer.shsummarizer.batSQL DriverSummarizer Core-Frameworkals Docker-ContainerClusterWorkerSummarizter ClusterNodeals Docker-ContainerClusterWorkerSummarizter ClusterNodeals Docker-Container.Cluster14
Processing PipelineExtraction NLP2 .15
reinigterRohtextNLP2Metadata216
OptimierungenNext Steps Maschine Learning mit Goldstandards17
Textcorpora und Goldstd.1. Wissenschaftliche Corpora mit ReferenzZusammenfassungen2. Wikipedia (Body und Einstieg)3. Distanzalgorithmen zur Bewertung derQualität (z.B. Rouge)
Maschine tanzSummaryROUGEReferenz1
Aspect orientedSummarizing (AOS)Unter Verwendung der Textanalyse zu den limbischen Charaktere von Dr. Coskun Akinalpkönnen wir Merkmale für die potentielle Leser-Zielgruppe eines Textes extrahieren.Mittels dieses Konfigurationsvektors können wir „subjektiv gefärbte“ unterschiedlicheZusammenfassungen realisierten (Marketingleiter, Journalist, Wissenschaftler,Produktempfänger, Jourist, )
Warum bin ich heute hier? Einladung Frau Ockenfeld Kunden Partner (Wissenschaft, Kooperationen, .) Investoren21
LiveDemo22
Fragen?23
Avameo GmbH – the digital expertsAndreas MertensHomburger Str. 2965197 Wiesbadenamertens@avameo.demobil: 49 (0) 178 88 55 68624
Neurolinguistisches Programmieren 9. Aktivitäten 1. Forschung, Bachelorarbeiten 2. Marktbeobachtung 3. Patentbeobachtungen 4. Entwicklung Plattform Summarizer 10. Aktueller Stand 1. NLP2 2. Zahlreiche Algorithmen für extraktive Verfahren 3. Patentanmeldungen (IBM, Google) für abstraktive Verfahren 4. Eigenentwicklungen 11. Architektur 12. Architektur (1) Summarizer Core-Framework 13 APIs .