PROJECT CONSULT ECM DRT DMS KM ILM
Logo PROJECT CONSULT - Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH  
 Contentmanager - Magazin
 Tipps für die DMS-Einführung
 Bereits bei der Auswahl der Dokumenten M
 Contentmanager - Magazin
 Relevante AdWords-Anzeigen mit Platzhalt
 Mit Platzhaltern können Werbetreibende i
 XING - Information & Documen
 [DE] Jobangebot: IT-Spezialist / IT-Proj
 Sehr geehrte Damen und Herren, mein Name
 XING - Information & Documen
 [DE] Jobangebot: IT-Spezialist / IT-Proj
 Sehr geehrte Damen und Herren, mein Name
Home  Englisch  Newsletter  Intern Hilfe  Kontakt  Impressum  Rechtshinweis 
  Detailsuche
PROJECT CONSULT Dr. Ulrich Kampffmeyer
Unternehmen
  Vision
  Grundsätze
  Leistungen
  Methoden
  Qualität
  Mitgliedschaft
  Slide-Show
  Mitarbeiter
  Auszeichnungen
  Unternehmensinfo
  Adresse
  AGB
Beratungsangebot
  Fachberatung
  Coaching
  Projekt-Management
  Workshops
  Anfrage
Seminarangebot
  Seminare
  Vorträge
  Seminartermine
  Handouts
  Anmeldung
Projekte
  Branchen
  Lösungen
Karriere
  Perspektive
  Stellenangebot
  Stellenmarkt
  Markt-Regeln
Presse
  Pressemitteilung
  Interview
  Artikelangebot
  Autorenrechte
  Akkreditierung
Website
  Sitemap
  Site-Info
  Aktualisierte Seiten
Impressum
Online-Publikationen
BIT Computer Zeitung
contentmanager.de ComputerWoche
documanager.de Document Management Magazine
DOKmagazin ECM Guide
E-Doc eGovernment Computing
Elektronische Steuerprüfung Information Week
IT-Business IT-Daily
IT Fokus KM World
Kommune21 MiD
MOS nfd
searchstorage.de silicon.de
Speicherguide Wissensmanagement
Google Werbung
Archivierte alte Webseite - Datenschutzerklärung, Adressen und Links zu externen Seiten sind vielfach ungültig - Bitte besuchen Sie www.PROJECT-CONSULT.com
Archived old Web Site - Privacy declaration, addresses and links to external web sites may be invalid - Please visit www.PROJECT-CONSULT.com
Automatische Klassifikation - Grundlage für effizientes Knowledge Management
Informationserfassung
Informationsretrieval

Von Felix von Bredow
v.Bredow

Die Erfassung von gescannten Images, Fax, Email, Office-Dokumenten und Multimediaobjekten stellte aufgrund der notwendigen manuellen Indizierung den Engpaß von allen Workflow-, Dokumenten-Management- und Archivsystemen dar. Lediglich im COLD-Umfeld war die Extraktion von Indexmerkmalen aus dem Output selbst eine übliche Verfahrenstechnik, die alle DMS-Anbieter beherrschten. Der Ansatz der automatischen Klassifikation geht darüber noch hinaus. Die automatische Klassifikation selbst kann in zwei technologische Gruppen unterschieden werden:
Regelbasierter Ansatz
Regelbasierte Ansätze setzen typischerweise eine manuelle Definition der zu unterscheidenden Merkmale voraus. Dabei werden die Merkmale, die einen Informationstyp bestimmen, dem System mitgeteilt und bei Veränderungen manuell nachgepflegt.
Selbstlernender Verfahren
„Intelligente“ Verfahren dagegen erkennen aufgrund der Informationen selbst, welches die relevanten Unterscheidungskriterien sind. Daher bezeichnet man diese Verfahren auch als selbstlernend. Einer solchen Lösung muß lediglich eine gewisse Lernmenge an manuell klassifizierten Informationen mitgeteilt werden. Alle zukünftig anfallenden Daten und Dokumente können fortan automatisch klassifiziert werden. In Fällen, in denen sich das System nicht ausreichend sicher ist, wo ein Dokument einsortiert werden soll, muß dieses manuell geschehen. Der Grad für eine „sichere“ Einsortierung läßt sich durch Festlegung entsprechender Schwellwerte einstellen. Dieses erweitert dann die Lernmenge, so daß der hinzugekommene Fall zukünftig automatisch durch das System bearbeitet werden kann. Es wäre jedoch falsch zu behaupten, je größer die Lernmenge, desto besser kann das System die Dokumente klassifizieren, da mit einer überdimensionierten Lernmenge der Effekt des Übertrainierens eintritt, der dann zu falschen Klassifikationen und steigendem Korrekturaufwand führt.
Neben den im folgenden beschriebenen klassischen Einsatzgebiete wie Informationserfassung und -retrieval, werden im Laufe der Zeit immer neue gefunden, die ursprünglich gar nicht im Fokus der Entwickler waren.
Dieses zeigt, daß diese Technologie nach und nach den Stellenwert einer Basistechnologie bekommt. Beispiele für heutige Einsatzgebiete sind z. B.: Erstellung von Katalogen, Befüllung von Websites, Sortieren von Bilder, Filtern von Newsgroupbeiträgen, personaliserte Darstellung von Portalinhalten, WebCrawler und -Agenten, Kontext-sensitive Lernsysteme, Automatische Korrespondenzbeantwortung etc.
Top
Informationserfassung
Die Forderung nach Automatisierung und Vereinfachung bei der Dokumentenerfassung gewinnt immer stärker an Bedeutung. In Verbindung mit OCR/ICR-Techniken werden Faksimiles interpretiert und Indexmerkmale nach vordefinierten Schemata herausgefiltert, geprüft und mit Stammdaten abgeglichen. Selbstlernende Programme erlauben die Generierung von Strukturen, Aufbau von Ordnungssystematiken und Zuordnungen anhand der Dokumentinformationen. Die Integration in Betriebssysteme, Bürokommunikations- und Erfassungssysteme erlaubt das sichere "Füttern" beliebiger Archive und Repositories. Die Verfügbarkeit solcher Lösungen entwickelt sind zum K.O.-Kriterium für die DRT-Systemanbieter. Die aktuellen und die zukünftigen „Schwergewichte“ der Branche haben erkannt, daß das eigentliche Problem nicht in der Verteilung von Informationen, sondern vielmehr in ihrer Erschließung und damit der Basis für Content-, Knowledge- und sonstigem Informationsmanagement liegt. Dabei sind die unter den jeweiligen Lösungsansätzen liegenden Technologien höchst unterschiedlich: Während einige Unternehmen mit regelbasierten Algorithmen operieren, arbeiten die Produkte von anderen Anbietern mit Ansätzen, die im Bereich der künstlichen Intelligenz (KI) anzusiedeln sind. Diese beiden unterschiedlichen Ansätze bedingen auch unterschiedliche Vorgehensweisen im Umgang mit den zu klassifizierenden Dokumenten.
Top
Informationsretrieval
Aber nicht nur die Erfassung des eingehenden Belegguts wird zukünftig eine entscheidende Rolle spielen. Viele Unternehmen sind schon heute einer Flut von Informationen ausgesetzt, die auf Grund verfehlter oder gar nicht berücksichtigter Ordnungskriterien nur noch durch Zufall, wenn überhaupt in ihrem sinngemäßen Kontext dargestellt werden können. Hier sind grundsätzlich zwei unterschiedliche Vorgehensweisen denkbar. Zum einen können die Mechanismen der automatischen Klassifikation dazu verwendet werden, grundlegende Ordnung in den vorhandenen Repositories zu schaffen, damit bei der Suche nach bestimmten Informationen auf die geschaffene Ordnung zurückgegriffen werden kann. In der zweiten Variante kommt die automatische Klassifikation erst dann zum Einsatz, wenn die Ergebnisse einer Suchanfrage zurückgeliefert werden. Genau diese Ergebnismenge wird dann inhaltlich Klassifiziert, so daß der Benutzer automatisch Vorschläge erhält, wie er seine ursprüngliche Suchanfrage am besten verfeinern kann. Eine weitere Variante, die sich ähnlich wie die gerade beschriebene ausschließlich mit der effizienteren Suche nach Informationen beschäftigt, ist die automatische Auswertung bisheriger Suchanfragen und der daraus resultierenden ausgewählten Dokumente. Hier sind selbstlernende Mechanismen denkbar, die auf einer Suchanfrage eines bestimmten Benutzers aufbauend automatische verschiedene individuelle Suchanfragen generiert und an die angeschlossenen Systeme stellt.
Da mittlerweile fast alle wichtigen Archivsystemanbieter über eine Komponente zur automatischen Klassifikation verfügen, werden sich daraus ergebende Lösungen für die eMailarchivierung, automatische Indizierung von gescannten Faksimiles im Posteingangsbereich, Auswertung von Office-Dokumenten sowie die verbesserte Interpretation von Output im COLD-Umfeld als „Killer-Applikation“ für alle anderen Archivsystemanbieter entwickeln, die diese Technologie nicht selbst besitzen oder noch nicht integriert haben.
Das traditionelle Portfolio von DMS- und Archivsystemanbietern verändert sich hierdurch: Content Management, elektronische Signatur, Anbindung von Workflow, echte Webfähigkeit und eben die automatische Indizierung stellen heute die wichtigsten Leistungsunterscheidungsmerkmale dar.
Nur durch die automatische Klassifikation von Dokumenten ist den Unternehmen allerdings wenig geholfen. Neben der rein technischen Betrachtungsweise steht für ein Unternehmen die Integration im Blickpunkt. Wertvoll sind dabei Lösungen, die die relevanten Daten aus den Dokumenten extrahieren und mit Informationen aus operativen Systemen abgleichen und diese dann ergänzen können. Besteht so doch die Möglichkeit, über den reinen Posteingang und seiner Verteilung hinaus weitere Prozesse, wie z. B. eine logische Rechnungsprüfung oder Vorkontierungen zu unterstützen und somit ebenfalls stark zu vereinfachen bzw. zu beschleunigen. Außer dem im Posteingang gescanntem Schriftgut sind auch die elektronisch in das Unternehmen gelangenden oder im Unternehmen erzeugten Dokumente in die Betrachtung miteinzubeziehen. Allerdings sind diese Hersteller meistens darauf angewiesen, die originären Dateiformate in reinen ASCII-Text zu wandeln, um die automatische Klassifikation durchführen zu können. Diese Verfahren beschränken sich auf Text- und Kontext-Analysen und berücksichtigen daher nicht andere Klassifikationsverfahren der Mustererkennung wie bei der Erkennung von Bildern, Sprache und anderen komplexen Informationen. Aus diesem Grund muß bei jedem Anbieter genau hinterfragt werden, welche Dateiformate als Quellformat überhaupt verarbeitet werden können. Besondere Probleme können Formate wie Adobe’s PDF bereiten, bei denen der eigentliche Inhalt gekapselt repräsentiert wird.
Diese neuen Techniken bieten sich nicht nur für Firmen, die ein DMS neu und auf der grünen Wiese planen, an. Vielmehr ist dieser Ansatz auch für solche Unternehmen interessant, die mit Altlasten zu kämpfen haben und sich mit Migrations- oder Re-Indizierungsgedanken, z. B. aufgrund schlecht erschlossener Informationen, tragen. Dies hat seine Ursache darin, daß damals die heutigen Anforderungen an die Nutzung der Dokumente nicht abgesehen werden konnten und den Daten deshalb zu wenig Kriterien / Indizes mitgegeben worden sind. Heute hat man allerdings erkannt, daß die Erschließung der Wissensbasis in den Unternehmen einen wesentlichen Wettbewerbsvorteil darstellt. Allerdings dürften reine Klassifikations- und Indizierungsprodukte als Einzellösung kaum am Markt zu bekommen sein. Nicht zuletzt wegen der zu beobachtenden Konsolidierung am DRT-Markt ist festzustellen, daß die meist kleineren Anbieter solcher Speziallösungen aufgekauft und deren Lösungen in das vorhandene Produktportfolio als „unsichtbare“ Dienste eingegliedert werden. Bei aller Begeisterung, die sich durch die Möglichkeiten dieser neuen Technologie ergibt, muß deutlich gemacht werden, daß wir hier erst am Anfang der Entwicklungen stehen. Die auf KI basierenden Ansätze müssen noch beweisen, daß sie auch mit großen Dokumentenmengen performant arbeiten können. Vielfach fehlen noch die Anbindungen bzw. Schnittstellen an das Archivsystem und Datenbanken. Und schließlich bleibt die Antwort auf die Fragen offen, welcher Overhead durch die Lernmenge bei großen Dokumentenvolumen entsteht und, in wie weit eine Revisionssicherheit gewährleistet bleibt, wenn man sich voll auf Mechanismen der künstlichen Intelligenz verläßt, deren Verfahren geheim und nicht nachvollziehbar sind.
Rechtshinweis
© CopyRight PROJECT CONSULT 2001 - 2003
Autorenrechte Felix v. Bredow

Rechtshinweis
Autorenrechte
Zum Download sind auschließlich die Beiträge in der Rubrik Download vorgesehen. Als PDF bereitgestellte Beiträge enthalten auch die zugehörigen Grafiken.
Download
Zitierung dieser Webseite:
Automatische Klassifikation – Grundlage für effizientes Knowledge Management
Felix v. Bredow, Dr. Ulrich Kampffmeyer
PROJECT CONSULT Unternehmensberatung, Hamburg 2001
PROJECT CONSULT Webseite http.//www.PROJECT-CONSULT.com
Rubrik „Wissen/Artikel“
Deep Link: http://www.PROJECT-CONSULT.com/portal.asp?SR=227
Abruf der Seite am „Datum“

Top
Seitentitel: Artikel_Automatische Klassifikation, Zitierung: http://www.pc.qumram-demo.ch/portal.asp?SR=227
Zuletzt aktualisiert am: 22.3.2003
CopyRight © 1992-2012 PROJECT CONSULT Unternehmensberatung Dr. Ulrich Kampffmeyer GmbH
20251 Hamburg, Breitenfelder Str. 17, Tel.: +49-40-46076220, E-Mail, Rechtshinweis
Optimiert für MS Explorer 5.x, 6.x, 1024x768 Pixel, Cookies(on), JavaScript(on)
Archivierte alte Webseite - Datenschutzerklärung, Adressen und Links zu externen Seiten sind vielfach ungültig - Bitte besuchen Sie www.PROJECT-CONSULT.com
Archived old Web Site - Privacy declaration, addresses and links to external web sites may be invalid - Please visit www.PROJECT-CONSULT.com
News
  Newsletter
  Newsletter Inhaltsverzeichnis
  Newsletter PDF-Ausgaben
  Newsletter Portal
  Newsletter Probeabo
  Branchen-News
  In der Diskussion
  Zitate
  Veranstaltungen
  Termine
Wissen
  Was ist...
  Archiv
  Artikel
  Pressespiegel
  Bücher
  Studien
  Literatur
  Standards
  Code of Practice
  Rechtsfragen
  Links
  Download
Markt
  Kategorie
  Alle
  PLZ
  Marktübersichten
  Produktvergleich
  Eintrag
  Regeln
Foren
  CDIA+ Forum
  CMS-Forum
  DMS-Forum
  ECMguide
  Speicherguide
  XING-Forum
Spezial-Seiten
  CDIA+
  MoReq
Web Partner
AIIM Europe AIIM International
Benchpark BIT
BITKOM BrainGuide
Coextant CompetenceSite
CompTIA contentmanager.de
DLM-Network DMS Akademie
DMS Expo documanager.de
doxtop.com ECM WORLD
Electronic Office Elektronische Steuerprüfung
GDPdU-Portal GoodNews!
Kossow & Jeggle Results Open Directory Project
Optimila password
Plattform Wissensmanagement silicon.de
SoFind Wikipedia
Wissensmanagement XING
AMAZON
  Dokumenten-Technologien
  Dokumenten-Management
  E-Learning & E-Term
  Enterprise Content Management