Crawling, Qualifizierung und Bereitstellung von Massendaten mit „deecoob insight“

Sie benötigen große Mengen Daten und Informationen. Diese sind ihre wichtigste Ressource für strategische Entscheidungen, Tarif-, Preis- oder Produktentwicklungen, Konkurrenzanalysen und die Steigerung ihrer Umsätze und Erlöse. Aufwand und Anforderungen für Beschaffung, Analyse und Qualifizierung der Daten steigen jedoch ständig. Die Software-Plattform deecoob insight ist die Lösung für sie. In mehrstufigen Prozessen sammelt und verarbeitet deecoob insight die gewünschten Daten und stellt sie ihnen in der geforderten Qualität zur Verfügung.

Daten und Dokumente automatisiert beschaffen

Mit deecoob insight beschaffen sie Massendaten aus internen und externen Quellen. Dabei kann es sich um mehrere Millionen Daten und Dokumente handeln. Externe Quellen sind Webseiten, Online-Shops, Online-Kataloge, Soziale Netze wie Facebook, Instagram, Twitter, LinkedIn, Xing weiterhin Dienste wie Google Maps, Open Street Map, Youtube und BlogsZusätzlich stehen von über 1.000 Tages- und Wochenzeitungen alle Ausgaben der letzten Jahre digital als ePaper für die Informationsrecherche bereit. Interne Quellen sind ihre Datenbanken, Storage-, Archive- oder Filesysteme, Applikationsdaten aus ERP, CRM, CMS aber auch Informationen aus dem Intranet, Wiki´s und Cloud-Lösungen

Als Verwertungsgesellschaft benötigen sie Veranstaltungshinweise, Angaben zu Veranstaltern, Orten, Künstlern, Eintrittspreise, Datum, Uhrzeit von Events, Werksangaben und vieles mehr. Zusätzlich sollen oft auch Beweismittel generiert werden.

Als Produktionsunternehmen sind sie interessiert an Preisen, Rabatten, Bundles, Beschreibungen, Ankündigungen, Bewertungen, Ratings, Lieferoptionen ihrer Produkte aber auch der Produkte ihrer Wettbewerber auf bestimmten Handelsplattformen.

Als Verlag mit Online-Publikationen wollen sie automatisiert Kommentare ihrer Leser überwachen, um Hasskommentare erkennen und filtern zu können.

Als Betreiber eines Online-Shops wollen sie die Bewertungen und Kommentare ihrer Online-Kunden analysieren und auswerten.

Daten bereinigen, anreichern und indizieren

Sagen sie uns, welche konkreten Daten und Informationen sie benötigen. Wir ermitteln gemeinsam mit ihnen geeignete Quellen, binden sie an die Plattform an (Schnittstellen) und deecoob insight beschafft die Daten (Crawling) für sie egal ob einmalig oder dauerhaft. Bereits im Beschaffungsprozess (Crawling-Durchläufe) werden die Daten geprüft und nur die als relevant eingeschätzten Daten auf der Plattform für die weitere Verarbeitung gespeichert. Dabei werden Dubletten entfernt und je nach ihren Anforderungen Informationen, die in einer Quelle nicht verfügbar sind parallel aus anderen Quellen beschafft. Somit produziert deecoob insight für sie geprüfte, bereinigte und angereicherte Datensätze. Für die spätere Verarbeitung werden alle Daten in einer hochperfomanten Umgebung abgelegt und vollständig indiziert.

Daten analysieren, klassifizieren und clustern

Die Analyse unstrukturierter Texte ist fachlich und technisch anspruchsvoll. deecoob insight verfügt über die notwendigen Algorithmen, Verfahren und Methoden für effizientes Text-Mining. Ziel ist es, automatisch genau die Texte, Daten und Details aus Millionen Datensätzen zu filtern, die für ihre Anforderungen relevant sind. Wobei es für die Relevanz oft Abstufungen gibt (z.B. sehr, mittel, nicht relevant). Auch diese Einstufung der Texte erledigt die Software für sie.

Für die bestmögliche Klassifizierung der Daten aus online und offline Quellen nutzt deecoob insight zahlreiche moderne “Information Retrieval Methoden”, wie zum Beispiel:

  • Text-Geotagging – Welche Orte sind im Text enthalten?
  • Text-Timetagging – Zeitpunkt oder Zeitraum einer Nachricht?
  • Text-Entitytagging – Welche Personen, Teams werden erwähnt?
  • Latend Semantic Indexing – Welcher Text passt zur Fragestellung?
  • Advanced Text Classification – Welche Texte sind für das Thema relevant?
  • Natural Language Processing – Wie verhält sich der Wortschatz?
  • Named Entity Recognition – Welche Namen bzw. Eigennamen sind im Text enthalten?
  • Linked Data – Gibt es Zusammenhänge zwischen den Texten?

Daten komplettieren, vergleichen und filtern

Unsere Kunden bekommen qualitativ und quantitativ beste Ergebnisse von deecoob insight. Um dieses Ziel zu erreichen, laufen mehrere Data- und Text-Mining-Verfahren iterativ und kaskadierend auf der Plattform ab. Dabei werden die Daten immer wieder verglichen, gefiltert und bewertet. Durch die mehrstufige Verarbeitung ist deecoob insight in der Lage, den Umfang der für den Kundenauftrag relevanten Datensätze von anfänglich mehreren Millionen eingesammelten auf wenige Tausend oder Hundert tatsächlich relevante zu reduzieren. Diese können dann noch mit einem Scoring versehen oder als Primär-, Sekundär- und Tertiär-Hinweise ausgegeben werden. In der manuellen Weiter-Qualifizierung können sich die Mitarbeiter dann auf die Primärhinweise konzentrieren aber auch noch relevante Informationen aus den Sekundär- und Tertiär-Hinweisen heben.

Daten visualisieren und für Bearbeitung präsentieren

deecoob insight kann und soll die manuelle Prüfung und Qualifizierung durch die Recherche-Profies von deecoob nicht ersetzen. Nur durch die intelligente Kombination und das Zusammenspiel von Software gestützter Automatisierung und manueller Weiterverarbeitung können wir die Datenqualität erzielen, die unsere Kunden zu 100% überzeugt. Für die manuelle Verarbeitung der vorqualifizierten Daten steht unseren Mitarbeitern mit dem Client von deecoob insight eine ergonomische Benutzeroberfläche zur Verfügung. Auch unsere Kunden, die die manuelle Qualifizierung selber durchführen nutzen diesen Client.

Für die kontinuierliche Überwachung von Qualität und Quantität der Daten bietet deecoob insight individuelle Dashboard. Diese visualisieren die erarbeiteten KPI´s (Key Performance Indicatoren) der Plattform. Auf dieser Basis können auch im laufenden Crawling- und Qualifizierung-Prozess ständig Justierungen und Optimierungen vorgenommen werden.

Daten manuell prüfen und qualifizieren

Die Recherche-Profies von deecoob prüfen jeden von der Software als “relevant” im Sinne des Kundenauftrages eingestuften Datensatz im deecoob insight Client auf Vollständigkeit und Korrektheit. Je nach Anforderung können sie dabei die Datensätze zusammenführen, neu klassifizieren, fehlende Angaben recherchieren, Zuordnungen oder Neubewertungen vornehmen und viele Dinge mehr ausführen. Nach Abschluß der Bearbeitung bekommen die Datensätze und dazugehörige Dokumente (z.B. Beweismittel) den entsprechenden Status.

Ergebnisse produzieren – Daten modellieren

Die Ergebnisse der Arbeit von deecoob insight und den Recherche-Profies von deecoob können je nach Kundenanforderung sehr unterschiedlich sein. Für die deecoob Solutions “Copyright Observation”, “Content Exploration” oder “Data Crawling” sind es oft “nur” die qualifizierten und vollständigen Datensätze und Dokumente, die an den Kunden übergeben werden.

Für Themen wie “Market Monitoring”, “Reputation Reporting” oder “Data Analytics” müssen hingegen aus den qualifizierten Daten komplexe Datenmodelle (z.B. Benchmarks) erstellt werden. Die Spezialisten von deecoob erarbeiten die Daten-Modelle gemeinsam mit dem Auftraggeber. Mit Hilfe von deecoob insight werden die Modelle dann mit den benötigten Daten befüllt.

Datenbereitstellung

Die Bereitstellung der Ergebnisse von deecoob insight und deecoob service erfolgt je nach Kunde und Auftrag automatisch, teilautomatisch oder manuell. Besteht eine Verbindung mit Datenaustausch zwischen deecoob insight und den Kundensystemen, kann die Daten-Übergabe und der Dokumenten-Upload fortlaufend automatisch per Datenschnittstelle erfolgen. Ist dies nicht möglich, kann es notwendig sein, die Daten manuell durch deecoob service in die Systeme der Kunden direkt einzutragen oder per CSV-Datei zu übergeben. Fertige Datenmodelle (z.B. Benchmarks) werden einmalig als Präsentation oder fortlaufend in Form von Dashboards bereitgestellt.

deecoob insight jetzt testen.