Studienarbeit aus dem Jahr 2006 im Fachbereich Informatik - Wirtschaftsinformatik, Note: 1,7, Friedrich-Schiller-Universität Jena (Wirtschaftswissenschaftliche Fakultät), Veranstaltung: Datenanalyse 2, 9 Quellen im Literaturverzeichnis, Sprache: Deutsch, Abstract: X-Means: Extending K-means with Efficient Estimation of the Number of Cluster
Aufbauend auf k-means greift der x-means Algorithmus die drei hauptsächlichen Probleme von k-means auf und versucht diese zu umgehen bzw. zu beheben. Dabei wird vom Benutzer im Gegensatz zu k-means nicht die Angabe einer Klassenanzahl k gefordert, sondern lediglich ein Bereich in welchem die optimale Klassenanzahl wahrscheinlich liegen wird.
Nun werden ausgehend von der unteren Grenze des angegebenen Bereiches kontinuierlich neue Centroide hinzugefügt. Dies geschieht indem die alten 'Vatercentroide' aufgespalten
werden. Aus jedem Vater werden auf diese Weise zwei 'Söhnecentroide' erstellt. Ob Vater- oder Söhnecentroide beibehalten werden wird auf Grundlage einer Punktbewertung mittels BIC ermittelt. Je nachdem wessen Punktzahl höher ausfällt, werden entweder die Söhne oder
der Vater als Klassenmittelpunkte verworfen. Danach wird grundsätzlich jenes Gesamtmodell ausgegeben welches nach einem ewertungskriterium die höchste Punktzahl erreicht hat.
Der x-means Algorithmus besteht grundsätzlich aus zwei Schritten:
1. Improve Params
2. Improve Structure
Der erste Schritt entspricht einem herkömmlichen k-means Durchlauf. Der zweite Schritt ermittelt, welche Centroide gesplittet werden müssen um das Ergebnis zu verbessern. Auf dieser Basis und unter Einbeziehung eines kd-tree, welcher die Durchläufe der k-means
Iterationen erheblich beschleunigt, werden sowohl die optimale Anzahl der Cluster wie auch die Cluster als solche ausgegeben. Dadurch wird es möglich viel größere Datenmengen in viel kürzerer Zeit zu analysieren.
Grundlagenwissen im Bereich Informatik
Es gibt kaum ein technisches oder naturwissenschaftliches Problem, das nicht von der Informatik beeinflusst wird. Deshalb gehören die Grundlagen der…
Grundlagenwissen im Bereich Informatik
Es gibt kaum ein technisches oder naturwissenschaftliches Problem, das nicht von der Informatik beeinflusst wird. Deshalb gehören die Grundlagen der…
Grundlagenwissen im Bereich Informatik
Es gibt kaum ein technisches oder naturwissenschaftliches Problem, das nicht von der Informatik beeinflusst wird. Deshalb gehören die Grundlagen der…
Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…
Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…
Software-Projekte geraten oft in Schwierigkeiten: Zeit und Budget werden überschritten; das Projekt tritt auf der Stelle; im schlimmsten Fall wird es ohne Ergebnis abgebrochen. Manche…
Architektur-Design und Prozessorientierung Format: PDF
Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…
Architektur-Design und Prozessorientierung Format: PDF
Das Lehrbuch behandelt alle Aspekte der Software-Entwicklung, besonders aber Methoden und Richtlinien zur Herstellung großer und qualitativ hochwertiger Softwareprodukte. Es vermittelt das zur…
Vertrauen ist gut - Corporate Performance Management ist besser - Management- und Technologieaspekte werden gemeinsam und verständlich dargestellt
- Zahlreiche Praxisbeispiele aus der…
Vertrauen ist gut - Corporate Performance Management ist besser - Management- und Technologieaspekte werden gemeinsam und verständlich dargestellt
- Zahlreiche Praxisbeispiele aus der…
Altenheim ist die Fachzeitschrift für Träger, Heimleitungen und leitende Mitarbeiter/innen der teilstationären und stationären Altenhilfe. Hier erfahren Sie, wie Sie Ihre Einrichtung zu ...
Veröffentlichte Gebrauchsmustereintragungen beim Deutschen Patent- und Markenamt. Bibliographie, Hauptanspruch,wichtigste Zeichnung, Nebenklassenhinweise.
Checkpoint is a tax research system that ...
Offenlegungsschriften der Patentanmeldungen beim Deutschen Patent- und Markenamt in drei Teilausgaben. Bibliographie, Hauptanspruch und wichtigste Zeichnung. Auszüge aus den Patentschriften ohne ...
Beiträge zur Namenforschung. Neue Folge ist eine internationale fachübergreifende Zeitschrift für Namenforschung. In den Artikeln werden Probleme der Ortsnamen- wie Personenamenforschung und der ...
Einzelbeiträge und Sammelrezensionen zur vergleichenden Landesgeschichte. Im Gesamtverein der deutschen Geschichts- und Altertumsvereine haben sich die deutschen Geschichtsvereine, die Historischen ...
care konkret ist die Wochenzeitung für Entscheider in der Pflege. Ambulant wie stationär. Sie fasst topaktuelle Informationen und Hintergründe aus der Pflegebranche kompakt und kompetent für Sie ...
Die COMPUTERWOCHE berichtet schnell und detailliert über alle Belange der Informations- und Kommunikationstechnik in Unternehmen – über Trends, neue Technologien, Produkte und Märkte. IT-Manager ...
Der Steuerzahler ist das monatliche Wirtschafts- und Mitgliedermagazin des Bundes der Steuerzahler und erreicht mit fast 230.000 Abonnenten einen weitesten Leserkreis von 1 ...
Prüfungs- und Praxiswissen für Steuerfachangestellte
Mehr Erfolg in der Ausbildung, sicher in alle Prüfungen gehen, im Beruf jeden Tag überzeugen: „Die Steuerfachangestellten“ ist die ...
e-commerce magazin
Die Redaktion des e-commerce magazin versteht sich als Mittler zwischen Anbietern und Markt und berichtet unabhängig, kompetent und kritisch über ...