Csoportosító modellek

Csoportosító modellek

A csoportosító modellek arra használhatók, hogy hasonló rekordok csoportjait azonosítsák és megcímkézzék a rekordokat annak megfelelően, hogy melyik csoportba tartoznak azok. Mindez ráadásul a csoportokkal és jellemzőikkel kapcsolatos előzetes tudás vagy információ nélkül történik. A gyakorlatban az is előfordulhat, hogy még azt sem tudjuk, hány csoportot is keresünk valójában. Ez az, ami megkülönbözteti a csoportosító modelleket a Clementine-ben fellelhető egyéb gépi-tanulási technikától: nincsen előre definiált kimeneti vagy célváltozó a modell számára, amit meg kellene jósolni. Ezekre a modellekre gyakran hivatkoznak úgy, mint nem felügyelt tanulási modellekre, miután nincsen olyan külső követelmény, amely alapján meg lehetne ítélni a modell osztályozási teljesítményét. Ezekhez a modellekhez nem léteznek jó vagy rossz válaszok. Értéküket az a képességük határozza meg, hogy képesek érdekes csoportosításokat elkapni az adatokban, és hasznos leírásokat szolgáltatnak ezekhez a csoportosításokhoz.

A csoportosító módszerek azon alapulnak, hogy távolságokat mérünk a rekordok és a csoportok között. A rekordok akkor kerülhetnek egy adott csoportba, ha a lehető legkisebb különbséget mutatják az azonos csoportba tartozó rekordokhoz képest.

A Clementine három különféle csoportosító módszerrel rendelkezik. Már láthattuk, hogy a Kohonen hálózat hogyan használható csoportosításra, bővebben lásd a Kohonen hálózatok részt. A "K-közép" használatakor először fix számú csoportot határozunk meg, majd iteratívan hozzárendeljük a rekordokat az egyes csoportokhoz, és próbáljuk beállítani a csoport-központokat. Az újra-hozzárendelés és a csoport-központ beállítás folyamata addig folytatódik, amíg a további finomítás már nem fejleszti a modellt értékelhetően. A TwoStep csoportosítás úgy működik, hogy először alcsoportokba tömöríti az adatokat, majd egy statisztikai csoportosító módszerrel progresszíven egyesíti az alcsoportokat csoportokba, majd ezeket még nagyobb csoportokba egyesíti, és így tovább, amíg a legkisebb számú kívánt csoport mennyiséget el nem éri. A TwoStep csoportosításnak megvan az előnye, hogy automatikusan megbecsüli a tréning adatok csoportjainak optimális számát.

A csoportosító modelleket gyakran használják arra, hogy olyan csoportokat vagy szegmenseket készítsenek vele, amelyek későbbi analízisekben bemenetként is használhatóak. Egy egyszerű példa az alkalmazásra a piaci szegmensek, amelyek homogén alcsoportokra bontják a teljes piacot.

Minden egyes szegmensnek speciális jellemzői vannak, amelyek meghatározzák a sikerességét a feléjük irányuló marketing törekvéseknek. Amennyiben adatbányászatot alkalmazunk arra, hogy optimalizáljuk marketing stratégiánkat, akkor általában jelentősen fejleszthetjük üzleti modellünket azáltal, hogy meghatározzuk a konkrét szegmenseket és felhasználjuk ugyanezen szegmensek információit a következtető modelljeinkben.