Як вибрати оптимальний k в k-протоіпах?

Щоб проаналізувати набір даних з банківської справи, я маю як числові, так і категоричні значення. Я перетворюю їх аналізувати за допомогою k-прототипів.

Початковий набір даних:

enter image description here

Змінено набір даних:

  • Наприклад: Робота (від 1 до 12 'cos - 12 рівнів)

enter image description here

Чи потрібно масштабувати набір даних перед виконанням k-прототипів?

Як можна визначити оптимальний "k" для вибору (кодування)?

Я думав виконати:

library(clustMixType)

lbd <- lambdaest(BPor)

kpres <- kproto(BPor, 5, lambda = lbd) #Change '5' for every possible value of k.

print(kpres)

А потім, обчислити суму в межах кластерної помилки (вибираючи маленьку).

2
додано Автор Brandon Haugen, джерело
@ Anony-Mousse Не з того самого користувача, навіть навіть перехресного повідомлення. Отже, не слід закривати з цієї причини
додано Автор Serge, джерело

Відповідей немає

0