Об'єднати два набори кластерів

У мене є два набори тем, отриманих з двох різних наборів статей новин.

Іншими словами, Cluster_1 = $ {x_1, x_2, ..., x_n} $ містить основні теми пакета новин "X" і Cluster_2 = $ {y_1, y_2, ..., y_n} $ включає в себе основні теми пакета новин "Y".

Тепер я хочу знайти кластери в двох схожих/пов'язаних наборах, розглядаючи атрибути кластера, наведені в наведеному нижче прикладі.

Example 1,
**X1 in Cluster_1** is mostly similar/related to **Y2 in Cluster_2**
**X2 in Cluster_1** is mostly similar/related to **Yn in cluster_2**
and so on.

Example 2:
News about Yet in Cluster_1 is mostly similar/related to News about Science in Cluster_2
News about Floods in Cluster_1 is mostly similar/related to News about Rains in Cluster_2

Оскільки, я маю справу з двома окремими наборами кластерів, що б було підходящим методом вимірювань/методу, який я можу використовувати для з'єднання кластерів у двох різних наборах?

4
Чи є ці дві різні групи тих самих спостережень? У тому ж просторі? Той же розмірний простір? Що означає "найбільш схожі/пов'язані" в цьому контексті?
додано Автор Karl, джерело
Чи є ваша скупчення результатом моделювання теми з подібним латентним дирихле розподілом між двома газетами, і вам цікаво, чи можна порівняти теми між двома газетами?
додано Автор Karl, джерело
Це точно прихованого розподілу дирихлету, тому що це стає важливим.
додано Автор Karl, джерело
Дякую за коментар. Я відредагував це питання, включивши відсутню інформацію, яку ви згадали.
додано Автор Volka, джерело
Так, ви правильні.
додано Автор Volka, джерело
Так, у мене є групи з такими темами: Тема 1: 30% брокколі, 15% бананів, 10% сніданок, 10% кущі, де я можу вивести це як їжу.
додано Автор Volka, джерело

1 Відповіді

Щоб порівняти два теми LDA, ви дійсно намагаєтеся обчислити відстань між двома розподілами ймовірності.

Одним з таких заходів, який зазвичай використовується в цих умовах, є відстань Хеллінгер . Щоб знайти найближчий відповідник для $ x_1 $ в темах для $ y $, ви оцінюєте відстань Hellinger від $ x_1 $ до кожної теми $ y $, а потім знайдіть найнижчу.

Майте на увазі, що немає ніякої гарантії, що "найбільш подібна" тема в цьому сенсі буде віддалено, суб'єктивно схожа.

5
додано
Ні, але існує багато способів його реалізації. Деякі з них обговорюються тут: gist.github.com/larsmans/3116927
додано Автор Karl, джерело
Чи є бібліотека sklearn для відстані Хеллінгер?
додано Автор Volka, джерело
Штучний інтелект Dev UA
Штучний інтелект Dev UA
212 учасників

Штучний інтелект, машинне навчання, Data Science