Найкращий спосіб токенувати твіт

Під час роботи з наборами даних Twitter, одна річ, яка мене завжди плутає, полягає в тому, щоб токенувати твіти.

Я бачив різні реалізації з відкритим кодом, використовуючи різні схеми для токенування. Вони обробляють згадування URL-адрес, «Капілізація», «Користувач-згадка тощо» по-різному.

Я зазвичай слідую за сценарієм, що супроводжує код GloVE: https://nlp.stanford.edu/projects/glove/.

Чи є якісь std. правила/найкращі практики треба слідувати при токенізаціі твітів? Така різноманітність різних кодів-баз призводить до змішування мене іноді.

1
Можливо, ви повинні поглянути на цей документ
додано Автор HatemB, джерело

2 Відповіді

Токенизація, як і всяка попередня обробка, є специфічною для застосування. Це залежить від кінцевої мети. Найважчою (та цікавою) частиною твітів є імена користувачів, хеш-теги, URL-адреси та смайлики. Різні додатки моделюватимуть ці елементи по-різному. Отже, потреба в різних токенизаторах з різними параметрами.

1
додано

Щось, що допомагало мені, коли я працював з твітами, - це те, що є ідеєю використання твітів. Стандартного способу цього не існує, тому що іноді речі, які не мають відношення до токенізаторів, є тими, які вам насправді потрібні. Я хотів би прийняти загальний підхід токенизатора, модифікований для випадку використання я працюю.

Крім того, переконайтеся, що ви зберігаєте копію синіх твітів після обробки, щоб не втратити будь-яку інформацію, може знадобитися для подальшого використання.

1
додано
Штучний інтелект Dev UA
Штучний інтелект Dev UA
212 учасників

Штучний інтелект, машинне навчання, Data Science