ciptawarta.com – CHINA – Perusahaan induk TikTok yang berbasis di China, ByteDance, telah meluncurkan web crawler atau scraper bot sendiri yang dikenal sebagai Bytespider pada April 2024 silam. Hal ini merupakan upaya mereka untuk mengejar ketertinggalan dalam perlombaan Artificial Intelligence (AI) generatif.
Menurut riset dari Kasada, perusahaan yang mengkhususkan diri dalam manajemen bot, keberadaan Bytespider telah dikonfirmasi oleh Dark Visitors yang memantau aktivitas scraper bot.
Bytespider: Scraper Paling Agresif di Internet
Riset menunjukkan bahwa Bytespider telah menjadi salah satu scraper paling agresif di internet. Mesin ini mampu mengumpulkan data dengan kecepatan yang jauh melampaui perusahaan besar lainnya seperti Google, Meta, Amazon, OpenAI, dan Anthropic yang juga menggunakan scraper bot untuk membangun dan meningkatkan model bahasa besar atau model multimodal mereka (LLM/LMM).
“Sejak kemunculannya, Bytespider telah mengumpulkan data dengan kecepatan sekitar 25 kali lipat dari GPTbot yang mengumpulkan data untuk platform ChatGPT OpenAI dan model dasarnya,” ungkap Sam Crowther, CEO Kasada.
Bytespider juga mengumpulkan data dengan kecepatan 3.000 kali lipat dari ClaudeBot (Anthropic) yang mengoperasikan platform Claude.
Aktivitas Scraping Meningkat
Menurut Kasada, Bytespider semakin agresif dalam mengumpulkan data. Data menunjukkan adanya lonjakan besar dalam aktivitas scraping dari Bytespider selama enam minggu terakhir.
Kontroversi Web Scraping
Web scraping telah ada selama beberapa dekade, terutama dilakukan oleh mesin pencari untuk mengumpulkan tautan ke halaman web. Namun, kebangkitan alat AI generatif telah menambahkan dimensi baru dan menjadikan praktik ini sumber gugatan dan kontroversi.
Individu dan organisasi yang karyanya diambil berpendapat bahwa hak cipta mereka dilanggar dalam proses tersebut.
Semua model yang mendasari alat AI generatif dilatih dengan sejumlah besar data online, yang pada dasarnya adalah semua yang tersedia di web, terutama informasi tertulis. Perusahaan teknologi menggunakan scraper bot untuk menyalin semua itu secara gratis dan memasukkannya ke dalam set data mereka.
ByteDance Mengejar Ketertinggalan
Tahun lalu, ByteDance dilaporkan sangat tertinggal dalam perlombaan AI generatif sehingga mereka menggunakan OpenAI untuk membantu membangun LLM ByteDance sendiri, yang bertentangan dengan ketentuan layanan OpenAI.
Awal tahun ini, ByteDance merilis LLM berbasis chat yang dikenal sebagai Duabo, tetapi pengembangan model tersebut telah selesai sebelum akumulasi data pelatihan yang lebih baru yang dikumpulkan oleh Bytespider.
LLM Baru dan Fungsi Pencarian TikTok
Menurut sumber internal perusahaan, ByteDance sedang mengembangkan LLM baru. Salah satu tujuannya adalah untuk meningkatkan fungsi pencarian di TikTok.
Minggu lalu, TikTok merilis pembaruan untuk fungsi pencariannya yang berfokus pada kata kunci untuk iklan, yang pada dasarnya memungkinkan pengiklan untuk mencari kata-kata yang sedang tren di TikTok secara real-time.
Hal ini memungkinkan pemasar untuk membuat iklan dengan kata kunci yang relevan yang seharusnya membantu iklan tersebut muncul di layar lebih banyak pengguna.
Model AI baru dengan data tentang tren dan topik internet terbaru dapat memperluas dan meningkatkan lingkungan pencarian TikTok lebih lanjut.
“Mengingat audiens dan jumlah penggunaan, TikTok dengan lingkungan pencarian yang dapat ditawar dengan kata kunci dan topik, akan sangat menarik bagi banyak orang yang menghabiskan banyak biaya dengan Google saat ini,” tulis seorang sumber.