Semakin banyak kita belajar tentang bagaimana AI dibangun, semakin banyak laporan bermunculan tentang perusahaan yang menggunakan konten berhak cipta untuk melatih AI tanpa izin.
NVIDIA dituduh mengunduh video dari YouTube, Netflix, dan kumpulan data lain untuk melatih proyek AI komersial. 404 Media melaporkan bahwa perusahaan tersebut menggunakan video yang diunduh untuk melatih model AI untuk produk seperti generator dunia 3D Omniverse milik perusahaan tersebut dan upaya “manusia digital” seperti proyek AI Gr00t yang diwujudkan.
Saat dihubungi melalui email, NVIDIA mengatakan kepada Tom's Guide bahwa mereka “menghormati hak semua pembuat konten” sambil mengatakan bahwa upaya penelitian mereka “sepenuhnya mematuhi hukum hak cipta.”
“Hukum hak cipta melindungi ekspresi tertentu, tetapi tidak melindungi fakta, ide, data, atau informasi,” demikian bunyi pernyataan mereka. “Siapa pun bebas mempelajari fakta, ide, data, atau informasi dari sumber lain dan menggunakannya untuk membuat ekspresi mereka sendiri.”
Mereka juga menyatakan bahwa pelatihan model AI adalah contoh penggunaan gratis dengan menggunakan konten untuk tujuan transformatif.
Netflix menolak berkomentar, tetapi YouTube tidak setuju dengan penilaian NVIDIA. Jack Malon, Manajer Komunikasi Kebijakan YouTube, merujuk pada komentar yang disampaikan oleh CEO Neal Mohan pada bulan April kepada Bloomberg, yang mengatakan bahwa “komentar kami sebelumnya masih berlaku.”
Saat itu, Mohan menanggapi laporan bahwa OpenAI melatih generator video Sora AI pada video YouTube tanpa izin. Ia berkata, “Aplikasi itu tidak mengizinkan hal-hal seperti transkrip atau potongan video untuk diunduh, dan itu jelas merupakan pelanggaran terhadap ketentuan layanan kami. Itulah aturan yang berlaku dalam hal konten di platform kami.”
Ini bahkan bukan pertama kalinya musim panas ini NVIDIA dituduh melakukan pengikisan YouTube. Beberapa perusahaan besar, termasuk Apple dan Anthropic, dilaporkan mengambil informasi dari kumpulan data besar yang disebut 'the Pile' yang menampilkan ribuan video YouTube, termasuk kreator populer seperti Marques Brownlee dan PewDiePie.
Kekhawatiran etika yang muncul…dan diabaikan
404Media melaporkan bahwa karyawan yang mengemukakan masalah etika atau hukum diberi tahu oleh manajer bahwa praktik tersebut telah mendapat lampu hijau dari “tingkat tertinggi perusahaan.”
“Ini adalah keputusan eksekutif,” jawab Ming-Yu Liu, wakil presiden penelitian di NVIDIA. “Kami memiliki persetujuan menyeluruh untuk semua data.”
Rupanya, beberapa manajer menunda penyelesaiannya, dengan mengatakan bahwa penghapusan tersebut merupakan masalah hukum terbuka yang harus diselesaikan perusahaan nanti.
Video YouTube dan Netflix bukan satu-satunya kumpulan data yang dilaporkan dihapus oleh NVIDIA. Perusahaan tersebut juga disebut telah mengambil data dari basis data trailer film MovieNet, pustaka rekaman video gim, dan kumpulan data video Github WebVid.
Mungkin saja pengikisan menciptakan peluang bagi data yang buruk untuk masuk ke pelatihan model karena perusahaan tampaknya mengambil apa pun yang mereka bisa.
Bruno Kurtic, CEO Bedrock Security, mengemukakan hal itu dapat menciptakan model yang buruk, “Mengingat skala data yang digunakan sangat besar, upaya manual untuk melakukan hal ini akan selalu menghasilkan jawaban yang tidak lengkap, dan akibatnya, model tersebut mungkin tidak tahan terhadap pengawasan regulasi.”
Ia melanjutkan dengan menyarankan agar perusahaan pembangun AI menyediakan “daftar bahan data yang dapat diaudit untuk menyoroti dari mana data yang mereka gunakan untuk pelatihan berasal dan dari mana sumbernya secara etis.”
Ini adalah salah satu cara yang dapat dilakukan perusahaan untuk mengatasi masalah AI mereka, tetapi jika semua orang saling mengumpulkan data, data apa yang bersih?
Apa yang tidak adil?
Diduga, beberapa video yang digunakan NVIDIA berasal dari pustaka besar video YouTube yang ditandai hanya untuk tujuan akademis. Lisensi penggunaan ini menetapkan bahwa video tersebut hanya dimaksudkan untuk penelitian akademis. Rupanya, NVIDIA mengklaim bahwa pustaka akademis tersebut merupakan sasaran empuk bagi produk AI komersial.
Perusahaan induk YouTube, Alphabet, tidak kebal terhadap kritikan karena mengorek internet untuk model AI. Musim panas lalu, Google merilis rencana untuk menggunakan semua “informasi yang tersedia untuk umum guna membantu melatih model AI Google dan membangun produk serta fitur seperti Google Translate, Bard, dan kapabilitas Cloud AI.”
Adalah aman untuk berasumsi bahwa apa pun yang diunggah ke platform Google seperti YouTube dianggap sebagai permainan yang adil, begitu pula apa pun yang diunggah di internet secara luas.
Saat itu, juru bicara Google mengatakan kepada Tom's Guide, “Kebijakan privasi kami telah lama transparan bahwa Google menggunakan informasi yang tersedia untuk umum dari web terbuka untuk melatih model bahasa bagi layanan seperti Google Translate. Pembaruan terbaru ini hanya menjelaskan bahwa layanan yang lebih baru seperti Bard juga disertakan. Kami memasukkan prinsip privasi dan perlindungan ke dalam pengembangan teknologi AI kami, sejalan dengan Prinsip AI kami.”
Implikasinya adalah bahwa setiap unggahan publik yang dibuat pada suatu waktu merupakan bahan bakar bagi ambisi AI milik Google sendiri.
Laporan 404 Media selengkapnya memiliki lebih banyak detail dan layak dibaca.