Apple Visual Intelligence memberi pemilik iPhone 16 alat yang nyaman dan serbaguna untuk mempelajari lebih lanjut tentang dunia di sekitar mereka. Demo dari Apple pada acara peluncuran iPhone 16 bulan September menunjukkan hal ini dengan contoh mengidentifikasi ras anjing atau mencari tahu tentang konser dari poster — pengalaman yang mirip dengan pengujian awal saya menggunakan iOS 18.2 beta. Namun saya memutuskan untuk mencari di tempat lain untuk tes Kecerdasan Visual yang lebih ketat.
Jika Kecerdasan Visual dimaksudkan untuk memberi tahu Anda tentang hal-hal asing yang ada di hadapan Anda, memberikan konteks yang belum tentu Anda dapatkan sebaliknya, maka mencobanya pada beberapa lukisan tampaknya merupakan penerapan yang ideal. Lukisan adalah media visual dengan berbagai sudut pandang untuk mengkajinya, namun kecuali Anda memiliki gelar di bidang seni rupa, lukisan akan sulit untuk didekati. Dengan kunjungan baru-baru ini ke galeri Tate Britain di London, saya mencoba mengubahnya.
Misi saya adalah menemukan dan merasakan pameran tertentu di galeri, dengan harapan bahwa Kecerdasan Visual akan membantu menjadikan perjalanan ini menjadi hari yang mudah namun mencerahkan. Meskipun seni seperti ini tidak sesuai dengan selera semua orang, saya dan banyak orang lain ingin mengetahui lebih banyak tentangnya. Dan mungkin itu adalah sesuatu yang dapat dibantu oleh Apple Intelligence.
Membaca peta dengan Kecerdasan Visual
Saat memasuki Tate Britain, saya melakukan hal yang sudah jelas dan mencari peta untuk mengarahkan saya ke artis yang ingin saya lihat – pelukis Romantis Inggris JMW Turner. Untungnya, peta ini mudah dibaca dan diuraikan sendiri, tetapi saya tetap mengarahkan iPhone saya ke sana. Jika peta ini menggunakan bahasa atau abjad lain, maka saya benar-benar memerlukan bantuan untuk membacanya, dan di situlah saya berharap Kecerdasan Visual dapat berperan.
Beruntung bagi saya, peta ini diorientasikan secara vertikal, sesuai dengan tampilan potret yang diharapkan oleh Visual Intelligence. Setelah mengambil sekejap, iPhone dengan cepat mengidentifikasi sebagian besar (tetapi tidak semua) teks pada tanda tersebut. Dari sini saya memiliki dua pilihan praktis — meminta Apple Intelligence untuk menjelaskan sendiri tanda itu kepada saya, atau meneruskannya ke ChatGPT dengan tombol “Tanya”.
Apple Intelligence menawarkan opsi untuk meringkas teks, serta menarik tanggal 16 Februari 2025 (tanggal berakhirnya pameran sementara). Ringkasan tersebut dapat memberi tahu saya nama galeri, beberapa seniman terkenal di dalamnya, dan beberapa tempat yang dapat saya kunjungi. Semua hal berguna untuk diketahui, tetapi itu tidak membantu saya mendapatkan lukisan Turner.
Jadi saya kemudian mencoba ChatGPT. Anehnya, ia tidak dapat memberi tahu saya di mana tepatnya saya berada, hanya saja itu adalah museum seni Inggris, dan sebuah peta. Untungnya saya bisa mengajukan pertanyaan lanjutan, jadi saya bertanya di mana saya bisa menemukan pameran Turner. ChatGPT dapat menunjukkan lukisan-lukisan tersebut berada di kanan bawah peta, namun salah membaca nomor ruangan, serta tidak mencantumkan semua ruangan yang menjadi bagian dari pameran. Bukan kesalahan besar, tapi kesalahan yang bisa menimbulkan kebingungan jika saya tidak bisa membaca petanya.
Mengidentifikasi artis dengan Kecerdasan Visual
Saat memasuki pameran, Anda akan menemukan salah satu potret Turner yang paling terkenal — target utama Kecerdasan Visual. ChatGPT langsung meng-ID-nya, dan memberikan beberapa konteks yang relevan.
Saya juga mencoba fungsi Pencarian (yang merupakan pintasan ke Google Lens), yang juga berfungsi dengan baik, menunjukkan kepada saya hasil untuk gambar yang sama secara online. Mengetuk salah satu hasil ini akan membuka browser pop-up melalui antarmuka Visual Intelligence, yang berfungsi dengan baik, namun saya lebih memilih hal-hal untuk tetap berada dalam Visual Intelligence atau membawa saya langsung ke aplikasi browser lengkap saya dibandingkan dengan solusi setengah-setengah ini .
Batasan pembesaran Kecerdasan Visual
Kritik yang saya sampaikan terhadap Apple Visual Intelligence saat pertama kali saya mencobanya adalah bahwa ia hanya dapat memperbesar secara digital. Meskipun iPhone 16 Pro Max yang saya bawa memiliki kamera telefoto 5x yang luar biasa, itu tidak didukung dalam Kecerdasan Visual. Dan fakta itu menjadi sangat menjengkelkan di Tate Britain.
Tanda-tanda di samping setiap lukisan mudah dibaca dari jarak jauh, namun jika Anda mencoba memperbesar untuk menampilkan keseluruhan panel di jendela bidik Visual Intelligence, Anda akan mendapatkan kekacauan yang buram.
Saya harus berdiri bersandar ke dinding untuk mendapatkan gambaran yang jelas tentang tanda yang dapat dirangkum oleh Kecerdasan Visual, yang berhasil dengan baik, meskipun dengan terlalu sedikit detail sesuai dengan keinginan saya. Namun jika ada penghalang antara saya dan tembok atau penjaga keamanan yang cemas bertanya-tanya mengapa saya ingin begitu dekat dengan mahakarya berusia 200 tahun ini, ini akan menjadi masalah.
Pengecekan fakta dengan Kecerdasan Visual
Salah satu lukisan Turner paling terkenal di galeri ini adalah Kastil Norham, Matahari Terbitpenggambaran sebuah kastil yang menakjubkan dan nyaris abstrak di timur laut Inggris. Pada tanda di dekatnya, saya mengetahui bahwa ini didasarkan pada cetakan yang awalnya dibuat Turner untuk sebuah buku, bukan dilukis dari awal. Tampaknya ini merupakan fakta yang menarik, jadi saya memeriksa apakah Kecerdasan Visual dapat memberi tahu saya tentang hal itu.
Fungsi Pencarian tidak banyak membantu, hanya memberikan hasil gambar tanpa opsi untuk menyaring kueri. Sementara itu, ChatGPT meminta dua kali untuk mengidentifikasi lukisan itu dengan benar, lalu memberi tahu saya tentang kastil yang menjadi dasarnya ketika saya bertanya.
Menyadari pertanyaan saya mungkin terlalu kabur dalam hal ini, saya kemudian bertanya lebih jelas apakah lukisan ini berdasarkan sebuah buku, dan pada saat itu ChatGPT menjelaskan hubungan antara cetakan dan lukisan. Saya mencapai apa yang saya perlukan pada akhirnya, tetapi hanya karena saya tahu apa tujuan akhirnya pada awalnya.
Mengenali karya yang kurang dikenal dengan Kecerdasan Visual
Meskipun hasil pencarian Google tidak serbaguna seperti yang Anda dapatkan dari ChatGPT, menurut saya hasil tersebut 100% akurat tidak seperti chatbot. Misalnya, melihat karya Turner yang kurang dikenal, Membajak Lobak, dekat Sloughfungsi Pencarian dengan benar menemukan hasil yang cocok secara online. Saat saya menggunakan tombol Tanya di ChatGPT, tombol tersebut salah mengidentifikasi artis dan lukisannya bahkan setelah saya memberi tahu bahwa ini adalah karya Turner.
Ini menunjukkan keterbatasan besar dalam integrasi ChatGPT dengan Apple Intelligence — setiap obrolan merupakan interaksi yang sepenuhnya terpisah. Jika Anda melakukan hal serupa melalui aplikasi ChatGPT khusus, pesan Anda sebelumnya dapat diingat saat menjawab pertanyaan lebih lanjut. Namun bagi pengguna iPhone 16 biasa yang ingin mencoba Kecerdasan Visual tanpa perlu mendaftar untuk tambahan apa pun, ini berarti Anda memulai dari awal dengan setiap gambar baru yang Anda ambil, sehingga mengharuskan Anda menjelaskan berbagai hal ke telepon berulang kali.
Berbagi cerita dengan Kecerdasan Visual
Lukisan favorit saya yang tergantung di galeri ini adalah Regulusbukan hanya karena tampilannya yang luar biasa, namun juga karena legenda yang melingkupinya — bahwa Turner secara tidak sengaja menusuk kanvas saat melukis matahari karena dia mencoba membuatnya menjadi putih menyilaukan.
Ini persis seperti cerita yang Anda harapkan dapat disampaikan oleh Kecerdasan Visual kepada Anda tentang sebuah lukisan, jadi saya memintanya untuk menceritakan kepada saya tentang lukisan itu. Setelah awal yang salah dimana saya salah mengira latar lukisan itu adalah Venesia dan bukan Kartago, saya akhirnya mendapatkan cerita yang saya inginkan dengan menanyakan secara spesifik tentang kerusakan lukisan itu selama pembuatannya. Menanyakan hal-hal sepele umum atau lebih umum lagi tentang kerusakan tidak memberikan cerita yang saya inginkan.
Menjelaskan hubungannya dengan Kecerdasan Visual
Tes terakhir yang saya berikan pada Kecerdasan Visual adalah menjelaskan mengapa lukisan karya seniman lain – John Constable – digantung di bagian yang sama di museum. Google langsung mengidentifikasi lukisan itu, tetapi tautannya hanya menunjukkan hasil tentang lukisan itu, yang tidak membantu saya menjawab pertanyaan mengapa lukisan itu digantung di sini.
Sekali lagi, ChatGPT mengambil langkah ekstra untuk mengenali lukisan dan penciptanya, namun mampu menjelaskan hubungan temporal dan gaya antara Turner dan Constable, pada dasarnya memberikan penjelasan yang sama seperti yang diberikan galeri pada tanda di pintu masuk ruangan itu. .
Sebuah gambar bernilai seribu petunjuk
Saat saya mencoba Kecerdasan Visual di Tate Britain telah menunjukkan kepada saya bahwa tiga komponen utama yang membentuk fitur tersebut — cara Kecerdasan Visual itu sendiri menangkap informasi, ditambah inti yang didukung Google dan ChatGPT yang menyediakan konten sebenarnya — memiliki tingkat kemampuan yang sangat berbeda. kompetensi. Namun jika digabungkan, mereka dapat memberikan sejumlah informasi yang umumnya akurat, tidak seperti memiliki kurator museum di saku Anda dan lebih seperti seorang paman yang sok tahu yang cenderung salah mengingat kelas seni yang pernah ia ambil di perguruan tinggi sampai Anda mengoreksinya.
Pertama, Visual Intelligence sendiri telah terbukti nyaman digunakan dan mampu membantu tanpa layanan lain melalui pengenalan teks, kemampuan ringkasan, dan kemampuannya untuk berintegrasi dengan aplikasi Apple lainnya. Tapi itu benar-benar perlu bekerja dengan kamera zoom optik jika tersedia pada saat-saat ketika Anda tidak bisa mendekati subjek Anda. Ini akan mendapat manfaat dari menawarkan opsi yang lebih banyak dan lebih luas tentang cara mengeksplorasi gambar di luar dua layanan yang saat ini terhubung dengannya.
Menurut saya, hasil penelusuran Google merupakan paket Kecerdasan Visual yang paling dapat diandalkan, namun juga paling tidak terintegrasi. Fakta bahwa hasilnya seringkali hanya berupa gambar dapat menjadi penghalang, dan anehnya mengingat pencarian Google biasa di browser dengan senang hati memberikan ringkasan AI atau kutipan teks unggulan untuk memberi tahu Anda tentang apa yang Anda cari.
Terakhir, kami memiliki ChatGPT, yang akan mendapatkan keuntungan karena memiliki jendela konteks yang lebih besar untuk menjelaskan lebih banyak hal dalam beberapa gambar, daripada perlu diminta berulang kali. Mungkin hal itu tidak bisa terjadi untuk menyeimbangkan biaya server ChatGPT dengan Apple yang menawarkan layanannya kepada pengguna iPhone 16 secara gratis, tapi tetap saja itu ada dalam daftar keinginan saya. Akurasi yang lebih baik, atau mungkin opsi untuk menambahkan perintah tertulis bersama dengan gambar saat Anda pertama kali menanyakannya, juga dapat membantu memfokuskan hasil pada hal yang Anda perlukan dengan lebih cepat.
Sebagai alat untuk belajar, Kecerdasan Visual telah menunjukkan bahwa ia memiliki banyak potensi, dan jika Apple dapat memanfaatkan potensi ini dengan pembaruan iOS dan generasi perangkat keras di masa depan, pemilik iPhone mungkin memiliki salah satu alat pendidikan terbaik. Namun saat ini, dan mungkin dalam jangka waktu yang lama, akan lebih cepat jika Anda mencari tanda atau meminta ahli terdekat untuk mendapatkan gambaran akurat tentang sebuah lukisan, daripada terus-menerus mendesak ChatGPT untuk mendapatkan nama seniman yang benar.