Polskie Badania Czytelnictwa podczas wtorkowego (13 stycznia) webinaru, zaprezentowało replikację badań międzynarodowych dotyczących jakości odpowiedzi AI. W wiadomościach streszczanych przez najpopularniejsze modele w języku polskim aż 46% odpowiedzi zawierało co najmniej jeden istotny błąd, 27% odpowiedzi miało poważne problemy ze źródłami (brakujące, wprowadzające w błąd lub nieprawidłowe przypisanie źródeł), a 19% zawierało poważne braki w dokładności, w tym tzw. halucynacje i nieaktualne informacje.
Wyniki badań PBC są zbliżone do podobnych badań robionych w innych językach i krajach. Problemy AI mają charakter systemowy, transgraniczny oraz wielojęzyczny. Jeśli ich jakość się nie poprawi a skala używania wzrośnie, to mogą one podważyć zaufanie publiczne do mediów i do wszystkich przekazów treści. Wydawcy z jednej strony intensywnie korzystają z narzędzi AI, z drugiej strony AI wykorzystuje ich treści do trenowania modeli językowych a z trzeciej są zmuszeni konkurować z AI.
Nowe formy przekazywania wiedzy oparte na algorytmach AI próbują wejść w rolę tradycyjnych mediów streszczając wiadomości z serwisów internetowych i gazet. Według raportu Digital News Report Instytutu Reutersa z 2025 roku, tylko 7% wszystkich odbiorców wiadomości online intencjonalnie korzysta z asystentów AI, w szczególności z ChatGPT, Gemini czy Perplexity. Wśród osób poniżej 25. roku życia odsetek ten wzrasta do 15%.
Z badań prowadzonych na świecie wynika, że wielu użytkowników postrzega sztuczną inteligencję jako godną zaufania. W lutym 2025 r., BBC przeprowadziło na brytyjskim rynku wykonano badanie jakości odpowiedzi AI. Ponieważ blisko połowa odpowiedzi sztucznej inteligencji zawierała błędy a badanie było zrobione tylko w Wielkiej Brytanii i w jednym z najpopularniejszym języków świata – angielskim – BBC, by potwierdzić swoje spostrzeżenia zainicjowało rozszerzenie tego testu na wiele innych krajów i języków. Druga runda badań była koordynowana przez Europejską Unię Nadawców (EBU) pod kierownictwem BBC i miała bezprecedensowy zasięg i skalę. Wykonano testy z udziałem organizacji z 18 krajów, komunikujących się w 14 językach. W badaniu wzięły udział organizacje z Belgii, Wielkiej Brytanii, Kanady, Czechy, Finlandii, Francji, Gruzji, Niemiec, Włoch, Litwy, Holandii, Norwegii, Portugalii, Hiszpanii, Szwecji, Szwajcarii, Ukrainy i Stanów Zjednoczonych.
Profesjonalni dziennikarze uczestniczący w międzynarodowym teście ocenili w 18 krajach blisko 3000 odpowiedzi z serwisów ChatGPT, Copilot, Gemini i Perplexity. Oceniali dokładność, sposób i jakość odniesień do źródeł w streszczaniu informacji, odróżnienie w przedstawianych odpowiedziach opinii od faktów, ujęcie redakcyjne oraz kontekst wypowiedzi, tj, dostarczenie wystarczających informacji lub odpowiednich perspektyw, aby dać czytelnikowi niebędącemu ekspertem kompletną i nie wprowadzającą w błąd odpowiedź. Oceniano poszczególne odpowiedzi jako niebudzące zastrzeżeń, budzące pewne zastrzeżenia, budzące poważne zastrzeżenia.
W Polsce spółka Polskie Badania Czytelnictwa zrobiła replikację tych badań, aby również ocenić jakość polskojęzycznych modeli językowych. Przetestowano po 60 zapytań w modelach ChatGPT, Gemini oraz Perplexity.
Wyniki obu testów były zbieżne (tabela). Blisko połowa odpowiedzi sztucznej inteligencji zawiera co najmniej jeden błąd (badania międzynarodowe: 45%, badania polskie 46%); blisko 1/3 odpowiedzi ma niepoprawnie podane źródła lub ich brak (badania międzynarodowe: 31%, badania polskie 27%), a 1/5 odpowiedzi jest nieprawidłowych, ma poważne błędy w dokładności lub halucynacje (badania międzynarodowe: 20%, badania polskie 19%). Porównanie wyników badań międzynarodowych i polskich dotyczących jakości odpowiedzi AI
| Badania EBU i BBC
(18 krajów, 14 języków) |
Badania PBC
(Polska) |
|
| Procent odpowiedzi zawierający co najmniej jeden istotny błąd | 45% | 46% |
| Procent odpowiedzi mających poważne problemy ze źródłami | 31% | 27% |
| Procent odpowiedzi mających poważne braki w dokładności | 20% | 19% |
Asystenci AI, będący już codziennym źródłem informacji dla milionów ludzi, notorycznie przeinaczają treści informacyjne, niezależnie od tego, jaki język, terytorium lub platforma AI są testowane. Badania wskazały, że problem ma charakter systemowy i nie jest związany z językiem, rynkiem ani asystentem AI.
– Badania jednoznacznie dowodzą, że te niedociągnięcia nie są odosobnionymi incydentami – mówi Jean Philip De Tender, dyrektor ds. mediów i zastępca dyrektora generalnego EBU – organizatora międzynarodowych badań. – Mają one charakter systemowy, transgraniczny i wielojęzyczny, i naszym zdaniem zagrażają zaufaniu publicznemu. Kiedy ludzie nie wiedzą, komu ufać, w końcu nie ufają niczemu, a to może zniechęcać do uczestnictwa w demokracji.
Renata Krzewska, Prezes Polski Badań Czytelnictwa podkreśla, że: – Mimo przełomowej zmiany jaka się dokonała w sposobie wyszukiwania informacji, błędy są na tyle poważne, że mogą zagrażać reputacji cytowanych mediów, bo odniesienie w źródłach do renomowanej redakcji czy nazwiska znanego dziennikarza uwiarygadnia podsumowanie, które często nie jest najlepszej jakości. Opinie naukowców wskazują, że algorytmy sztucznej inteligencji mogą popełniać błędy, ponieważ niektóre pytania są z natury trudne lub po prostu nie mają uogólnialnego wzorca. Błędne odpowiedzi wynikają także ze zwyczajnego przyzwolenie firm technologicznych; gdyby model zbyt często przyznawał się do odpowiedzi „nie wiem”, użytkownicy po prostu szukaliby odpowiedzi gdzie indziej.

Więcej o samym badaniu i pełna informacja dostępna na stronie PBC
