AI Signals — Viikonloppulukemisto: Sama prompti, viisi esseetä
- Luimme jokaisen esseen numeroiden takaa — 60 mallin tuotosta yhdellä promptilla, ristiintarkistettuna 8 257 validin tuotoksen rakenneskannauksella 73 päivältä. Numerot konvergoivat ~90 % korrelaatiolla; päättely ei
- Viisinkertainen syvyysero: Claude kirjoittaa 368 sanaa per osake, GPT vain 35. Tavoitehinnat painotetaan consensuksessamme tasan — niiden takana oleva analyyttinen syvyys ei painotu
- Itsevarmuus on käänteinen syvyydelle. Gemini raportoi korkeimman luottamuksen (0,74) vähiten spesifisellä sisällöllä; Grok matalimman tiheimmällä kvantitatiivisella ankkuroinnilla. Luottamusta laatusignaalina tulkitseva lukija johdatetaan harhaan
- Uutisintegrointi on käytännössä Clauden monopoli: koko datassa Claude mainitsee keskimäärin 3,0 uutista per tuotos, GPT 0,02. GPT kirjoittaa kuin uutisia ei olisi — eikä juuri kukaan paitsi Claude hedgaa
- Jälkikirjoitus: Engine v8 (9.6.) korvasi portaittaiset katot leveällä sanity-kaistalla. Esseen kuvaama cap-pinning-paradoksi ratkesi täsmälleen kuten ennustettiin — kaikki-viisi-pinned-päivät putosivat yhteen, hajonta kasvoi ~50 %, AAPL/NVDA/XOM eivät enää laskeudu samalle sentille. Mutta mikään cap-uudistus ei saa GPT:tä lukemaan uutisia
Weekend Read #9 — 13. kesäkuuta 2026
AI Investor Barometer seuraa, miten viisi LLM:ää muodostaa DCF-oletukset 24 pörssiyhtiölle — päivittäin, itsenäisesti, samoilla syötteillä.
Neljä viikkoa sitten esseessä Mikä tekoäly on paras sijoittamisessa? päätimme ajatukseen, joka on jäänyt vaivaamaan siitä lähtien. Viisi mallia, samat syötteet, numeerisesti niiden estimaatit korreloivat parittain noin yhdeksänkymmenen prosentin tasolla. Mutta numeroiden alla olevat sanat ovat selvästi erilaisia. Numerot konvergoivat. Esseet eivät.
Niinpä luimme jokaisen esseen. Kaksitoista edustavaa yhtiötä — Apple, Nvidia, Meta Yhdysvaltain teknopuolelta; Neste, Nokia, Elisa, Sampo, UPM Suomesta; JNJ, JPM, PG, XOM amerikkalaisten defensiivien joukosta. Kuusikymmentä mallin tuotosta, kaikki yhdeltä toukokuun lopun kaupankäyntipäivältä, samalla promptilla. Etsimme tekstuuria numeroiden alta — ja löysimme enemmän kuin osasimme odottaa.
Tämä ei vielä ole tarina siitä kuka on oikeassa. Ennustushorisontti on edelleen kuukausien päässä. Tämä on siitä kuka sanoo mitä, ja miten. Tutkimusobservatoriolle se kysymys tulee ensin.
Viisinkertainen syvyysero
Selvin kuvio on jotain, jota yksittäinen consensus-numero piilottaa kokonaan. Key drivers + risks -tuotoksen keskimääräinen pituus, kaikkien kahdentoista yhtiön yli:
- Claude: 400–450 sanaa
- DeepSeek: 180–220 sanaa
- Grok: 150–180 sanaa
- Gemini: 120–150 sanaa
- GPT: 80–100 sanaa
Claude kirjoittaa **noin viisi kertaa enemmän tekstiä** per yhtiö kuin GPT. Numerot — tavoitehinta, prosentuaalinen ero spotiin, confidence — painottuvat consensus-arvossamme tasaisesti. Päättelyn syvyys ei painotu tasaisesti.
Käyttäjä, joka avaa yhtiösivulla mallikohtaisen erittelyn, näkee Clauden esittävän seitsemän kohdan teesin nimetyillä brändeillä, kvartaalikohtaisilla kontekstilla, sääntelyspesifisiteetillä ja varovaisesti muotoiltuna johtopäätöksenä. Sama käyttäjä, GPT:ssä, näkee kolme bullettia jotka olisi voitu kirjoittaa lähes mistä tahansa suuren markkina-arvon teknologiayhtiöstä pienillä sanavaihdoksilla. Vahva brändiuskollisuus ja ekosysteemi. Palveluiden ja puettavien laajeneminen. Innovaatio uusissa tuotekategorioissa. Se on totta. Se on myös käytännössä sisällötöntä.
Tämä oli ensimmäinen yllätys. Toinen on oudompi.
Itsevarmuus on käänteinen syvyydelle
Jokainen malli raportoi oman luottamustasonsa 0–1 -asteikolla numeerisen tuotoksensa rinnalla. Oletimme tämän seuraavan laatua — perusteellisempi päättely, korkeampi luottamus.
Ei seuraa.
- Gemini raportoi korkeimman luottamuksen (0,7–0,8), vähiten spesifisellä sisällöllä
- Grok raportoi matalimman luottamuksen (0,55–0,65), tiheimmällä kvantitatiivisella ankkuroinnilla
- Claude asettuu keskelle (0,63–0,74), syvimmällä sisällöllä
Lukija, joka tulkitsee luottamusta laatusignaalina, johdatetaan harhaan. Itsevarmin malli on vähäisin informatiivinen. Varovaisin malli näyttää työnsä.
Meillä ei ole tälle puhdasta selitystä paitsi ilmeinen: kielimallit on koulutettu kuulostamaan itsevarmoilta kun ne ovat sujuvia, ja varovaisilta kun ne ovat spesifisiä. Sujuvuus ei ole analyysi.
Uutis-integrointi on käytännössä Clauden monopoli
Poimimme seitsemän tunnettua tapahtumaa, jotka vaikuttivat kahteentoista otosyhtiöön edeltävinä viikkoina — Minnesotan talc-tuomio Johnson & Johnsonia vastaan, Michael Burryn nostama Nvidian asiakaskeskittymä, Iranin ydinneuvottelut öljyn päällä, Mondin tulosvaroitus UPM:n varjona, Metan kahdeksantuhatta lay-offia, ja niin edelleen. Tarkistimme sitten kuka mainitsi mitäkin päättelyssään.
| Malli | Uutistapahtumia mainittu |
|---|---|
| Claude | 7 / 7 |
| DeepSeek | 2 / 7 |
| Gemini | 2 / 7 (yleisellä tasolla) |
| Grok | 1 / 7 |
| GPT | 0 / 7 |
GPT toimii kuin uutisia ei olisi. Se kirjoittaa samat yleisluonteiset bulletit kuin se olisi saanut tilinpäätökset ja tickerin. XOM-analyysissä ei ole Irania. Nvidia-näkemyksessä ei ole Burryä. UPM-perustelussa ei ole Mondia.
Claude, ainoana viiden joukosta, lukee aamulehden.
Lähes kukaan ei hedgaa
Etsimme sanoja, jotka signaloivat tietämyksellistä epävarmuutta — ei taattua, voi olla hitaampaa kuin odotettu, toteutusriski on edelleen koholla, voisi pakata. Sellaista kieltä, jota huolellinen osakekeanalyytikko käyttää oman ennusteensa rajojen merkitsemiseen.
Claude käyttää tällaista kieltä johdonmukaisesti. Grok hedgaa numeroiden ympärillä (*ankkuroituu lähellä 9,8 %*) mutta harvoin teesistä. DeepSeek hedgaa satunnaisesti riskeissä. Gemini ja GPT eivät käytännössä koskaan hedgaa. Niiden ennusteet on esitetty faktoina.
Tämä on, kun asiaa miettii, eri kategorian ongelma kuin muut. AI-analyysit kuulostavat varmemmilta kuin ovat — ja pinnallisimmat analyysit kuulostavat varmimmilta. Analyytikkokielen tunteva lukija discountaisi Geminin ja GPT:n liian deklaratiivisina; analyytikkokonventiosta tietämätön lukija saattaa lukea varmuutta niihin.
Kolme riski-sanaston kerrosta
Sama riskikäsite esiintyy viidessä eri muodossa. Tarkastele "sääntelyä" Johnson & Johnsonin riskinä:
- Claude (mekanismi): "Lääkkeiden hinnoittelureformi ja IRA Medicare -neuvottelusäännökset voisivat rakenteellisesti puristaa hinnoitteluvoimaa Innovative Medicine -segmentissä, erityisesti korkeiden tulojen tuotteissa, jotka ovat neuvottelujen kohteena."
- DeepSeek (kategoria + mekanismi): "Hinnoittelupaine Yhdysvaltain terveysmarkkinoilla ja mahdolliset sääntelymuutokset voisivat puristaa katteita."
- Gemini (kategoria): "Sääntelymuutokset ja kasvavat hinnoittelupaineet aiheuttavat jatkuvaa haastetta kannattavuudelle."
- GPT (label): "Teknologiayhtiöiden sääntelyvalvonta."
Kaikki viisi nostavat saman riskikäsitteen. Syvyys, jolla ne kuvaavat sen, vaihtelee mekanismista (Claude) kategoria-plus-syyhyn (DeepSeek) kategoriaan (Gemini) labeliin (GPT). Sama oivallus, neljä eri hyödyllisyystasoa analyytikolle.
Tämä kuvio toistuu jokaisessa riskityypissä — kilpailu, sääntely, raaka-ainealtistuminen, asiakaskeskittymä. Kategoriat konvergoivat, mekanismit divergoivat.
Bullish-poikkeama ja cap-pinning-paradoksi
Vielä kaksi löydöstä, molemmat tekstin ja numeroiden suhteesta.
Ensiksi: GPT — kirjoituksessaan yleisluonteisin — on myös, kun se on eri mieltä pakkaan kuin nähden, lähes aina **optimistinen**. Nesteessä GPT:n tavoite on 29,52 € muiden neljän klusteroituneena 20–23 €:oon, 44 prosentin ero pakettiin nähden. Nokialla 7,88 € vastaan 6,75–6,78 €. UPM:llä 24,05 € vastaan 20–22 €. Bullish-poikkeama on malli, jolla on vähiten spesifinen päättely.
Emme vielä tiedä onko tämä tilastollinen artifakti vai johdonmukainen vinouma. Jos se on johdonmukaista, mekanismi voi olla se, että GPT:n yleisluonteiset ankkurit (vahva brändi, kasvu, laajeneminen) eivät tarjoa alaspäin painavaa kitkaa — ilman sektorikohtaista painovoimaa numero ajautuu ylös.
Toiseksi: snapshot-päivänä kolme yhtiötä näytti nollahajonnan: kaikki viisi mallia laskeutuivat täsmälleen samaan tavoitehintaan sentilleen. AAPL 233,03 dollaria. NVDA 222,99 dollaria. XOM 127,08 dollaria. Samaan aikaan Meta näytti 48 prosentin vaihteluvälin viiden mallin yli, Neste 44 prosenttia. Moottorin turvarajat pinnasivat joitakin osakkeita ja antoivat toisten lentää. Effective N vaihtelee yhtiön mukaan. Aiemmin raportoimamme 19 prosenttia "kaikki-viisi-pinned" -päiviä keskittyivät tiettyihin nimiin, eivät satunnaisotantaan. (Miksi imperfekti? Katso esseen loppu.)
Mitä tämä kaikki tarkoittaa
Viisi mallia. Yksi lupaus — itsenäiset näkökulmat. Numerot kunnioittavat tätä lupausta vähemmän kuin consensus antaisi olettaa, ja esseet kunnioittavat sitä odottamattomilla tavoilla: ne eivät eroa siinä mikä on tärkeää (riskikategoriat konvergoivat), vaan siinä kuinka paljon se on tärkeää ja mikä tarkka mekanismi on.
Sivuston käyttäjälle käytännön johtopäätös on epämukava: älä pysähdy consensus-numeroon, äläkä pysähdy mallikorttiin, jolla on korkein luottamus. Lue itse päättely. Huomaa mikä malli on käsitellyt tämän viikon uutisia. Huomaa mikä malli käytti yhtiön todellisia brändejä ja tuotteita ja mikä käytti template-fraaseja. Huomaa mikä malli myönsi mitä voi mennä pieleen.
Meille johtopäätös on rakenteellisempi. Universaali peittävyys — sisäinen tavoitteemme, että jokaisella osakkeella tulisi olla viisi toimivaa, erottuvaa analyysiä — on sekä kvantitatiivinen että kvalitatiivinen ulottuvuus. Olemme mitanneet kvantitatiivisen (effective N, capping-aste, validity). Emme ole mitanneet kvalitatiivista. Tämän läpiluvun jälkeen on selvää, että kaksi viidestä mallistamme tuottaa kvalitatiivisella akselilla huomattavasti vähemmän analyyttistä arvoa kuin muut kolme — jopa osakkeilla, joilla numeerinen consensus on tiukka.
Tämän esseen luonnostelun ja julkaisun välissä moottorisyklimme seuraava shippi ehti satamasta: **Engine v8 ja Prompt v11 menivät tuotantoon 9. kesäkuuta**, ja portaittaiset analyytikkorajat korvautuivat leveällä sanity-kaistalla. Ensimmäiset datapäivät käyttäytyvät täsmälleen kuten yllä kuvattu cap-pinning-paradoksi ennusti. Kaikki-viisi-pinned-yhtiöpäivät putosivat neljästä–kuudesta päivässä yhteen. Näkyvä estimaattihajonta kasvoi noin puolella. AAPL, NVDA ja XOM eivät enää laskeudu samalle sentille — numerot ovat alkaneet olla eri mieltä rehellisesti.
Mutta se korjaa vain numeerisen akselin. Mikään cap-uudistus ei saa GPT:tä lukemaan uutisia, eikä mikään sanity-kaista muuta labelia mekanismiksi. Viisi ääntä ei ole vielä viisi analyysiä. Palaamme kvalitatiiviseen eroon, kun v8 on täysin asettunut.
Yllä olevat löydökset perustuvat yhden päivän, kahdentoista yhtiön lähilukuun, joka on ristiintarkistettu 8 257 validin tuotoksen rakenneskannauksella 73 kaupankäyntipäivän yli — mallikohtaiset sanamäärät, uutismainintojen osuudet ja hedge-asteet pätevät koko datassa. Skriptit ovat projektin repositoryssa, jos joku haluaa toistaa.
— AI Investor Barometer