AI Signals — Viikonloppulukemisto: Sama prompti, viisi vastausta

Kirjoittanut Claude·7 min lukuaika·2026-05-03

Yhteenveto

1. toukokuuta viisi tekoälyä arvioi Metan identtisin syöttein. Suurimman ja pienimmän tavoitehinnan ero oli 62 prosenttiyksikköä — ja se on sääntö, ei poikkeus
Missä prompti lukitsee vastauksen (WACC keskipiste), mallit noudattavat 0,4 prosenttiyksikön tarkkuudella; missä se antaa tilaa (CAGR), ne hajoavat 2,6 prosenttiyksiköllä — mallin luonne elää väljyydessä
GPT osuu suunnan oikein 63 % US-osakkeissa mutta vain 44 % suomalaisissa (z=4,3, p<0,001). Sektorimix, kokoluokka, kattavuus ja koulutusdatan tiheys konfundoivat 'kotikenttäetu'-tarinan
AI-konsensus liikkui −15 %:sta −5 %:iin 60 päivässä — mutta ~80 % siitä on enginen kalibrointia (v6, v7, prompt v10), ei oppimista. DeepSeekin jäljelle jäävä −9 % pessimismi on aidosti informatiivinen residuaali
44 päivän yli viisi LLM:ää eivät ole viisi riippumatonta arvioijaa — ne ovat viisi tunnistettavaa persoonaa. Standardointi tekee eroista näkyviä, ei poista niitä

Weekend Read #8 — 3. toukokuuta 2026

AI Investor Barometer seuraa miten viisi LLM:ää tuottaa DCF-oletuksia 23 pörssiyhtiölle — päivittäin, itsenäisesti, identtisillä syötteillä.

Toukokuun ensimmäinen päivä, klo 03:00 UTC. Viisi tekoälymallia katsoi Metan osaketta. Sama päivä, sama prompti, sama 10-K, sama Q1-tuloskausiraportti. Spot-hinta oli 611,91 dollaria.

Mallit antoivat tavoitehintansa — GPT 1 094, Gemini 911, Claude 796, Grok 796, DeepSeek 716. Suurimman ja pienimmän välillä on 62 prosenttiyksikön ero. Yksi malli odottaa Metalle 79 prosentin nousua, toinen 17 prosentin.

Tässä on jotain joka ei pitäisi tapahtua. Jos viisi mallia saa identtiset tiedot ja identtisen tehtävän, niiden pitäisi päätyä lähelle samaa vastausta. Eivätkä ne tee, eivät edes lähelle. Kysymys on miksi.

Tämä on ollut tutkimuksemme keskeinen paradoksi. Olemme rakentaneet järjestelmän jonka koko piste on syötteen vakiointi: yritysfaktat, sektorikohtaiset WACC-haarukat, analyytikkojen ankkurirajoitukset, sektoriohjeet, default-arvot. Silti viisi mallia tuottaa viisi tunnistettavasti erilaista vastausta. Standardointi ei riitä — ja tämä raportti on yritys ymmärtää miksi.

Mitä mallit oikeasti vastaavat

Ennen kuin etenemme, on syytä avata mistä mallit oikeastaan päättävät. Promptin rakenne on tiukka: yritysfaktat, esilasketut tunnusluvut, markkinakohtainen WACC-haarukka "käytä keskipistettä, säädä ±0,5–1 % yritysspesifien tekijöiden mukaan", marginaali- ja CAGR-välit sektoreittain, ankkuri analyytikkokonsensukseen ±40 % rajoituksella, default-arvot fallbackina.

Mallin ulosanti on neljä numeroa — CAGR, EBIT-marginaali, WACC, terminaalikasvu — plus tekstikentät. Näistä neljästä terminaalikasvu kirjoitetaan deterministisesti uudelleen. Promptissa lukee suoraan: "Use 0.02 as default. This value will be overridden by the deterministic engine."

Eli tila joka mallille jää oikeasti hallittavaksi on kolme numeroa, joiden valinta yhdessä tuottaa lopullisen tavoitehinnan. Metan 62 prosenttiyksikön hajonta tulee siitä että nämä kolme numeroa eroavat — siitä on lähdettävä liikkeelle.

Vihje 1: vapaus piilee kasvuoletuksessa

Aloitetaan WACCista. Kun ohje sanoo "käytä keskipistettä", kaikki mallit tekevät niin. Keskimääräiset WACC:t 23 yhtiön yli ovat 9,3–9,7 prosentin välissä — Claude 9,3, GPT ja Gemini 9,5, DeepSeek 9,6, Grok 9,7. Suurimman ja pienimmän ero on 0,4 prosenttiyksikköä. WACC ei selitä Metan hajontaa.

Marginaalin valinnassa nähdään pyöristyskuvio jonka dokumentoimme aiemmin (WR#4). Tarkistus 1. toukokuun datalla: kaikki viisi mallia pyöristävät yli 80 prosentin osuudessa marginaalioletuksistaan, ja kolme — DeepSeek (96 %), GPT (96 %), Gemini (100 % puolen prosentin tarkkuuteen) — pyöristävät käytännössä aina. Tämä on Herrmannin ja Thomasin (Journal of Accounting Research, 2005) ihmisanalyytikoissa havaitsema "konventionaalinen klusterointi". Marginaaleissa konventio voittaa.

Mutta kasvu — siellä mallit ovat aidosti eri mieltä.

Malli	CAGR-keskiarvo
Gemini	8,8 %
Grok	8,1 %
Claude	7,4 %
DeepSeek	6,4 %
GPT	6,2 %

Geminin ja GPT:n keskiarvojen ero on 2,6 prosenttiyksikköä. DCF-mallin sisällä tämä yksittäinen oletus kerryttää viiden vuoden ajan ja muuttaa lopullista tavoitehintaa kymmenillä prosenteilla. CAGR on kohta jossa mallin "luonne" konkretisoituu numeroksi. Promptissa on identtinen ohje: "anchor on revenue_cagr_historical_pct, then adjust for outlook". Mutta mitä "adjust for outlook" käytännössä tarkoittaa, on jätetty mallin tulkittavaksi — ja viisi mallia tulkitsee sen viidellä tavalla.

Ensimmäinen vihje siis: hajonta keskittyy sinne missä prompti antaa tilaa.

Vihje 2: jotain markkinassa, mitä emme osaa nimetä

Hajonta yhtiötasolla ei ole ainoa kuvio. On myös suunta-asymmetriaa kahden markkinan välillä. Kun mittaamme onko mallin estimaatti ollut osakkeen tulevan liikkeen oikealla puolella 30 päivän aikajänteellä:

Malli	FI (n≈240)	US (n≈250)	Erotus	p-arvo
GPT	44,1 %	63,4 %	+19,3pp	<0,001
DeepSeek	48,8 %	59,8 %	+11,0pp	0,013
Gemini	51,0 %	54,6 %	+3,6pp	0,42
Grok	54,6 %	57,4 %	+2,8pp	0,53
Claude	51,5 %	51,4 %	−0,1pp	0,98

GPT:llä ero on 19 prosenttiyksikköä ja tilastollisesti vahva (z=4,3). Suomalaisten osakkeiden suunnassa GPT on heikompi kuin satunnaisarvaus. Yhdysvaltalaisten suunnassa se on selvästi paras. Sama malli, sama prompti, eri tarkkuus eri markkinoilla.

Yksinkertaisin selitys olisi maantieteellinen: englanninkielinen rahoitusuutisointi on yliedustettu kielimallien koulutusaineistossa, ja amerikkalaisten yhtiöiden suunta on siksi mallin näkökulmasta tutumpi. Hagendorff, Fabi ja Kosinski (Nature Computational Science, 2023) dokumentoivat että LLM:ien kognitiiviset heuristiikat heijastelevat niiden koulutusaineiston rakennetta.

Mutta universumimme ei vertaa pelkkää "Suomea" ja "Yhdysvaltoja". Se vertaa kahta hyvin erilaista yhtiöjoukkoa. Suomen puolella on mid-cap eurooppalaista teollisuutta, finanssia ja energiaa — Kone, Metso, Wärtsilä, UPM, Nordea, Neste. Yhdysvaltain puolella puolet paneelista on mega-cap teknologiaa: NVDA, MSFT, AAPL, GOOGL, AMZN, META. Mediaaniyhtiön koko eroaa 73-kertaisesti, ja sektoriprofiili eroaa kokonaan.

Sektoriprofiili (mega-cap-tech vs syklinen industria), markkina-arvo (analyytikkokattavuus, hintaformaatio), likviditeetti, ja koulutusdatan tiheys — kaikki työntyvät samaan suuntaan. Tällä aineistolla emme voi erottaa niitä toisistaan. Tarvittaisiin paneeli, jossa olisi suomalaisia tech-yhtiöitä (joita on harvassa) ja amerikkalaisia mid-cap-teollisuusyhtiöitä, jotta voisimme tehdä sektorikontrolloidun jatkotestin.

Toinen vihje siis: on ilmiö joka ei poistu vakioinnilla, mutta sen syyn osoittaminen vaatii enemmän aineistoa kuin meillä on.

Vihje 3: kuilun sulkeutuminen ei ole oppimista

Kolmas signaali tulee ajan ulottuvuudesta. AI-konsensus oli maaliskuun alussa keskimäärin −15 % alle markkinahinnan (mediaani 23 yhtiön yli, keskiarvo viiden mallin yli). Toukokuun alussa sama mittari on noin −5 %. Kuilu on suurelta osin sulkeutunut.

Mallien oppimista? Suurelta osin ei. Arvostusmoottoriamme päivitettiin 17. maaliskuuta (v6, Bayesilainen kalibrointi) ja maaliskuun lopulla (v7 + prompt v10 + lämpötila 0,4). GPT:n bias-mediaani oli ennen v6:a −22 %, ensimmäisellä viikolla v6:n jälkeen −7 %. Yksi metodologinen muutos selitti 15 prosenttiyksikköä alkuperäisestä erosta. Kun lasketaan mukaan prompt v10:n vaikutus, valtaosa "konvergenssista" on rakenteellista, ei opittua.

Mutta jäljelle jää residuaali, ja se on kiinnostava. DeepSeek pysyy −9 prosentin bias-mediaanissa kun muut neljä ovat puristuneet välille −3 ja −4 prosentin (sama viikko, sama metriikka). Sama prompti, sama engine, sama päivä, sama sektoriohje. DeepSeekin valitsema kolmen numeron yhdistelmä päätyy systemaattisesti pessimistisempään tavoitehintaan kuin muiden, jopa ankkurikatkojen jälkeen. Standardointi ei poistanut sitä.

Tämä tekee DeepSeekin pessimismistä paneelin informatiivisimman yksittäisen luvun. Kun neljä mallia konvergoituu konsensukseen, viidennen poikkeama kantaa enemmän sanottavaa kuin neljän yhtenäisyys.

Persoonallisuus joka kestää 44 päivää

Ja DeepSeekin pessimismi ei ole yksittäinen poikkeama. Jokaisella mallilla on tunnistettava luonteenpiirre, joka säilyy yli ajan.

Malli	Keskim. ero	Mediaani-ero	Päiv. muutos	Kalibrointi
Claude	+0,7 %	−3,9 %	1,0 %	60,2
GPT	−1,9 %	−6,4 %	3,7 %	59,3
DeepSeek	−4,4 %	−10,8 %	2,2 %	56,5
Gemini	−0,7 %	−6,2 %	3,2 %	55,2
Grok	−2,0 %	−6,2 %	1,5 %	55,1

Claude on vakain — päivittäinen muutos keskimääräisessä estimaatissa on 1,0 %. GPT muuttuu 3,7 prosenttia päivässä, yli kolme kertaa enemmän. Gemini ja GPT näyttävät korkeinta päivittäistä estimaattivaihtelua, Claude ja Grok pysyvät huomattavasti vakaampina. Mistä päivävaihtelu johtuu — uutisreaktioista, lämpötila-noisesta vai ankkuroinnin oskillaatiosta — emme suoraan datasta näe. Mutta kuvio itse pysyy.

Viisi mallia ei tuota viittä riippumatonta arviota. Ne tuottavat viisi näkökulmaa, joista jokaisella on oma allekirjoituksensa. Tämä on lähempänä viittä erilaista analyytikkopersoonaa kuin viittä riippumatonta hinnoitteluyritystä — ja siinä piilee paneelin informatiivisuuden ydin.

Takaisin Metaan

Palataan toukokuun ensimmäiseen päivään ja siihen 62 prosenttiyksikön hajontaan.

Se ei ole virhe. Se ei ole järjestelmän rikkoutumista. Se on systeemin luonteenpiirre — viisi mallia on koulutettu eri tavoin, ja koulutushistoria läpäisee promptin lukot. GPT:n optimismi (+79 %) ei ole sama kuin DeepSeekin maltillisuus (+17 %). Ne edustavat eri tulkintoja samasta syötteestä, ja ero kantaa informaatiota.

Sijoittajalle hajonta on signaali itsessään. Mediaani-arvio "+30 %" ei kerro samaa kuin spread "+17… +79 %". Jälkimmäinen kertoo että Metan arvostus on aidosti kiistanalainen — yksi malli näkee vahvaa kasvua, toinen näkee saturaatiota. Kahneman, Sibony ja Sunstein osoittivat ihmisanalyytikoista (*Noise*, 2021), että suurin osa ennustevirheistä ei tule systemaattisista vinoumista vaan satunnaisesta hajonnasta — pätevät analyytikot katsovat samaa dataa ja päätyvät eri vastauksiin. Tekoäly ei pakene tätä ilmiötä. Mutta paneelin etu on, että hajonnan näkee suoraan, sen sijaan että se piiloutuisi yhden vakuuttavan ennusteen taakse.

Tämä projekti ei kerro mihin osakkeeseen kannattaa sijoittaa. Se kertoo kuinka paljon yhtiön arvostuksesta on katsojassa ja kuinka paljon yhtiössä itsessään. Viisi rinnakkaista katsojaa paljastaa rakenteen, jota yksi yksinään peittäisi. Standardointi ei ole epäonnistunut. Se on tehnyt näkyväksi sen mitä yksi vakuuttava AI-arvio piilottaa.

Tämä raportti perustuu 5 060 valuaatioon, 44 kaupankäyntipäivään, 23 yhtiöön ja viiteen LLM-malliin. Tilastollinen luottamus vaihtelee kohdittain: havainnot Metan kaltaisten yhtiöiden hajonnasta ja FI/US-asymmetriasta lepäävät tukevimmin pohjalla, kun taas väitteet konvergenssin syistä ja DeepSeekin residuaalista ovat osittain rakenteen ohjaamia. 60 kaupankäyntipäivää on lyhyt aikajänne — moni tässä raportoitu efekti tarvitsee kolme kuukautta lisää aineistoa muuttuakseen havainnoista näytöksi.

AI Investor Barometer on kokeellinen tutkimustyökalu, ei sijoitusneuvontaa.