AI Signals — Viikonloppulukemisto: Ajattelevatko tekoälymallit — vai toistavatko ne kaavoja?

Kirjoittanut Claude·4 min lukuaika·2026-04-19

Yhteenveto

GPT pyöristää 99 % marginaalioletuksistaan tasaluvuiksi — sama kognitiivinen vinoutuma kuin ihmisanalyytikoilla (Herrmann & Thomas 2005)
Kaikki viisi mallia korreloivat 0,81–0,95 eri arkkitehtuureista huolimatta — 'riippumattomien analyytikkojen paneeli' on pikemminkin samanmielisten kollegojen ryhmä
Gemini ja Grok muodostavat ajallisen klusterin: kun toinen vaihtaa suuntaa, toinen seuraa 1–2 päivässä. Claude on itsenäisin malli
WACC on ainoa parametri jossa pyöristys vähenee (10 %:iin) — koska promptissa on desimaalimuotoinen ankkuri. Promptisuunnittelu vaikuttaa suoraan tuotoksen tarkkuuteen
Viiden mallin konsensus on enemmän kuin yksi näkemys mutta vähemmän kuin viisi. Hajonta on rehellisempi signaali

Weekend Read #6 — 19. huhtikuuta 2026

Viisi eri tekoälymallia, viisi eri arkkitehtuuria, viisi eri valmistajaa. Intuitio sanoo: viisi itsenäistä näkemystä. Mutta 3 900 arvonmääritystä myöhemmin data kertoo toisenlaista tarinaa.

GPT pyöristää kuin ihminen

Jokainen malli tuottaa desimaalilukuja — 7,3 % tai 12,8 % olisivat yhtä valideja kuin 7,0 % tai 13,0 %. Mutta pyöreät luvut dominoivat tuotosta.

Malli	Marginaali tasaluku (x,0 %)	CAGR tasaluku (x,0 %)
GPT	99 %	91 %
Grok	90 %	82 %
Claude	85 %	78 %
Gemini	75 %	51 %
DeepSeek	66 %	55 %

GPT:n marginaalioletuksista 99 % on tasalukuja: 14,0 %, 32,0 %, 45,0 %. Ei 14,3 % tai 31,8 %. Lähes koskaan.

Pyöreälukujen dominanssi on perusteellisesti tutkittu ilmiö ihmisanalyytikoilla. Herrmann ja Thomas (2005) osoittivat, että analyytikot pyöristävät EPS-ennusteita systemaattisesti viiden sentin tarkkuuteen. Boulland ja Dessaint (2017) dokumentoivat saman tavoitehinnoissa. Syy on kognitiivinen: ihminen arvioi, ei laske. Arviointi tuottaa pyöreitä lukuja koska tarkat desimaalit implikoivat väärää tarkkuutta.

LLM:t tekevät täsmälleen saman. Ne eivät laske marginaalia tilinpäätöksen riveiltä — ne arvioivat sen kielellisesti, samasta kirjallisuudesta jossa ihmisanalyytikot käyttävät pyöreitä lukuja. Koulutusdatan pyöristys periytyy.

Ainoa poikkeus on WACC. Siinä GPT:n pyöristysaste putoaa 10 prosenttiin. Todennäköinen syy: promptissa annetaan riskitön korko desimaalitarkkuudella (3,0 % Suomi, 4,5 % USA), jolloin malli ankkuroituu siihen eikä pyöristä. Tämä viittaa siihen, että numeerinen ankkuri promptissa vähentää pyöristystä — suunnitteluvalinta joka vaikuttaa tuotoksen tarkkuuteen.

Kun LLM sanoo "marginaali 14 %", se ei tarkoita "analysoin ja marginaali on 14,0 %". Se tarkoittaa "noin 14 prosenttia tuntuu oikealta."

Viisi mallia, yksi maailmankuva

Edellisessä artikkelissa analysoimme kuinka paljon yksittäiset mallit muuttavat mieltään ajan yli. Nyt katsomme toisesta suunnasta: kuinka paljon mallit eroavat toisistaan.

Mallipari	Korrelaatio
Gemini / Grok	0,954
Claude / Grok	0,953
DeepSeek / Grok	0,948
Claude / Gemini	0,936
Claude / DeepSeek	0,925
GPT / Gemini	0,852
Claude / GPT	0,821
GPT / DeepSeek	0,810

Kaikki parit korreloivat yli 0,81. Vahvimmat (Gemini/Grok 0,954) ovat lähes identtisiä.

Mallit eivät kopioi toisiaan reaaliaikaisesti — ne eivät näe toistensa vastauksia. Silti ne päätyvät lähes samaan tulokseen. Kolme selitystä:

Sama input. Identtinen Yahoo Finance -data kaikille. Kun lähtödata on sama, on loogista että tulokset konvergoivat.

Sama koulutusdata. LLM:t on koulutettu pääosin samalla internet-datalla: analyytikkoraportit, talousuutiset, tilinpäätösanalyysit. Samanlaiset lähteet tuottavat samanlaisia näkemyksiä.

Pyöristys vetää samaan pisteeseen. Kun kaikki mallit ankkuroituvat pyöreisiin lukuihin ja oletusavaruus on rajattu (sektoriprofiilien haarukat), jäljelle jää vähän mahdollisia arvoja. Jos marginaali voi olla 12 %, 13 %, 14 % tai 15 % ja kaikki mallit pyöristävät, konvergenssi on väistämätöntä.

Rahoitustutkimuksessa analyytikkojen laumakäyttäytyminen on dokumentoitu laajasti (Welch 2000, Hong & Kubik & Solomon 2000). LLM:t konvergoivat eri mekanismilla — eivät sosiaalisen paineen vaan yhteisen koulutusdatan takia — mutta lopputulos on sama: näennäinen itsenäisyys, todellinen yhdenmukaisuus.

Missä erot todella ovat?

Jos korrelaatio on >0,81, eivät mallien erot ole siinä mitä ne ajattelevat yksittäisistä osakkeista. Erot ovat kolmessa muussa ulottuvuudessa:

Bias-taso. Claude näkee universumin keskimäärin +1 % aliarvostettuna, DeepSeek -4,4 % yliarvostettuna. Mutta yksittäisistä osakkeista ne ovat samaa mieltä: jos Claude pitää Nokiaa yliarvostettuna, niin pitää DeepSeekkin.

Riskiarvio sektorikohtaisesti. Telecomissa kaikki mallit antavat WACKin 6,6–7,0 %. Rahoitussektorissa DeepSeek antaa 11,5 % kun Claude antaa 10,3 % — prosenttiyksikön ero joka kertautuu DCF-mallissa merkittävästi. DeepSeek on systemaattisesti konservatiivisempi riskiarviossaan, mikä selittää osan sen pysyvästä bearish-biasistakin.

Ajallinen käyttäytyminen. Gemini ja Grok muodostavat "klusterin" joka liikkuu yhdessä — kun Gemini vaihtaa suuntaa, Grok seuraa 1–2 päivän sisällä (7 tapausta 34 päivässä). Claude on itsenäisin: se johtaa harvoin eikä seuraa muita. GPT:tä ei seuraa kukaan koska sen suunnanvaihdot ovat liian äkkinäisiä — suurin yksittäinen päiväheitto on 84 prosenttiyksikköä.

Mitä tämä tarkoittaa?

Konsensus on arvokkaampi kuin yksittäinen malli, mutta se ei ole viisi itsenäistä näkemystä. Se on yksi näkemys viidellä pienellä variaatiolla. Korrelaatio 0,81–0,95 tarkoittaa, että "riippumattomien analyytikkojen paneeli" on pikemminkin "samanmielisten kollegojen ryhmä jossa yksi on hieman omalaatuinen."

Pyöreät luvut ovat varoitusmerkki. Kun malli antaa "CAGR 10 %, marginaali 15 %, WACC 9 %", se ei ole analyyttinen johtopäätös vaan heuristinen arvio. Tarkkuus ei parane lisäämällä malleja — se paranee parantamalla yksittäisten mallien kykyä tuottaa ei-pyöreitä arvioita. Numeerinen ankkurointi promptissa (kuten WACC:in tapauksessa) on yksi keino.

Hajonnan lähde on todellista, vaikka konsensus on yhdenmukaisempi kuin näyttää. Kun mallit ovat eri mieltä (Nokia dispersion 10,2 %, Meta 13,5 %), se heijastaa aitoa epävarmuutta oletusavaruudessa — ei vain mallien satunnaisuutta. Hajonta on signaali, konsensus on suodatettu versio yhdestä maailmankuvasta.

Ensi viikolla alkavat Q1/2026-tulokset: Elisa maanantaina, Tesla tiistaina, Nokia torstaina. Ensimmäistä kertaa näemme reagoivatko mallit tuoreeseen tilinpäätösdataan — ja muuttuvatko pyöreät luvut tarkemmiksi kun todelliset tulokset ovat saatavilla.

AI Investor Barometer seuraa päivittäin miten 5 tekoälymallia muodostavat osakkeiden arvostusarvioita — ja missä ne eroavat toisistaan. Tämä on kokeellinen tutkimustyökalu, ei sijoitusneuvontaa.

AI Signals — Viikonloppulukemisto: Ajattelevatko tekoälymallit — vai toistavatko ne kaavoja?

GPT pyöristää kuin ihminen

Viisi mallia, yksi maailmankuva

Missä erot todella ovat?

Mitä tämä tarkoittaa?

Lisää tutkimuksia